利用本性、借力培育打造令人惊叹的AI SoC

2019年05月15日 作者:satoll

在过去十年中,设计人员开发了各种硅技术,能够以足够快的速度运行先进的深度学习数学,以探索和实现人工智能(AI)应用,如目标识别、语音和面部识别等。机器视觉应用目前通常比人类更精确,它是推动新的片上系统(SoC)投资以满足日常应用AI开发的关键功能之一。在视觉应用中使用卷积神经网络(CNN)和其它深度学习算法已经产生了这样的影响——即SoC内的AI能力正变得普及。 Semico的《2018年人工智能报告》对此进行了有效总结:“......某种程度的AI功能几乎在各类硅片中都很强大、且发展势头强劲。”

除视觉应用外,深度学习还用于解决复杂问题,例如蜂窝基础设施的5G实现,以及通过自组织网络(SON)的配置、优化和修复自身的能力来简化5G操作任务。 5G网络将增加新的复杂层,包括波束成形、毫米波(mmWave)中的附加频谱、载波聚合和更高带宽,所有这些都需要机器学习算法在分布式系统中适当地优化和处理数据。

行业巨头和数百家初创公司都致力于将AI功能推广到各行各业的大量新的SoC和芯片组——从云服务器农场到每家厨房的家庭助理。 SoC设计师正在使用更多来自生物学的例子而不仅仅是他们旨在复制的神经网络;他们拥抱——利用设备的基本构建模块(本性或DNA),以及针对AI设计的培育(环境方面的设计工具、服务和专业知识等)——这两种概念,以期超越竞争对手并不断改进产品。

对AI SoC的培育已经不限于硅设计

在SoC中添加AI功能突显了当今用于AI的SoC架构的弱点。在为非AI应用构建的SoC上实现视觉、语音识别和其它深度学习/机器学习算法时,SoC的资源会捉襟见肘。选择和整合IP清楚地确定了AI SoC的基础效率,它构成了AI SoC的“DNA”或本征特性。 (参见:《AI SoC的DNA》)。例如,引入自定义处理器或处理器阵列可以加速AI应用中所需的大规模矩阵乘法运算。

然而,对设计的培育会影响各部分在硬件中如何协同工作,或者如何优化IP以实现更有效和优化的AI SoC。优化、测试和对比SoC性能的设计流程需要工具、服务和/或专业知识来优化AI系统。通过定制和优化在设计流程中支持设计可最终决定该SoC在市场中的成功。

随着AI SoC的复杂性不断增加,使用工具、服务和专业知识来降低功耗、提升性能和削减成本变得益发重要。设计师需要各种支持手段来加速其设计流程和芯片成功。

AI设计的三大挑战

依靠传统的设计流程不会产生每家公司都追求的高性能、市场领先的AI方案。设计师必须考虑各种半导体方案。 Semico的《2018年市场报告》指出,“用于培训和推理的架构在不断完善,以达到可提供恰当性能水平的最佳配置。”

数据中心架构包括GPU、FPGA、ASIC、CPU、加速器和高性能计算(HPC)方案,而移动市场则是各种片上处理方案的盛宴,如ISP、DSP、多核应用处理器、音频和传感器处理子系统等。可通过专有SDK有效利用这些异构方案,以包纳AI和深度学习功能。此外,对于预期中的自主驾驶能力,汽车市场诉求差异很大。例如,正如可预期的那样,Level 5自主驾驶SoC所支持的带宽和计算能力比Level 2+自主驾驶SoC所能支持的要高出得多。

这些AI设计中的三个一致性挑战包括:

  • 添加专门的可更高效地多地执行必要的数学运算(如矩阵乘法和点积)的处理功能
  • 用于处理深度学习所需的诸如权重和激活等特殊系数的高效内存访问
  • 用于芯片到芯片、芯片到云、传感器数据和加速器到主机连接的可靠、经过验证的实时接口

机器学习算法面临的最大障碍之一是传统SoC架构的内存访问和处理能力不尽如人意。例如,流行的冯·诺伊曼架构就面临着对AI不够有效的诟病,导致大家竞相搭建更好的机器(即SoC系统设计)。

那些有幸设计第二代和第三代面向AI的SoC的玩家已经添加了更高效的AI硬件加速器和/或选择为现有ISP和DSP添加功能以应对神经网络挑战。

然而,简单地添加有效的矩阵乘法加速器或高带宽存储器接口虽被证明有帮助,但尚不足以成为AI的市场领导者,这一局面强化了在系统设计期间专门针对AI进行优化的概念。

机器学习和深度学习适用于各种各样的应用,因此设计师在定义特定硬件实现的目标方面存在很大差异。此外,机器学习数学进展迅速,使架构灵活性成为一项强力诉求。对于垂直整合的公司,他们可能能够将其设计范围缩小到特定用途、增加优化,但也可以灵活地容纳其它不断发展的算法。

最后,正如发布在Linley旗下的《微处理器报告(Microprocessor Report)》 期刊的《AI基准测试仍不成熟》一文所讨论的那样,人工智能算法和芯片的基准测试仍处于起步阶段:

“几款流行的基准测试程序可评估CPU和图形性能,但即使AI工作负载变得越来越常见,比较AI性能仍是个挑战。许多芯片供应商仅引用每秒浮点运算的峰值执行率,或者仅针对整数设计的每秒运算。但与CPU类似,由于软件、内存或设计中其它部分的瓶颈,深度学习加速器(DLAs)的运行速度通常远低于峰值理论性能。大家都同意应在运行实际应用时测量性能,但在运行哪些应用以及如何运行方面各执己见。”(2019年1月)

有趣的新基准开始面对特定市场。例如,MLPerf目前正在研究训练AI SoC的有效性,并计划进行拓展。虽然这是解决基准测试挑战的良好开端,但训练AI SoC仅是影响系统结果的众多不同市场、算法、框架和压缩技术的一小部分。

另一家组织AI-Benchmark专注于对手机中的AI功能进行基准测试。手机使用少量芯片组,其中一些是早期版本,除了传统处理器之外不包括任何AI加速,采用的做法是针对AI的软件开发套件(SDK)实现。这些基准测试表明,利用现有的非AI优化的处理方案无法提供所需的吞吐量。

所选择的处理器或处理器阵列通常具有每秒操作的最大额定值或特定处理技术的特定最高频率。处理器性能还取决于每条指令的能力。另一方面,接口IP(PCIe®、MIPI、DDR)和基础IP(逻辑库、内存编译器)具有最大的理论内存带宽和数据吞吐量水平;在接口IP的情况下,通常由标准组织定义。

但是,系统的真正性能不是这些部分的简单总和;它取决于能够将处理器、存储器接口和数据管道正确连接在一起的能力。整个系统的性能由每个集成部件的能力以及如何优化这些部件来决定。

虽然设计师已经在AI SoC的处理器、SDK、数学和其它相关设计方面取得了快速进步,但这些变化使得进行逐项对比变得困难。

1 2 3

相关文章

  • 决定深度神经网络性能好坏3要素

    决定深度神经网络性能好坏有三个因素:训练数据、网络架构、优化算法。众所周知,深度学习需要大量的数据,而大多数AI领域的工程师,也将大多数时间花在了训练数据上,可见,训练数据是深度学习问题中最核心的一环。一般来说,数据越多,AI越智能,表现越良好。 这也是为什么一部分业内人士认为特斯拉优于Way
    2019年06月19日
  • STM32微控制器实现机器学习

    消费者对于健身跟踪器和其他个人移动设备具备“始终开启”运动跟踪功能的需求不断增长,在过去,这意味着设计人员需要在这些功能与电池寿命之间做出取舍。若是尝试降低功耗,势必会牺牲跟踪功能或分辨率,因而会使用户的体验受到影响。 不过,随着内置运动检测功能的低功耗传感器的出现,将有助于开发人员消除这一设
    2019年06月18日
  • 中国完全有实力打造自己的AI SoC

    在过去十年中,设计人员开发了各种硅技术,能够以足够快的速度运行先进的深度学习数学,以探索和实现人工智能(AI)应用,如目标识别、语音和面部识别等。机器视觉应用目前通常比人类更精确,它是推动新的片上系统(SoC)投资以满足日常应用AI开发的关键功能之一。在视觉应用中使用卷积神经网络(CNN)和其它深度
    2019年06月18日
  • 英伟达的投名状,基于RISC-V的深度神经网络加速器问世

    最近RISC-V指令集架构非常受关注,这种新的开源指令集可以让处理器开发人员方便地开发出各种类型的芯片。NVIDIA很早之前就加入了RISI-V基金会,并做了很多研究。近日NVIDIA的研究人员在2019年VLSI电路研讨会上发布了一篇采用RISC-V指令集开发了一款多芯片模块式的可扩展深度神经网络
    2019年06月17日
  • NVIDIA净利润暴跌68%的真相?人工智能:我不背锅

    NVIDIA今天发布了2020财年第一季度财报。截止2019年4月28日,NVIDIA季度收入22.20亿美元(GAAP下同),环比增长1%,同比下跌31%;毛利率58.4%,环比提高3.7个百分点,同比减少6.1个百分点;净利润3.94亿美元,环比下跌31%,同比下跌68%。 在上个季度,N
    2019年05月17日