英特尔的“三种武器”:GPU、CPU、神经计算加速器

2019年11月17日 作者:Teardown

AI无处不在。从低至100mW以下的超低功耗应用,到望不到边际的计算机集群;从爱奇艺的4K、杜比电影频道到AI、虎牙直播时的实时美颜;从互联网游戏中的AI人物设定到短视频应用的AI换脸……英特尔的AI技术正渗透入互联网应用的方方面面,变得无处不在。

终端侧AI价值广阔

英特尔视觉计算软件合作部亚洲区总经理高源表示,相对云端AI,终端侧AI正在变得越来越重要,如电脑、手机、无人机、机器人等设备都开始具备承载AI的能力。

英特尔视觉计算软件合作部亚洲区总经理高源

高源认为,终端侧AI有四大驱动力,分别是低延时、无网络工作、隐私保护、节省服务器和带宽成本。

“例如无人机自动避障的应用,需要随时随地采集视觉信息,并能非常快速做出反应,我们不可能把视觉信息传到云端,再从云端做AI应用,这是来不及的。又如自动驾驶汽车开到了没有网络的森林,终端决策变得至关重要。”高源一一举例,家庭私人照片放到云端去之后怎样实现隐私保护,在终端侧做AI就可以很好地保护用户隐私;随着1080P、4K视频的流行,互联网服务商面临带宽和后端存储的压力,端能力的提升是环节源头压力的最好途径。

在英特尔紫竹科学园内,一台装备低电压版英特尔处理器的PC在仅数十兆带宽的网络环境下完美实现了4K视频的流畅播放。英特尔工程师告诉记者,“低电压版处理器加数十兆带宽就足够了,在性能、功耗、用户体验上都能满足要求。”

三层架构拥抱AI

当终端侧AI在蓬勃发展。多元化的应用场景又迅速定义了终端侧AI不同的特性。如终端侧AI需要长时间运行,对耗电敏感;偶尔运行、延时敏感;长时间运行,计算密集。

正是因为终端侧AI有这么多的使用场景以及非常不一样的特性,所以我们觉得单一的架构很难满足所有终端侧AI的需求,“特别是我觉得在业内,因为历史的原因,大家可能觉得一提到AI想到的就是需要一个独立显卡。”高源强调,这是一个很大的误区,AI不等于独立显卡,它需要不同平台来适应不同的AI应用。

对于英特尔来说,则从三类不同架构布局了终端侧AI的应用。

首先,GPU的硬件架构是高度并行化的,所以更适合一些很高性能的AI计算。但GPU也有自己的“短板”,计算启动延时比较大,适合大型数据处理带宽的应用。“其实,许多人不知道,英特尔是世界上最大的GPU供应商。”高源说,英特尔集成显卡占67%的市场份额,集成显卡是和CPU是共享系统内存的,所以在很多AI应用当中,集成显卡不需要在CPU、GPU之间来回拷贝内存的,这可以提升响应速度。

其次,CPU平台最大的特点是无处不在。CPU是软硬件非常统一的,无论是英特尔还是英伟达的都是X86架构,硬件和软件都非常统一。把AI放在CPU平台上很有效。例如,英特尔和相芯科技一起展示了利用PC同时对4路高清视频进行AI应用,比如说换头发、手势识别等,“大家可以看一下4路一起跑的时候,一个笔记本平台,它的CPU占用率也就是40%左右。很多AI应用对CPU的占用都是非常小的,是完全可以承受的。”

最后,英特尔专门设计了低功耗的AI加速器。一个是GNA,它不是一个独立的硬件,它是专门设计的电路,是集成在CPU处理器当中,所以在新一代处理器里已经有了。GNA的功耗小于100mw,所以它可以一直开着,不需要关的,这特别适合应用于语音应用。除此之外,英特尔还开拥有Movidius的VPU,VPU是专门为视频类应用设计的,例如用VPU来研制无人机自动避障功能。

赋能中国企业

网易雷火事业群高级技术总监邓杰表示,在GPU、CPU、硬盘等方面,网易都与英特尔保持了紧密的合作以优化游戏性能。例如,《战意》和《逆水寒》两款采用自研引擎的游戏,网易与英特尔工程师合作,提高了游戏在多核上的性能,让并行度分别提升了2.6倍和2.4倍,让游戏在比较低的配置上也可以流畅地运行。另外,网易还与英特尔一起针对华为最新笔记本电脑的双屏应用开发了针对性的应用,例如将关键信息放到第二块显示屏上,如聊天窗口、小地图、装备等,这样可以获得更广阔的游戏视野。

网易雷火事业群与英特尔针对华为双屏笔记本开发针对性的应用

而在YY直播平台,只要音频和视频的连线场景,如主播PK和观众连麦,都会有英特尔技术的介入,YY直播企业业务总监郑龙哲介绍,YY将更多地实时处理都放到了端上,“端上设备性能越强大,我们可达到的效果就会越好。我们是国内第一大音视频厂商,每月使用YY音视频业务的市场已经达到了60亿分钟。”

除此之外,YY在UGC内容审核、音频降噪、实时美颜、AR游戏等方面都应用了端AI的策略,而YY在商业直播版块的后端能力已具备了商业化推广的条件,据悉,其虚拟导播台技术可以低成本实现专业转播设备的多路高清直播功能,正考虑向全社会商业化开放能力。

相芯科技资深图形引擎开发经理蔡锐涛介绍,其PC端在线教育平台早期选择了TensorFlow作为底层神经网络推理框架,通过与英特尔的合作,展现了OpenVINO诸多优势,对硬件做了非常好的优化,“在Ice Lake上,OpenVINO(VNNI)比TfLite fp32能够得到9.82倍的性能提升,在AMD 3700上,OpenVINO也可以比TfLite有4.8倍的性能提升。”

相关文章

tracer