本网页已闲置超过3分钟,按键盘任意键或点击空白处,即可回到网页

Graphcore推出第二代AI芯片强怼Nvidia
发布时间:2020-07-16
分享到:
Graphcore推出第二代AI芯片强怼Nvidia
发布时间:2020-07-16
分享到:

AI芯片初创企业Graphcore宣布,其最新的超大型AI芯片将在机架式四芯片服务器计算机中出售。Graphcore进入了不断扩展的专用AI服务器计算机市场。

总部位于英国布里斯托尔的Graphcore已经获得了超过3亿美元的风险投资,2018年推出了首个用于AI加速的智能处理单元(IPU)。

今天,该公司推出了第二代AI产品,称为Mk2 GC200或Mark-2,这是一款大规模并行芯片,具有594亿个晶体管,每秒可实现约250万亿次运算(TOPS)。该公司致力于处理神经网络的机器学习操作的最新处理器。它将开始销售名为M2000的四芯片计算机,该计算机安装在标准的1U披萨盒机箱中。

图:Graphcore的1U机架式M2000“ IPU机器”是专用于AI算法处理的服务器。只需$ 32,450,能获得4芯片的千万亿处理能力,每秒2.8 TB的网络连接以及高达450 GB的内存。

Graphcore首席执行官Nigel Toon 在接受Zoom采访时对ZDNet表示:“这确实是自公司成立以来我们一直在进行的工作。”

对于Graphcore而言,建造自己的计算机与现有的商业模式背道而驰,在该模式下,该公司出售可插入他人服务器计算机中的插入式PCIe卡。此前,Graphcore已与Dell合作开发基于这些卡的系统。

Toon说,但是对机器集群的需求不断增加,这意味着有人必须解决将芯片扩展到超大型系统的问题。

“关键在于,您知道人们想要做的是真正的大模型,” Toon说,他指的是人工智能中的神经网络计算机模型。Google和其他公司的程序越来越需要大量计算,以至于它们可能需要数十或数百个并行工作的芯片。Toon 此前曾告诉ZDNet,这种模型更适合Graphcore的处理方法。

“他们想要构建这些大型计算机系统,并且他们想要真正,非常快地进行培训,因此我们在这里要做的是构建更高效的计算机。”

“您希望能够扩展系统,那么如何将这些设备连接在一起?” 他反问道。“您需要专用的AI [网络]结构,因此我们已经在IPU机器中做到了这一点。”

Graphcore在系统回声方面的重心在过去一年左右的时间里被多家AI芯片芯片供应商所采用。

Nvidia是AI芯片中的主导力量,在五月份谈到了其新的DGX100服务器,该服务器运行了多个针对AI设计的A100处理器,强调了其主板所体现的系统工程的复杂性。去年秋天,初创公司Cerebras Systems 推出了一种类似于超级计算机的系统,该系统运行在一个具有宿舍冰箱大小的盒子中,运行着全球最大的芯片。人工智能初创公司SambaNova的负责人Rodrigo Liang在今年早些时候告诉ZDNet时表示,新兴的世界观是“必须构建整个系统”。

Graphcore计算机的核心是Mk2 GC200处理器芯片,该芯片甚至比已经巨大的公司第一款产品Mk1大。该公司从台积电的16nm制程技术转移到7nm制程,从而产生了594亿个晶体管芯片,尺寸为823平方毫米。这是Mk1中236亿个晶体管的两倍多,但仅略大于Mk1的815平方毫米。

处理器的并行计算核心数量已经从1,280个增加到1,472个,而快速的片上SRAM存储器已经增加了三倍,达到900兆字节。该芯片可以执行相当于并行运行9,000个独立程序的功能,Toon表示。

所有这些立即产生了巨大的提速,例如训练Google的BERT-Large自然语言神经网络的速度提高了9.3倍。

目前尚无法与Nvidia进行性能直接比较,最直接的原因是Graphcore尚未获得Nvidia DGX A100的支持,尽管Toon表示计划在未来几个月直接进行基准测试。

但是Toon证明了原始功率和连接性使M2000成为更加经济的机器购买。基本的四向服务器售价为32,450美元。以259,600美元的价格购买8台机器所产生的规格至少在纸面上远远高于以199,000美元的可比价格购买8台DGX机器所获得的能力:两个能够处理32位浮点精度的千万亿次运算的计算机数学,而DGX只有156 teraflops;3.6 TB的内存,而DGX则为320 Gb。

“要获得相同的吞吐量,您需要在Nvidia套件上花费300万美元,而在IPU机器上花费不到30万美元,” Toon说。

Toon说,通过将多台计算机组装到一个集群中,这一想法得到了进一步的传播。可以在公司称为Pod-64的机柜中连接16台四芯片服务器,总共64块芯片。其中的1024个Pod可以联网,总共有64000个处理器并行工作。这样一来,总共可以进行16 exaflops的计算,每秒带宽为3.2 petabits。

使用集群系统,工作量可以通过Graphcore的软件动态分配给这64,000个处理器中的任何一个,从而使白天从事不同工作的处理器组合可以改变。

“也许您在白天进行推理,然后在晚上重新训练模型,” Toon说道。“或者也许您有一个研究团队,然后他们切换到一些需要将不同IPU配置连接在一起的不同模型,从而创建了一个完全无缝的配置。”

为了实现群集,该公司发明了自己的群集连接技术,称为“ IPU-Fabric”。该技术既可以作为M2000之间的直接连接,也可以通过以太网连接,它支持的带宽高达每秒2.8 TB,这是该公司声称的低延迟。该公司表示,IPU-Fabric针对支持多台机器的AI工作负载所需的全缩减和其他数据移动等操作进行了优化。

Toon借此机会在Nvidia上取笑,该公司于4月份以70亿美元的价格完成对Mellanox Technologies的收购,以为其DGX系统获得高速互连。

“我们已经有一支由100名员工组成的团队在奥斯陆工作了三年多,从头开始为AI打造这件事,而Nvidia则斥资70亿美元收购了Mellanox,也许只是为了跟上我们的步伐。”

除了扩展的好处,Toon表示,该服务器产品将消除其他人构建定制服务器的需求,这对于戴尔等原始设备制造商而言是一个昂贵的过程。“我们正在说的是,看,您可以使用客户已经想购买的服务器。”

“您只需将我们的IPU机器插入旁边的机架中,并根据需要插入任意数量,就可以在系统中添加AI处理。” Nvidia首席执行官Jensen Huang在6月份推出DGX机器时也提出了类似的论点-减轻了Nvidia硬件合作伙伴的负担。

在被ZDNet询问只想购买PCIe卡的大公司该怎么做时,Toon指出,实际上,大多数客户不会将旧卡换成新卡,因为新卡比原卡交付的功率更多。因此,卡片相对于密闭盒的吸引力要小于看起来的吸引力。

“我们在这里所做的就是通过管理系统为人们提供一个平台,这样您就可以更改并设置功能来为您提供所需的性能。

Toon指出,Graphcore在内部开发了PCIe卡,“我们可以去构建该产品,”他说。“我们正在研究它,我们可以沿着那条路线走,” Toon说。他说:“我认为到此为止,我们认为IPU机器具有很多优势,如果客户真的转过来说:不,我们只希望插入卡,那么我们可以打开它。”

就目前而言,早期评论似乎很热情。Graphcore为M2000的客户提供了报价,包括牛津大学材料系的安德鲁·布里格斯教授(Andrew Briggs教授)正在使用该机器来加快量子计算的工作。他说,国防部对这项新技术及其将如何“推动我们进一步,更快地进入量子计算的未来”感到“异常兴奋”。

劳伦斯·伯克利国家实验室,牛津nm孔和中国AI公司EspresoMedia也发表了类似的言论。Graphcore表示,摩根大通(JP Morgan Chase)表示,正在评估该系统,以“看看我们的解决方案是否可以加速他们在AI方面的进步,特别是在NLP和语音识别领域。”

转载自摩尔芯闻。

加入微信技术交流群

技术交流,职业进阶

关注电路设计技能公众号

了解最新技术方案

加入电路城 QQ 交流群

与技术大牛交朋友

讨论