AI芯片初创企业Graphcore宣布,其最新的超大型AI芯片将在机架式四芯片服务器计算机中出售。Graphcore进入了不断扩展的专用AI服务器计算机市场。总部位于英国布里斯托尔的Graphcore已经获得了超过3亿美元的风险投资,2018年推出了首个用于AI加速的智能处理单元(IPU)。今天,该公司推出了第二代AI产品,称为Mk2GC200或Mark-2,这是一款大规模并行芯片,具有594亿个晶体管,每秒可实现约250万亿次运算(TOPS)。该公司致力于处理神经网络的机器学习操作的最新处理器。它将开始销售名为M2000的四芯片计算机,该计算机安装在标准的1U披萨盒机箱中。图:Graphcore的1U机架式M2000“IPU机器”是专用于AI算法处理的服务器。只需$32,450,能获得4芯片的千万亿处理能力,每秒2.8TB的网络连接以及高达450GB的内存。Graphcore首席执行官NigelToon在接受Zoom采访时对ZDNet表示:“这确实是自公司成立以来我们一直在进行的工作。”对于Graphcore而言,建造自己的计算机与现有的商业模式背道而驰,在该模式下,该公司出售可插入他人服务器计算机中的插入式PCIe卡。此前,Graphcore已与Dell合作开发基于这些卡的系统。Toon说,但是对机器集群的需求不断增加,这意味着有人必须解决将芯片扩展到超大型系统的问题。“关键在于,您知道人们想要做的是真正的大模型,”Toon说,他指的是人工智能中的神经网络计算机模型。Google和其他公司的程序越来越需要大量计算,以至于它们可能需要数十或数百个并行工作的芯片。Toon此前曾告诉ZDNet,这种模型更适合Graphcore的处理方法。“他们想要构建这些大型计算机系统,并且他们想要真正,非常快地进行培训,因此我们在这里要做的是构建更高效的计算机。”“您希望能够扩展系统,那么如何将这些设备连接在一起?”他反问道。“您需要专用的AI[网络]结构,因此我们已经在IPU机器中做到了这一点。”Graphcore在系统回声方面的重心在过去一年左右的时间里被多家AI芯片芯片供应商所采用。Nvidia是AI芯片中的主导力量,在五月份谈到了其新的DGX100服务器,该服务器运行了多个针对AI设计的A100处理器,强调了其主板所体现的系统工程的复杂性。去年秋天,初创公司CerebrasSystems推出了一种类似于超级计算机的系统,该系统运行在一个具有宿舍冰箱大小的盒子中,运行着全球最大的芯片。人工智能初创公司SambaNova的负责人RodrigoLiang在今年早些时候告诉ZDNet时表示,新兴的世界观是“必须构建整个系统”。Graphcore计算机的核心是Mk2GC200处理器芯片,该芯片甚至比已经巨大的公司第一款产品Mk1大。该公司从台积电的16nm制程技术转移到7nm制程,从而产生了594亿个晶体管芯片,尺寸为823平方毫米。这是Mk1中236亿个晶体管的两倍多,但仅略大于Mk1的815平方毫米。处理器的并行计算核心数量已经从1,280个增加到1,472个,而快速的片上SRAM存储器已经增加了三倍,达到900兆字节。该芯片可以执行相当于并行运行9,000个独立程序的功能,Toon表示。所有这些立即产生了巨大的提速,例如训练Google的BERT-Large自然语言神经网络的速度提高了9.3倍。目前尚无法与Nvidia进行性能直接比较,最直接的原因是Graphcore尚未获得NvidiaDGXA100的支持,尽管Toon表示计划在未来几个月直接进行基准测试。但是Toon证明了原始功率和连接性使M2000成为更加经济的机器购买。基本的四向服务器售价为32,450美元。以259,600美元的价格购买8台机器所产生的规格至少在纸面上远远高于以199,000美元的可比价格购买8台DGX机器所获得的能力:两个能够处理32位浮点精度的千万亿次运算的计算机数学,而DGX只有156teraflops;3.6TB的内存,而DGX则为320Gb。“要获得相同的吞吐量,您需要在Nvidia套件上花费300万美元,而在IPU机器上花费不到30万美元,”Toon说。Toon说,通过将多台计算机组装到一个集群中,这一想法得到了进一步的传播。可以在公司称为Pod-64的机柜中连接16台四芯片服务器,总共64块芯片。其中的1024个Pod可以联网,总共有64000个处理器并行工作。这样一来,总共可以进行16exaflops的计算,每秒带宽为3.2petabits。使用集群系统,工作量可以通过Graphcore的软件动态分配给这64,000个处理器中的任何一个,从而使白天从事不同工作的处理器组合可以改变。“也许您在白天进行推理,然后在晚上重新训练模型,”Toon说道。“或者也许您有一个研究团队,然后他们切换到一些需要将不同IPU配置连接在一起的不同模型,从而创建了一个完全无缝的配置。”为了实现群集,该公司发明了自己的群集连接技术,称为“IPU-Fabric”。该技术既可以作为M2000之间的直接连接,也可以通过以太网连接,它支持的带宽高达每秒2.8TB,这是该公司声称的低延迟。该公司表示,IPU-Fabric针对支持多台机器的AI工作负载所需的全缩减和其他数据移动等操作进行了优化。Toon借此机会在Nvidia上取笑,该公司于4月份以70亿美元的价格完成对MellanoxTechnologies的收购,以为其DGX系统获得高速互连。“我们已经有一支由100名员工组成的团队在奥斯陆工作了三年多,从头开始为AI打造这件事,而Nvidia则斥资70亿美元收购了Mellanox,也许只是为了跟上我们的步伐。”除了扩展的好处,Toon表示,该服务器产品将消除其他人构建定制服务器的需求,这对于戴尔等原始设备制造商而言是一个昂贵的过程。“我们正在说的是,看,您可以使用客户已经想购买的服务器。”“您只需将我们的IPU机器插入旁边的机架中,并根据需要插入任意数量,就可以在系统中添加AI处理。”Nvidia首席执行官JensenHuang在6月份推出DGX机器时也提出了类似的论点-减轻了Nvidia硬件合作伙伴的负担。在被ZDNet询问只想购买PCIe卡的大公司该怎么做时,Toon指出,实际上,大多数客户不会将旧卡换成新卡,因为新卡比原卡交付的功率更多。因此,卡片相对于密闭盒的吸引力要小于看起来的吸引力。“我们在这里所做的就是通过管理系统为人们提供一个平台,这样您就可以更改并设置功能来为您提供所需的性能。Toon指出,Graphcore在内部开发了PCIe卡,“我们可以去构建该产品,”他说。“我们正在研究它,我们可以沿着那条路线走,”Toon说。他说:“我认为到此为止,我们认为IPU机器具有很多优势,如果客户真的转过来说:不,我们只希望插入卡,那么我们可以打开它。”就目前而言,早期评论似乎很热情。Graphcore为M2000的客户提供了报价,包括牛津大学材料系的安德鲁·布里格斯教授(AndrewBriggs教授)正在使用该机器来加快量子计算的工作。他说,国防部对这项新技术及其将如何“推动我们进一步,更快地进入量子计算的未来”感到“异常兴奋”。劳伦斯·伯克利国家实验室,牛津nm孔和中国AI公司EspresoMedia也发表了类似的言论。Graphcore表示,摩根大通(JPMorganChase)表示,正在评估该系统,以“看看我们的解决方案是否可以加速他们在AI方面的进步,特别是在NLP和语音识别领域。”转载自摩尔芯闻。