英特尔十代酷睿处理器对比九代酷睿:可不仅仅是10nm工艺的提升

2019年08月13日 作者:Teardown

指令集与AI加速

指令集随着新单元的加入也同时进行了扩充,在加密解密、AI加速、通用计算、特定计算等方面都新加入了不少指令,尤其是AVX-512指令集。

对于近几年大热门的人工智能,Intel一方面在Uncore部分加入了自家的“高斯网络加速器(Gaussian Network Accelerator)”这样类似于手机SoC上面常见的AI硬件加速电路,还通过引入AVX512VNNI指令集,使用AVX-512单元来进行AI相关的加速计算,Intel将这种加速称为"DL(Deep Learning) Boost"。这是一种很聪明的取巧办法,专用计算单元的引入可以保证一定的加速性能,而新指令集的加入同时也可以更加充分地利用上新的CPU特性。

加密解密指令集上面的改动诸如AES的吞吐量加大、加入新的针对SHA算法的一系列指令等,总之在编译器进行适当优化的前提下,Ice Lake的加密解密性能是比Skylake强不少的。

小结

简单归纳一下Sunny Cove微架构的改进点:

  • 改进了预取器与分支预测器的性能
  • 一级数据缓存增大50%
  • 一级缓存存储带宽增大100%
  • 二级缓存增大100%
  • 微指令缓存增大50%
  • 每周期能够加进乱序重排缓冲区的微指令多了25%
  • 乱序重排缓冲区大了57%
  • 后端执行端口多了25%
  • 支持AVX-512等新指令集

综合以上的改进,Sunny Cove相对于Skylake在IPC上面取得了平均18%的进步,而对于Broadwell或者说Haswell,则是有47%的进步幅度,在针对AVX-512进行优化过的测试中,最高可以比上代移动低压处理器快2~2.5倍。在摩尔定律前进缓慢的今天,这个数字已经非常高了。

题外话,其实很多改进在Cannon Lake上面就已经有了,比如AVX-512、相关的指令集变动和缓存带宽增加等,还有些改动是从Skylake-Server架构上面下放而来的,比如AI加速的指令集其实已经在服务器端处理器上出现了。但因为Cannon Lake实际被Intel放弃,所以继承了Cannon Lake改进点的Sunny Cove内核架构才能在相比较Skylake时得到平均18%的IPC进步,如果一切正常,Intel的10nm没有延期,Ice Lake应该是Cannon Lake的下一代,对比起来就没那么大的进步幅度了。

第11代图形架构

Ice Lake的核显首次达到了1TFlops的计算性能,还增加了不少的功能特性,可谓改进颇多。Intel用了"the most powerful version"来形容这代核显的性能,怎么做到的呢?

借助10nm工艺,暴力堆叠规模

Intel的10nm工艺在晶体管密度上的提升幅度是真的很大,14nm时代最多配备24组EU的核显,在Ice Lake上面直接就翻了2.67倍,最大可以达到64组EU,并且频率也不低,最高可以跑到1100MHz,比以前只低了50MHz,此时核显整体的FP32计算量已经达到了1.15TFlops。鉴于此,相比于八代酷睿处理器上搭载的第9代核显,Intel官方宣称可以提供平均约1.8倍的帧率。

你一定想问第10代去哪里了对不对,其实还是在夭折了的Cannon Lake上面,而且唯一一颗的核显还是被屏蔽了的。

目前在移动低压版Ice Lake处理器上面,Intel一共提供了G1、G4和G7三种配置的核显,分别有32/48/64组EU,低端的G1命名仍为"UHD",而G4和G7都以"Iris Plus"的品牌出现。

除了通过制程进步来堆叠EU数量之外,内部架构的优化也同样重要。

内部架构优化

首先通过增加单个Slice中含有的子Slice来扩大规模,使得每周期的计算次数增加。

其次是在缓存系统上做文章,扩大了三级缓存的容量,Intel方面公布的是EU的三级缓存有3MB,并且还有0.5MB的本地共享内存。另外还有通过处理器的内存控制器升级,能够用上更高的内存带宽。

1 2 3 4 5

相关文章

tracer