让AI on PC的英特尔黑科技——AVX512指令集在消费级处理器中的应用

新闻动态

2020-07-01

CPU挤牙膏一直是目前市场绕不开的话题，针对-Intel挤牙膏的各种段子也是层出不穷。但实际上，Intel已经默默地将许多超算技术应用在了消费级处理器中，比如AVX521及其扩展指令集VNNI，不断提升处理器中的AI性能，使得处理器的整体性能得到进一步提升和优化。

很多用户都有这样一个认知，即目前的PC处理器无论是性能还是应用已经进入了一个瓶颈，比如使用16核的CPU上网没比4核的CPU快多少，PC处理器已经“性能过剩”。但实际上，这样的认知是非常浅显的。不必说专业领域的用户对计算机性能的极致追求，随着互联网技术的飞速发展，普通用户对于图像、视频的需求越来越多，要求也越来越高，比如，将语音转换成文本，视频图像的自动优化等等，这对于处理器性能的要求对比文本处理有了指数级的提升。如果能把超算的应用需求和技术带入到消费市场，就能让用户明显感受到PC性能的提升，因为超算是高度并行的，大规模扩展的计算机，对核心数，并行性能都有很高要求。

其实， Intel很早就前瞻性的洞察到这一趋势和需求，并一直致力于此，更重要的是Intel也一直是这么做的，不仅仅是未来5-10年，而是现在已经将大量的超算技术带到消费市场，带给普通消费者使用，为什么可以这么说?

Intel是超算市场尤其是超算CPU市场的绝对大户，目前最快的500台超级计算机使用Intel CPU的占到近95%，可以说CPU在超算中的核心技术，Intel绝对是当仁不让的领导者，而Intel针对最新的超算处理器打造的至强可扩展系列处理器拥有诸多新特性，不仅仅体现在单纯的核心数量上，还有更快的CPU点对点互联总线UPI，节点互联解决方案Omni-Path，软件上Intel Parallel Studio套件能提供从软件开发环境，性能调优，高性能数学库到编译器等工具，全方位为开发者和用户提供最具性能的应用软件，通过多线程和向量化的全面优化，性能提升会有一个空前提高。

[MD:Title]

而在CPU核心内，看似其貌不扬的至强处理器支持最新的高级矢量扩展AVX-512指令集，这是X86 CPU最新的宽矢量数据处理实现，Intel对其提供了单次512位数据和控制指令的执行单元，使得CPU单次可处理的组合矢量数据宽度达到512位，并且扩展到32个512位ZMM寄存器，保证数据处理的暂存需求，也支持FMA融合乘加操作，这相比目前主流产品和竞品的AVX2的256位矢量处理能力高了一倍，更重要的是通过大量补充扩展，大大加速了某些特定操作的速度，使其获得超过2倍的提升。

而这强大的数据处理能力就需要极高的应用需求才能体现其威力，目前超级计算机和科学计算领域已经大量使用AVX512配置文件提升其计算效率，NAMD，Gromacs，lammps，Intel Media SDK，Ospray定制渲染器在各个领域都能通过AVX512加速实现速度更快或者更丰富特效的运算，图像以及各类多媒体应用，而这目前还只停留在专业用户中，属于不折不扣的超算级应用，但Intel已经开始行动，目前的酷睿i9 X系列处理器全系支持AVX-512指令集，并且保持与高端服务器相同的2个512位FMA单元，

同时在笔记本中，去年刚刚推出的的第十代智能Intel酷睿IceLake系列也支持了AVX512指令集，未来Intel酷睿产品线将全部支持AVX-512指令集以及相关最新扩展，可以说，你不需要等待5-10年，现在就可以将超算技术揽入怀中。这也是Intel作为技术领导者的先见之明。

[MD:Title]

而刚刚提到的语音转化为文字的应用也已经正在被Intel大量实现，Intel倡导到AI推理实现已经被大量用于语音识别，图像识别和文字识别的应用中，基于AVX512指令集的VNNI则是Intel最新的AI推理加速指令集，通过将原本int8的融合乘加操作所需的三条指令变为一条指令执行，大幅提高了int8数据类型的AI卷积计算相关推理应用的速率，

[MD:Title]

通过VNNI的VPDPWSSD指令完成过去三条指令才能完成的int8相乘与int32累加操作。

而通过第十代Intel酷睿X系列、IceLake支持AVX512 VNNI，Intel也把最新的AI推理技术带到了消费市场，通过最新的图像识别，分类，语音和文字识别应用以及Intel OpenVino AI推理优化框架，将会大幅提高用户在文字和图像识别应用的体验，更快的完成一些图像处理工作。

这还不是全部，Intel从第六代酷睿处理器开始，在部分主流处理器型号上支持了TSX指令集，这是一种事务内存负载扩展指令，旨在数据库事务中，处理高并发业务时对数据表同步修改时，涉及数据被修改时加锁问题的处理，多线程并发修改数据表往往需要程序加锁，程序对数据每次的修改进行判定和仲裁，但锁本身也是程序代码形成的，执行锁的操作会大幅降低并发性还增加了CPU执行压力，而TSX是一把粗粒度的锁，将包含事务性的操作的critical section包起来;由硬件自动检测操作中的数据冲突，保证事务性操作的正确性，发掘操作间的并行性，这能从中挖掘出更多并行机会，而如今，诸多模拟器用户已经越来越重视TSX指令集的支持，因为这能大幅提高高性能需求模拟器的效率，如PS3模拟器，而这也是服务器端数据库事务的看门秘笈，使用TSX后，相比不支持的其他产品和竞品，单纯的事务吞吐率最高可提升10倍，而这样的专业级指令集，在X系列处理器，桌面较高阶型号的处理器上均有支持。(详情参看Intel ARK)

Intel这样的创新型科技企业已经走在了产业前面，Intel通过强有力的软硬结合手段，已经为消费用户带来了诸多企业级，超算级技术支持，将原本在企业级上才能使用的AI技术和性能应用在了PC端上，为消费者不断挖掘新的使用体验，为积极应对最新应用需求打下了坚实基础，想来，目前也只有Intel才能做到。有了这项黑科技的加持，你还认为Intel的CPU在挤牙膏么?

来源: 快科技作者：cici 编辑：cici

上一篇: 投资人眼中，AI公司还值钱吗？｜超级沙龙

下一篇: ∑co时间 | 百年心电 AI新起点