舍弃冯诺依曼架构突破内存墙瓶颈的AI芯片,即将轰动市场?

(来源:  北京半导体行业协会

链接:  https://mp.weixin.qq.com/s/PFAxNaRgcK3hIH4AMZT_mA

近几年再次兴起的AI热潮,不仅引发了芯片巨头们的AI芯片战,更让科技巨头们纷纷开始了AI芯片的研发。在AI芯片的争夺中,算力首先成为了焦点。不过,算力提升之后,算力与内存的不匹配又成为了阻碍AI向前发展的关键。

AI芯片的本质不是要解决计算问题,而是要解决数据和存储相关的内存墙问题。深度学习算法具有高并发、高耦合的特点,不仅有大量的数据参与到整个算法运行的过程中,这些数据之间的耦合性也非常紧密,因此对存储带宽提出了非常高的要求,大规模的数据交换,尤其是芯片与外部DDR(Double Data Rate SDRAM,双倍速率同步动态随机存储器,常简称为DDR)存储之间的数据交换,这将大幅增加了功耗。越来越多的AI芯片的IP提供方和AI芯片的设计公司都意识到,AI芯片的本质不是要解决计算问题,而是要解决数据问题。与数据和存储相关的带宽瓶颈、功耗瓶颈问题,被称为内存墙问题。

以前的芯片都基于传统冯·诺伊曼体系结构,这个体系结构是数据从处理单元外的存储器提取,处理完之后在写回存储器。因此,用冯诺依曼体系结构的处理器处理深度学习算法时,提供算力相对简单易行,但当运算部件达到一定的能力,存储器无法跟上运算部件消耗的数据,再增加运算部件也没有用,这无疑阻碍了AI芯片的向前发展。

为了解决内存墙问题,业界目前有4种常见的解决方法:第一种是加大存储带宽,采用高带宽的外部存储,如HBM2,降低对DDR的访问。这种方法虽然看似最简单直接,但问题在于缓存的调度对深度学习的有效性就是一个难点;第二种方法是直接在芯片里放入大量存储,采用分布式片上存储,抛弃DDR,比如集成几十兆字节到上百兆的SRAM。这种方法看上去也比较简单直接,但成本高昂也是显著的劣势。第三种方法则是从算法入手,通过设计一些低比特权重的神经网络,比如二值网络,简化数据和需求和管理。显然,这种方法是以算法精度、应用范畴为代价,难以被大范围应用。第四种方法是在存储单元内部设计计算单元的新型存储器中的相变存储器(PCM)进行存算一体化(In Memory Computing),因其自身的特性,已被IBM等科技公司多次证明能够在存储本地执行计算,提高能源效率降低功耗,是解决此方案的最佳存储介质,在推动AI芯片发展中具有先天的优势,这也是目前业内一个比较受关注的方向。(张乐辰摘录)


2019年3月25日

新闻动态