尊龙凯时 - 人生就是搏!




    当前位置 >>  首頁 >> 綜合信息 >> 綜合新聞

綜合新聞

尊龙凯时在數模混合存算一體芯片方面取得重要進展

稿件来源:重点实验室 袁易扬、张康玮 發布時間:2024-02-26

當前,基于邊緣智能計算設備運行的人工智能應用日趨複雜及高精度,爲降低邊緣設備運行的延遲和功耗,存算一體技術被應用在邊緣設備端,通過減小數據搬運的開銷最大化減少邊緣設備上的延遲與功耗。但傳統的存算一體宏僅支持使用整數型數據計算,難以支持日趨高精度、高複雜度以及片上訓練的邊緣端智能計算任務。且僅使用單一模擬或數字方案的存算一體宏,在能量效率、面積效率和精度上難以取得最優化。如何有效結合模擬存算與數字存算模式優勢,在總體上取得更高的能量效率和面積效率,同時盡可能保證高精度,以及如何探索數模混合方案的設計空間,仍然是存算一體宏領域繼續解決的問題。

针对以上问题,中國科學院微电子研究所劉明院士团队研发出基于外积运算的数模混合存算一体宏芯片,设计了一种数模混合浮点 SRAM 存内计算方案,提出了模拟与数字存算宏的混合方法,结合了使用模拟存算方案进行高效阵列内位乘法和使用数字存算方案进行高效阵列外多位移位累加的优点,达到整体上高能量效率与面积效率。通过残差式数模转换器架构,使数模转换器所需分辨率仅为输入位精度的对数,实现了高吞吐率和低开销。通过基于矩阵外积计算数学原理的浮点/定点存算块架构,矩阵-矩阵-向量计算可通过累加器元件完成。同之前的数字存算方案使用矩阵内积原理的大扇入、多级加法器树相比,吞吐率更高。该架构还支持细粒度的非结构激活稀疏性以进一步提升总体能效。该存算一体宏芯片在28nm ?CMOS工艺下流片,可支持BF16浮点精度运算以及INT8定点精度运算,BF16浮点矩阵-矩阵-向量计算峰值能效达到了72.12TFLOP/W,INT8定点矩阵-矩阵-向量计算峰值能效达到了111.17TFLOP/W。这一研究结果为采用数模混合方案的存算一体架构芯片提供了新思路。

近期,本工作以“A 28nm 72.12TFLOPS/W Hybrid-Domain Outer-Product Based Floating-Point SRAM Computing-in-Memory Macro with Logarithm Bit-Width Residual ADC”为题发表在 ISSCC 2024国际会议上,微电子所博士生袁易扬为第一作者,张锋研究員与北京理工大学王兴华教授为通讯作者。该研究得到了科技部重点研发计划、国家自然科学基金、中國科學院战略先导专项等项目的支持。

28nm 基于外积的数模混合浮点存算一体宏芯片:(a)芯片显微镜照片,(b)芯片特性总结表


附件: