内存计算(CIM)如何解决AI能效危机：从理论到架构突破：原理解析、实操步骤、常见问题与优化建议，覆盖关键步骤与实践要点

Executive Summary (执行摘要)

AI计算工作负载的激增与固定的功率预算正迫使芯片和系统架构师更加认真地审视内存计算(CIM)，这项技术直到最近还被视为仅仅是科研项目。

The AI Energy Crisis (AI能源危机)

The Zettascale Challenge (泽塔级计算挑战)

在最近的Hot Chips 2023会议上，谷歌首席科学家Jeff Dean在主题演讲中指出，模型规模及相关计算需求每年增长高达10倍。[1] 虽然泽塔级计算(每秒至少10^21次运算)触手可及，但其代价高昂。

例如：AMD董事长兼CEO Lisa Su指出，如果当前趋势持续，首个泽塔级计算机将需要0.5吉瓦的功率，相当于单个系统消耗典型核电站一半的输出功率。⁠[2] 在日益关注能源需求和碳排放的世界中，数据中心可以无限增长的假设已不再成立。

Why CIM Matters (CIM为何重要)

The Memory Wall Problem (内存墙问题)

CIM解决两个问题：首先，在内存和处理器之间来回移动数据比实际处理数据消耗更多能量；其次，通过传感器等来源收集并存储在内存中的数据如此之多，在存储位置预处理至少部分数据速度更快。

机器学习模型相对于其适中的计算需求具有巨大的数据传输需求。在神经网络中，推理和训练阶段通常涉及将大矩阵(A)乘以输入向量(αx)，并向结果添加偏置项(βy)。

某些模型使用数百万甚至数十亿参数。对于如此大的矩阵，读写待操作数据可能比计算本身耗时更长。大型语言模型Chat GPT就是一个例子，其工作负载中内存受限部分占总执行时间的80%。⁠[3]

CIM Architecture Approaches (CIM架构方法)

Hybrid Computing Architectures (混合计算架构)

然而，设计高效的CIM架构并非易事。在今年VLSI研讨会上，西北大学研究员Yuhao Ju及其同事考虑了机器人应用的AI相关任务。⁠[5] 其中，通用计算占总工作负载的75%以上，包括轨迹跟踪和相机定位等任务。

一种可能的解决方案(如三星LPDDR-PIM加速器模块设计中所示)依赖于简单但通用的计算模块，针对矩阵乘法或其他算术运算进行优化。设计用于管理内存耦合计算的软件工具承担有效划分工作负载的任务。

Emerging Memory Technologies (新兴存储技术)

Reis及其同事设计了基于FeFET的可配置内存阵列以加速推荐系统。每个阵列可在RAM模式下读写查找表，在GPCiM(通用内存计算)模式下执行布尔逻辑和算术运算，或在内容可寻址内存(CAM)模式下并行搜索整个阵列。

3D集成的部分吸引力在于通过增加带宽和减少数据路径长度来提高性能的潜力。清华大学杜一伟及其同事在传统CMOS逻辑上构建了HfO2/TaOx ReRAM阵列，然后添加了带有InGaZnOx FeFET晶体管的第三层。

Industry Implications (行业影响)

三星和海力士等内存供应商多年来一直在Hot Chips等会议上展示内存计算概念。然而，正如Dean指出的，传统数据中心指标低估了能效而偏向绝对性能。在日益受限的功率环境中，这种性能优先的指标已不再足够。

Frequently Asked Questions (常见问题)

什么是内存计算(CIM)？
内存计算是一种将计算单元集成到内存阵列中的架构，通过在数据存储位置直接处理数据来减少数据传输能耗和延迟。
CIM如何解决AI能耗问题？
CIM通过减少处理器与内存之间的数据移动来降低能耗，研究表明某些AI工作负载中80%的执行时间受内存限制，CIM可显著改善这一瓶颈。
当前CIM面临哪些技术挑战？
包括架构设计复杂性、算法与硬件的协同优化、新兴存储技术的可靠性问题，以及软件工具链的成熟度等挑战。
哪些应用最适合CIM架构？
推荐系统、神经网络推理、图计算等内存密集型且计算相对简单的AI工作负载最适合CIM架构。
CIM的商业化进展如何？
三星、海力士等厂商已展示原型产品，学术界与工业界正加速研发，预计未来3-5年将在特定AI加速场景实现商业化部署。

内存计算(CIM)架构突破：2024年解决AI能效危机指南

AIAI Summary (BLUF)

Executive Summary (执行摘要)

The AI Energy Crisis (AI能源危机)

The Zettascale Challenge (泽塔级计算挑战)

Why CIM Matters (CIM为何重要)

The Memory Wall Problem (内存墙问题)

CIM Architecture Approaches (CIM架构方法)

Hybrid Computing Architectures (混合计算架构)

Emerging Memory Technologies (新兴存储技术)

Industry Implications (行业影响)

Frequently Asked Questions (常见问题)

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择

AIAI Summary (BLUF)

Executive Summary (执行摘要)

The AI Energy Crisis (AI能源危机)

The Zettascale Challenge (泽塔级计算挑战)

Why CIM Matters (CIM为何重要)

The Memory Wall Problem (内存墙问题)

CIM Architecture Approaches (CIM架构方法)

Hybrid Computing Architectures (混合计算架构)

Emerging Memory Technologies (新兴存储技术)

Industry Implications (行业影响)

Frequently Asked Questions (常见问题)

相关文章

深度实测：GLM-5.2长上下文与Kimi K2.7国际化，差距在哪

实测OpenAI API：gpt-3.5和gpt-4差距到底在哪

RAG七步工作流：分块做不对，后面全是白费

OpenAI有哪些AI模型？2026年GPT-4与GPT-3.5等如何选择