昨天在咖啡馆里,隔壁桌的工程师正激动地聊起最近在实验室里玩的一块新芯片——它把存储单元和算子直接粘在了一起,连带的功耗下降好几档。听完我不禁想:这玩意儿会不会是AI硬件的下一个拐点?
所谓存算一体(In‑Memory Computing),简单来说就是让数据“住”在它被处理的地方。传统的CPU/GPU架构里,数据要在内存和算子之间来回搬运,搬运的次数往往占到总能耗的七八成。把算子嵌进存储阵列后,矩阵乘加可以在寄存器级别完成,省下的不是一点点,而是整整一个数量级的时间和电力。
大模型在云端跑已经是常态,单是一次推理就要动用上百瓦的电力。把同样的模型迁到摄像头、无人机或智能手表上,电池续航瞬间成了天文数字。正因为如此,业界开始在边缘设备里试水存算一体:一块装在车载摄像头里的忆阻阵列,能把实时目标检测的能耗压到不到0.5瓦;在智能音箱里加入同类芯片,语音唤醒的待机功耗比传统DSP低了近七成。
把算子塞进存储,听起来像是把厨房的烤箱搬进冰箱,细节自然不少。工艺上的非线性、器件老化导致的权重漂移、以及写入时的能耗峰值,都让设计者头疼不已。不过,近几个月的论文里出现了两类有意思的方案:一是利用自校准电路实时纠正忆阻的阈值漂移;二是把误差容忍写进算法,采用稀疏化的权重矩阵让少数失效的单元不影响整体输出。
从学术到商业的桥梁已经搭好几根。英特尔的Loihi 2在2023年公布的基准测试里,针对1000类图像分类任务的能效比比同等规模的GPU高出约12倍;华为的昇腾系列在内部研发的存算加速模块上,声称在同等算力下把功耗压到原来的30%。更有创业公司推出的基于ReRAM的原型板,已经在手势识别实验中实现了毫秒级响应,功率低到可以直接从USB供电。
那么,存算一体会不会成为AI硬件的唯一方向?如果技术成熟度继续提升,或许我们会看到更多“算在记忆里”的设备,甚至在不久的将来,云端的大模型也可能在这种架构上跑得更快更省。但在变革的路口,总会有新问题冒出来——比如如何统一编程模型、如何在大规模生产中控制良率——这些都值得我们继续聊下去。
参与讨论
这个思路确实省电,不知道量产成本怎么样
之前做AI芯片时接触过类似方案,工艺稳定性是个大坎
忆阻器那部分有点难懂,能再解释下权重漂移吗?
车载摄像头那个例子很实用,我们项目组也在考虑类似方案
感觉技术方向是对的,但离大规模商用还有距离
英特尔那个12倍能效比数据靠谱吗?有实测验证过没?
这种架构对软件生态要求太高了,光有硬件不够啊
要是能解决良率问题,确实可能改变边缘计算格局
功耗压到USB供电这点太实用了,适合物联网设备