存算一体架构会成为AI硬件的未来吗?

9 人参与

昨天在咖啡馆里,隔壁桌的工程师正激动地聊起最近在实验室里玩的一块新芯片——它把存储单元和算子直接粘在了一起,连带的功耗下降好几档。听完我不禁想:这玩意儿会不会是AI硬件的下一个拐点?

存算一体到底是啥

所谓存算一体(In‑Memory Computing),简单来说就是让数据“住”在它被处理的地方。传统的CPU/GPU架构里,数据要在内存和算子之间来回搬运,搬运的次数往往占到总能耗的七八成。把算子嵌进存储阵列后,矩阵乘加可以在寄存器级别完成,省下的不是一点点,而是整整一个数量级的时间和电力。

从数据中心到边缘的驱动力

大模型在云端跑已经是常态,单是一次推理就要动用上百瓦的电力。把同样的模型迁到摄像头、无人机或智能手表上,电池续航瞬间成了天文数字。正因为如此,业界开始在边缘设备里试水存算一体:一块装在车载摄像头里的忆阻阵列,能把实时目标检测的能耗压到不到0.5瓦;在智能音箱里加入同类芯片,语音唤醒的待机功耗比传统DSP低了近七成。

技术挑战与最新突破

把算子塞进存储,听起来像是把厨房的烤箱搬进冰箱,细节自然不少。工艺上的非线性、器件老化导致的权重漂移、以及写入时的能耗峰值,都让设计者头疼不已。不过,近几个月的论文里出现了两类有意思的方案:一是利用自校准电路实时纠正忆阻的阈值漂移;二是把误差容忍写进算法,采用稀疏化的权重矩阵让少数失效的单元不影响整体输出。

  • 器件变异:不同单元的电阻值分布宽,导致计算误差。
  • 写入功耗:一次写入可能瞬间冲击数十瓦,需要旁路电源。
  • 编程模型:传统的指令集不适用,需要新的事件驱动API。

产业布局和真实案例

从学术到商业的桥梁已经搭好几根。英特尔的Loihi 2在2023年公布的基准测试里,针对1000类图像分类任务的能效比比同等规模的GPU高出约12倍;华为的昇腾系列在内部研发的存算加速模块上,声称在同等算力下把功耗压到原来的30%。更有创业公司推出的基于ReRAM的原型板,已经在手势识别实验中实现了毫秒级响应,功率低到可以直接从USB供电。

那么,存算一体会不会成为AI硬件的唯一方向?如果技术成熟度继续提升,或许我们会看到更多“算在记忆里”的设备,甚至在不久的将来,云端的大模型也可能在这种架构上跑得更快更省。但在变革的路口,总会有新问题冒出来——比如如何统一编程模型、如何在大规模生产中控制良率——这些都值得我们继续聊下去。

参与讨论

9 条评论
  • 社牛小松

    这个思路确实省电,不知道量产成本怎么样

  • 木匠赵六

    之前做AI芯片时接触过类似方案,工艺稳定性是个大坎

  • 诗意的栖息

    忆阻器那部分有点难懂,能再解释下权重漂移吗?

  • 轻舟已过

    车载摄像头那个例子很实用,我们项目组也在考虑类似方案

  • 害羞小考拉

    感觉技术方向是对的,但离大规模商用还有距离

  • 人群恐惧症

    英特尔那个12倍能效比数据靠谱吗?有实测验证过没?

  • 蜜桃喵呜

    这种架构对软件生态要求太高了,光有硬件不够啊

  • 懒懒的熊猫

    要是能解决良率问题,确实可能改变边缘计算格局

  • 赫尔死亡

    功耗压到USB供电这点太实用了,适合物联网设备