类脑脉冲大模型 “瞬悉 1.0”(SpikingBrain-1.0)是什么?

发布于: 雪球转发:0回复:0喜欢:2

类脑脉冲大模型 “瞬悉 1.0”(SpikingBrain-1.0)是中国科学院自动化研究所李国齐、徐波团队与沐曦 MetaX 合作研发的全球首款全流程国产化类脑脉冲大模型,于 2025 年 9 月 8 日正式发布。其核心突破在于模仿人脑神经元的脉冲通信机制,通过 “内生复杂性” 理论重构大模型架构,在国产 GPU 集群上实现了高效训练与推理,为突破 Transformer 架构瓶颈提供了全新技术路线。

一、核心技术特性与优势

类脑脉冲架构与内生复杂性理论
传统 Transformer 依赖 “外生复杂性”(增加模型规模和数据量),而 “瞬悉 1.0” 借鉴大脑神经元内部动力学机制,提出 “内生复杂性” 理论,通过脉冲神经元模型与线性注意力机制融合,将训练复杂度从平方级降至线性级,推理时显存占用从线性增长变为常数级。例如,在 100 万 Token 长度下,其生成首个 Token 的时间相比 Transformer 架构加速 26.5 倍,400 万 Token 时加速超 100 倍。

低数据量高效训练与国产算力适配
该模型仅需主流模型2% 的预训练数据,即可在多任务语言理解(MMLU)、中文多任务语言理解(CMMLU)等基准测试中达到与 Llama-3-8B、Mistral-7B 等 Transformer 模型相媲美的性能。其训练与推理全过程均在沐曦 MetaX 曦云 C550 GPU 集群上完成,并开发了适配国产硬件的并行计算框架、Triton 算子库和通信原语,实现训练效率较国际主流方案提升 40%,推理延迟降低 65%。

低功耗与边缘计算潜力
通过动态阈值脉冲化策略和混合专家模型(MoE),“瞬悉 1.0” 在 7B 模型上实现了69.15% 的稀疏度,长序脉冲占比仅 1.85%,乘加运算能耗相比传统 FP16 和 INT8 分别降低 97.7% 和 85.2%。测试显示,其在手机 CPU 上处理 128k-256k 长度文本的速度较 Llama3.2 提升 7.52-15.39 倍。

二、未来发展方向

多模态与跨领域扩展

技术融合:引入跨模态脉冲神经元模型,将视觉、语音等多模态数据与语言模型结合,拓展至视频生成、智能机器人等场景。

科学计算深化:针对分子动力学模拟、量子物理等领域,优化脉冲神经元对连续物理过程的建模能力,提升计算精度与效率。

硬件协同与生态构建

类脑芯片适配:与寒武纪龙芯中科等合作,开发专用脉冲处理器,充分释放事件驱动、稀疏异步的低功耗优势。

开源与标准制定:通过开源 7B 模型和技术报告,吸引开发者参与生态建设,并主导类脑模型评估标准、脉冲神经网络接口规范等国际标准制定。

技术理论突破

脑机接口结合:探索脉冲神经元模型与神经信号解码的融合,推动脑机接口从 “单向控制” 向 “双向交互” 升级,例如实现意念控制与模型反馈的闭环。

量子类脑计算:研究量子叠加与脉冲神经元的协同机制,探索更高效的神经元状态表示与计算范式,突破经典算力瓶颈。

三、落地应用场景

超长序列处理刚需领域

法律与医疗:快速解析百万字合同、病历,提取关键条款或病理特征。例如,某三甲医院测试中,电子病历诊断建议生成时间从分钟级缩短至秒级。

科学研究:高能粒子物理实验数据解析、DNA 序列分析等,如将全基因组测序时间从 4 小时压缩至 30 分钟。

边缘计算与实时决策

工业与交通:复杂多智能体系统(如自动驾驶车路协同)的实时决策,减少数据传输延迟并提升安全性。测试显示,其在手机 CPU 上处理 256k 长度文本的速度较传统模型提升 15 倍以上。

物联网与传感器网络:在低功耗设备(如无人机、智能摄像头)上实现边缘端实时推理,例如长航时航拍视频的异常检测。

绿色计算与能源优化

数据中心能效:结合曙光 AI 超集群的液冷技术,构建 PUE 低于 1.04 的绿色算力中心,适用于金融、政务等对能耗敏感的领域。

新能源管理:通过脉冲模型预测电网负载波动,优化光伏、风电等可再生能源的调度与存储效率。

四、国内外竞品对比与差异

(一)国内主要团队与技术路径

复旦大学甲骨文破译框架

技术特点:基于视觉语言模型的部首 - 象形双重匹配机制,实现甲骨文零样本破译。

差异:聚焦特定领域(古文字识别),未采用脉冲神经元架构,依赖传统 Transformer 的外生复杂性扩展。

华为云盘古大模型

技术特点:基于 Transformer 的多模态大模型,覆盖自然语言、图像、语音等领域。

差异:未涉及类脑脉冲机制,侧重规模化预训练与行业场景适配,能耗与算力需求较高。

(二)国际代表性项目与技术对比

IBM TrueNorth 与 NorthPole 芯片

技术特点:TrueNorth 采用脉冲神经网络(SNN)架构,支持事件驱动与低功耗边缘计算;NorthPole 进一步集成存储与输入输出,提升实时多传感器融合能力。

差异IBM 聚焦硬件设计,模型规模较小(百万级神经元),适用于实时感知与控制任务;“瞬悉 1.0” 则侧重软件模型的大规模训练与复杂任务处理,需与专用硬件协同才能发挥最大潜力。

微软 CircuitNet 与 SNN 框架

技术特点:CircuitNet 模拟大脑神经回路的局部密集 - 全局稀疏连接,提升参数效率;SNN 框架用于时间序列预测,结合中枢模式发生器(CPG)实现位置编码。

差异微软方案侧重特定任务(如时序预测),未构建通用大模型;“瞬悉 1.0” 则通过内生复杂性理论实现通用智能,并支持超长序列与多模态扩展。

高通 Zeroth 与三星 Neocortex

技术特点:Zeroth 早期探索类脑计算,但近年进展有限;Neocortex 采用脉冲神经网络,目标提升移动设备 AI 能效。

差异:国际企业多停留在硬件或小模型阶段,缺乏像 “瞬悉 1.0” 这样的大规模类脑脉冲大模型,且未实现全流程国产化。

五、总结

“瞬悉 1.0” 的问世标志着我国在类脑计算与大模型融合领域迈入世界前沿。其类脑脉冲架构、低数据高效训练和国产算力适配能力,为解决当前大模型算力瓶颈、推动智能产业自主可控提供了新路径。未来,随着与曙光 AI 超集群、类脑芯片等国产基础设施的深度融合,该模型有望在科学研究、医疗、工业等领域释放巨大价值,助力我国从 “算力追赶” 转向 “技术引领”。