按参数算，人脑相当于多大的模型？答案是：要看怎么算。

cirock · 发表于 2026-3-3 16:08:52

按参数算，人脑相当于多大的模型？

答案是：要看怎么算。
如果只看神经元的个数，人脑大概是860亿个神经元，也就是86B的模型，并不大。
参考一下，DeepSeek V3是671B，Kimi K2.5大概1000B，即1T；
但事实上人脑每个神经元又有7000个突触，从技术的角度类比，颗粒度更小的突触才更像AI模型的权重参数。

如果这么算，860亿*7000，那么人类大脑相当于大约600T模型。

而这么大的模型，今天的硬件肯定暂时还跑不动。

这么类比略糙。

但也说明——咱们这颗脑子的架构还是很复杂的，属于先进制程。

有点牛逼。

二

那么，大脑的制程到底有多先进呢？

我随即问了Claude opus 4.6和Gemini 3.1 Pro一个问题（实在受不了GPT无比谄媚的风格）——

“如果人脑是一块芯片，那么它的制程是几纳米的？”

他们的答案出奇一致：

如果看神经元细胞体直径的直径，大概 10000-100000 纳米 (10-100微米)。

这么看大脑相当于几十年前的电子管计算机。

这TM也太落后了。

但逻辑显然不是这样的：

神经元并非一个简单的开关，它更像处理器的一个核，真正的开关和信号传递发生在突触。

那么突触是什么水平的制程呢？

神经元之间传递信号的突触间隙，它的宽度大概是20到40纳米。

这相当于台积电2012年左右的水平，也就是28nm工艺。

说句糙的：如果单看这个指标，咱们得脑子也就是个iPhone 5的水准。

然而，账不能这么算，碳基又碳基牛逼的地方——

我人脑传递电信号最细颗粒度的单元是——细胞膜上的离子通道蛋白（Ion Channels）。

这些蛋白质孔道的直径只有0.3~0.5纳米，这个尺寸仅允许单个离子（如钠、钾离子）排队通过。

在这个层面上，我人类牛逼的大脑达到了原子级别，也就是0.3nm工艺。

这是目前包括台积电在内的所有硅基芯片还没达到的物理极限。

所以，从架构层面，人脑：有点东西。

三

再说一说功耗，人脑的功率大约20瓦，恒定运行。

注意，这20瓦不是只全部用来想问题的，是同时在管呼吸、心跳、消化、情绪，也包括你现在对我发这篇文章的阅读理解。

认知神经科学的测量显示，大脑在高强度思考时功耗只比静息态多出大约1 瓦。

这意味着，一个问题想 5 秒钟，额外耗电约0.0014瓦时（瓦是功率单位，瓦时是耗能单位，还记得吧？）。

那AI回答一个问题要耗多少能量呢？

恰好去年6月10日，山姆*奥特曼在它的个人博客上那篇著名的《温和的奇点》的文章里披露过——http://t.cn/A6eCTsqB

“人们常常好奇 ChatGPT 查询会消耗多少能量；平均而言，一次查询大约消耗 0.34 瓦时，这大约相当于烤箱在一秒多一点的时间里消耗的电量，或者一个高效节能灯泡在几分钟内消耗的电量。”

0.0014瓦时 VS 0.34瓦时。

我人脑依然领先2个数量级。

很显然，无与伦比的功耗，也是碳基智能的一个显性优势。

五

DeepSeek V3的上下文窗口是 128K，大约十万字。

最新的Claude Opus 4.6 到了1M，接近百万字，差不多是一整本《红楼梦》塞进去还有余。

人脑的上下文长度是多少？

答案是：很难评。

短期记忆，我根本记不住两个以上的手机号码。

心理学家米勒1956年在那篇引用量破天际的论文《The Magical Number Seven, Plus or Minus Two》中量化过了，工作记忆的容量是 7±2 个组块。

你甚至记不住一个稍微复杂的验证码。

按这个算，人脑的上下文窗口大概也就几十个token，连GPT-2都不如。

但长期记忆呢？

你可以记住15年前初恋的样子。

其实，大脑的存储本身是很大的——

2016年，Salk研究所的研究给出过一个参考数字：每个突触可以存储大约4.7bits的信息。

按照大脑皮层约125万亿个突触来算，仅皮层的存储容量就达到了大约74 TB，整个大脑的存储容量还要高一个数量级。

所以，大脑的上下文窗口到底是长是短？

这个问题本身就问错了，因为人脑压根不是用上下文窗口这个东东来运行的。

大脑最牛逼的是压缩与抽象。

你不需要记住老板三个月来发的所有微信，你只需要记住一个判断：这人不靠谱。

这个压缩比，任何模型都做不到。

六

有意思的是，DeepSeek在模拟类似的效果——

今年年1月，DeepSeek放了一个牛逼的东西：Engram，梁文锋亲自挂名。

Engram论文的核心搞法是：把想和记分开——75%的算力给推理，25% 给记忆查找。

这TM不就是人脑的运作方式么？

丹尼尔·卡尼曼管这叫系统一和系统二：快思考和慢思考。

所以你看，AI发展了70年，兜兜转转，一定程度上，还是继续往人脑的架构上靠。

人脑这个东西，不容易搞明白，但不明觉厉。（我有点理解曾经的首富陈天桥为什么要花辣么多钱资助脑科学研究了。）

从这个意义上，我更期待即将发布的DeepSeek V4了，希望是憋了一个大招。

七

再说说训练数据。

GPT-4 据传用了大约13万亿token来训练，DeepSeek V3用了14.8万亿，现在最新的模型只会用得更多。

人类呢？

Michael Frank在2023年发表于Trends in Cognitive Sciences的论文中做了一个系统的估算：

一个孩子从出生到成年（约20岁），总共接触到的语言输入大约是2×10⁸个词（2亿）（我又用Gemini 3,1 Pro和Claude opus 4.6确认了一遍，答案略有差异，但数量级没跑）

2亿 VS 13万亿。

差了五个数量级。

人脑的样本效率，狠狠地碾压所有AI模型。

事实上，如何提升样本效率，也是目前各大顶尖AI实验室最前沿的研究课题。

毕竟大家隐约感觉到，单纯堆数据的Scaling Law可能正在接近它的天花板。

而人脑用极少的数据就能实现极高的泛化，这个秘密一旦被破解，可能就是下一次AI跃迁的钥匙。

今年我在承德过年的时候，我一岁3个月的小侄女，还不太会说话。

我用iPhone上自带的那个动态表情逗她玩，我惊讶于她能非常准确地区分每一个极其抽象的动物。

说实话，我都对辣个区分度不大的小猫和小狐狸图标有点恍惚。（不信你去看看）

至于我人类是怎么做到的？

核心在于进化的5亿年中，我们的脑子里是预装了一堆先验知识滴，比如婴儿天生就会注意人脸，这是出厂设置。

AI要从零开始学，人脑天生带着外挂。

八

人脑有一个大模型目前有的东西：身体。（继续看就知道我不是在聊目前火热的具身智能。）

这句话听上去像废话，但其实很致命。

近年来认知科学有一个越来越火的流派叫Embodied Cognition。

他们核心观点是：思维并非单纯发生在脑子里的，身体本身就参与了思考。

举个栗子，你理解“沉重”这个词，是因为你真的搬过重东西，你的肌肉记得那种感觉。

你说这个东西很沉的时候，此时如果给你做核磁共振，是能看到你的运动皮层有在轻微激活滴。

这就是为什么我们说AI，还是在做语言层面的模式匹配，而非真正的共情。

当然你可以说，谁TM在乎它是不是真的共情呢，它的回答够好不就行了么？

这话也对。

但这引出了一个哲学味很重但又避不开的问题：智能，到底需不需要一个身体？

目前的答案是：不知道。

九

我平时看的东西很杂。

聊到这我想起了刘慈欣6年前（彼时ChatGPT还没诞生）在喜马拉雅上线了一个付费节目，叫“刘慈欣的思想实验室”。

其中有一期在回答文学教授戴锦华的提问中说了这样一段话——

“按照传统的不管是科幻领域的思维，还是我们正常的思维说，（人还是人）这个底线在大脑。

就是说他的周围的其他的这个生物器官都换成机器了，只要他的大脑还在，我们就认为他还是人。

但最近的一些研究，发现事情完全没有这么简单，人的思维不仅仅是由大脑决定的。

就像莎士比亚有一句诗，他说：“爱情啊你来自何方？是大脑还是心房？”

而对外部世界的感知，以及我们对自身的感知，相当一部分并非只由大脑来决定的，而是由我们整个的生物学结构来决定的。”

大刘的这段话显然更具现实思维而非科幻思维。

这和《三体》第三部程心吧云天明的大脑送给三体世界并期望他们重新恢复的思路并不一致。

（推荐去付费听原节目，充满哲思，异常精彩，尤其这个节目是ChatGPT诞生之前聊AI，可以和现在进行对照，犹豫的同学也可以在绿号“卫夕指北”回复“刘慈欣”获取这一期节目的文字稿再决定要不要付费）

无论如何，人脑已经和人脑相辅相成的生物学结构，是我们作为碳基生命独特的存在。

是滴，时隔很多年的某个午后，不经意在人群中闻到初恋的同款香水，我们会忽然一阵鼻酸。

而AI这货，没有鼻子。

Vibe到这里，请允许我彪一句英文舒一下情——

We are unmistakably unique—irreplaceable, unrepeatable, and entirely our own！

（我特意让Claude opus 4.6给我写的，我写不出这么骚的词）

没错，如果只拼显性智力，大模型毫无疑问迟早会追上并超越人脑。

可如果拼的是：To live as a human being should，硅基目前看起来还需要时间。

十
前面说了辣么多人脑牛逼的地方，是时候说点扎心的了。

人脑的所有优势，有一个致命的前提——它TM是静态的。

你今天的大脑有860亿个神经元，600T的突触参数，功耗20瓦——5万年前智人的大脑，基本也是这个配置。

进化给了我们一颗很牛逼的脑子，然后就撒手不管了。

而AI呢？

GPT-3是2020年发布的，1750亿参数，今天Kimi、智谱、Minimax这些最牛逼的开源模型，已经奔着万亿走了。

（其实它们可以做的更大，只是为了权衡成本做到现在的水平。）

这是指数提升，更不用说芯片领域基本遵循的摩尔定律。（我特意不提量子计算，免得有读者说我过于放飞）

前面我们算过，人脑在功耗上领先AI两个数量级，在训练数据效率上领先五个数量级，在制程上碾压到原子级别。

听上去遥遥领先，对吧？

但要知道，指数增长面前，几个数量级其实不算什么。

来，简单算一笔账——

如果AI的能效每两年提升10倍（这还是保守估计，实际上很多指标的提升速度远快于此），那两个数量级的领先，四年就追平了；

五个数量级，十年。

十年，也就是你家娃从小学到大学的时间。

如果你稍微懂一点数学，你就晓得，指数增长意味着——前面99%的路程，只占了总进度的很小一部分。

没错，我牛逼人脑，确认是一颗了不起的处理器。

但，它是一颗不会迭代的处理器。

十一
再说一件最近被大众低估的一件事——

一周前，2月18日，DeepMind放出了一篇关于AlphaEvolve的论文：

标题叫——《Discovering Multiagent Learning Algorithms with Large Language Models》（用大语言模型发现多智能体学习算法）。（论文地址：http://t.cn/AXcM9j2t）。

这篇论文讲的就是——让AI去设计AI的学习方法。

它发现了两个全新的算法：VAD-CFR和SHOR-PSRO。

这两个名字你不需要记住，你只需要知道一件事——它打败了人类研究人员花了十几年搞出来的最优算法。

论文里一句描述值得琢磨：VAD-CFR采用了“novel, non-intuitive mechanisms”——新颖的、反直觉的机制。

也就是说，这个算法的核心逻辑，大概率是人类极难想到的。

来，咱们把这个逻辑链理一理——

AI设计出了比人类更好的AI学习算法，更好的学习算法让AI学得更快，学得更快的AI又能设计出更好的算法。

没错，它递归了，加速了。（至少表现了递归的特征）

过去业界只是讨论递归在理论上的可能性，现在，它在真实地悄然

按参数算，人脑相当于多大的模型？ 答案是：要看怎么算。

按参数算，人脑相当于多大的模型？答案是：要看怎么算。