找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

2026年AI全景:前沿实验室、开源模型与人类文明的未来

[复制链接]

3

主题

0

回帖

9

积分

新手上路

积分
9
发表于 6 小时前 | 显示全部楼层 |阅读模式
【2026年AI全景:前沿实验室、开源模型与人类文明的未来】


Lex Fridman最新一期播客请来了两位AI领域的重量级研究者:Sebastian Raschka和Nathan Lambert。四个多小时的深度对话,覆盖了从技术细节到文明走向的几乎所有关键议题。

关于中美AI竞争,两位嘉宾的判断出奇一致:不会有赢家通吃的局面。Sebastian指出,研究人员在实验室之间频繁流动,没有任何一家公司能垄断核心技术。真正的差异化因素是预算和硬件资源。Nathan补充说,DeepSeek在2025年初引发的震动,实际上催生了中国更多开源模型的涌现,智谱、MiniMax、Kimi等公司正在快速崛起,DeepSeek的领先地位反而在被稀释。

谈到日常使用,两人的习惯颇有意思。Nathan几乎只用带推理功能的模型,认为非推理模型的错误率让他无法忍受。Sebastian则更务实,大多数快速查询用普通模型,只有需要深度校验时才开启Pro模式。他举了个例子:出门前妻子已经在车里等着,他需要在几秒内生成一个Bash脚本来运行GPU实验,这种场景下速度就是一切。

编程工具的选择同样分化。Sebastian偏好VSCode的Codex插件,因为它在辅助和接管之间找到了平衡点。Lex则大量使用Claude Code,他认为这是在训练自己用英语编程的能力,一种完全不同的思维方式。Nathan观察到一个有趣现象:在Cursor、VSCode和Claude Code中选择同一个模型,Claude Code的表现明显更好,这说明产品设计对模型能力的释放有巨大影响。

关于开源模型的爆发,Nathan给出了一个清晰的商业逻辑:中国公司意识到美国企业出于安全考虑不会订阅中国API服务,但会使用开源模型。这是一种通过技术影响力获取市场份额的策略。Sebastian补充说,中国开源模型的许可证比LLaMA或Gemma更宽松,没有用户规模限制,这对企业用户极具吸引力。

技术演进方面,Sebastian做了一个精彩的梳理:从GPT-2到今天的前沿模型,核心架构变化其实很小。主要的改进集中在注意力机制的变体上,比如多头潜在注意力、分组查询注意力、滑动窗口注意力等,目的都是在保持性能的同时降低KV缓存的内存占用。混合专家架构让模型可以在不增加推理成本的情况下扩大参数规模。但本质上,这些都是对同一个基础架构的微调。

Scaling Laws是否还在生效?Nathan的回答是肯定的,但他区分了三个维度:预训练scaling、强化学习scaling和推理时scaling。预训练的低垂果实已经被摘完,成本变得极其昂贵。真正的突破来自RLVR,也就是用可验证奖励进行强化学习。这种方法让模型学会了使用工具、自我纠错,并且能够进行长时间推理。Sebastian用一个实验说明了RLVR的威力:QuEN3基础模型在Math500上的准确率是15%,仅仅50步RLVR训练后就跃升到50%。这不是在教模型新知识,而是在激活预训练阶段已经存在的能力。

后训练流程现在分为三个阶段:预训练、中训练和后训练。中训练这个词的出现本身就很有趣,因为之前只有预训练和后训练,中间那个阶段没有名字。中训练主要处理长上下文文档等特殊数据,算法和预训练相同,但数据更精选。后训练则包括监督微调、DPO、RLVR和RLHF等技术。Nathan强调,RLHF和RLVR有本质区别:RLHF没有scaling law,训练到一定程度就饱和了;RLVR则可以持续scaling,计算量增加10倍,性能就能提升几倍。

数据质量的重要性被反复提及。Nathan透露,AI2的OLMo3用了比前代更少的数据,但性能更好,关键在于数据质量。他们会从不同来源采样小批量数据,训练小模型测试效果,然后用线性回归找到最优数据配比。如果评估指标变了,整个数据集配比都要重新调整。Sebastian补充说,合成数据不一定是坏事,比如用OCR从PDF中提取文本,或者把维基百科文章改写成问答格式,这些都能提高数据质量。

关于学习建议,Sebastian推荐从零开始实现一个能在单GPU上运行的小模型。目标不是做出实用工具,而是理解每个组件如何工作。他的方法是:先看Hugging Face上模型的配置文件,了解架构参数,然后从GPT-2开始逐步添加新组件,最后加载预训练权重验证实现是否正确。Nathan建议在掌握基础后选择一个狭窄领域深入研究,因为这个领域发展太快,很多问题只有三四篇论文,作者通常愿意回复邮件交流。

工作文化的讨论触及了一个敏感话题:996。Nathan观察到,他在前沿实验室的朋友普遍比在学术界的朋友更疲惫。这些公司创造了极强的文化认同感和竞争氛围,人们自愿超负荷工作。Sebastian回忆起一本关于苹果供应链的书,里面提到工程师们有专门的代号来表示需要回家挽救婚姻。这种强度能产出成果,但代价是人力资本的消耗。

关于AGI时间线,两人都持谨慎态度。Nathan认为远程工作者替代这个定义比较务实,但他更关注的是模型在不同任务上的不均衡表现。模型可能在某些编程任务上超越人类,但在分布式系统开发上仍然很弱,因为训练数据太少。Sebastian质疑AGI这个概念本身的意义:如果我们不断为特定领域开发专用模型,那和以前的专用算法有什么本质区别?

工具使用被认为是下一个重大突破口。Sebastian认为这是解决幻觉问题的关键:与其让模型记忆所有信息,不如让它学会调用计算器和搜索引擎。GPT-OSS是第一个真正为工具使用设计的开源模型,但生态系统还没准备好。主要障碍是信任问题,用户不愿意给模型访问邮箱或文件系统的权限。

持续学习是另一个热门话题。Nathan解释说,当前模型的局限在于无法像人类员工那样从反馈中快速学习。但他个人更看好通过提供丰富上下文来模拟学习效果,而不是频繁更新模型权重。Sebastian指出,权重更新在全局模型层面已经在发生,从GPT-5到5.1到5.2就是例子,只是不可能为每个用户单独更新。

关于开源模型的未来,Nathan发起了ATOM项目,全称是American Truly Open Models。他的核心论点是:开源模型是AI研究的引擎,谁拥有最好的开源模型,谁就能吸引最好的研究人才。2025年中期,中国有四五个DeepSeek级别的开源模型,美国一个都没有,这种局面必须改变。他透露AI2获得了NSF一亿美元的四年拨款来推进这项工作,但单靠一家机构不够,需要多个组织共同参与才能形成生态。

对话最后转向了更宏大的问题。被问及100年后历史学家会如何看待我们这个时代,Sebastian认为关键词仍然是计算,AI只是计算能力的一种应用。Nathan补充说,深度学习这个术语很可能会被记住,但Transformer架构可能早已被超越。两人都认为,尽管AI带来巨大变革,人类对社区、意义和能动性的需求不会改变。物理世界的体验会变得更加珍贵,而数字世界的垃圾内容会让人们更加渴望真实的人际连接。

www.youtube.com/watch?v=EV7WhVT270Q


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-16 18:47 , Processed in 0.108519 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表