世界模型不会取代LLM,它是LLM缺失的那一层
【世界模型不会取代LLM,它是LLM缺失的那一层】
快速阅读: 世界模型正从学术概念走向主流讨论,但“取代LLM”是个假命题。更准确的描述是:LLM处理语言和推理,世界模型负责物理仿真和因果接地,两者将形成分层协作的架构。目前的应用重心集中在机器人领域,非物理领域的潜力仍被严重低估。
---
在Nvidia的GTC大会上, ...
过去24小时,AI 圈的空气里,都是焦灼和狂欢。
过去24小时,AI 圈的空气里,都是焦灼和狂欢。
先爆的是 Claude Code。
Anthropic这款命令行终端工具的源码意外泄露,很快就在GitHub上引发连锁反应。大量开发者冲进去围观、Fork、拆解,随后又出现了Python和Rust的「复刻版」。
原本只属于Anthropic内部的实验,转眼变成了整个行业的「公开的秘密」。
谁也没想到,第 ...
Google 宣布免费开放 Gemini 2.0 等 AI 工具
【Google 宣布免费开放 Gemini 2.0 等 AI 工具】
为了进一步推动 AI 技术的普及并提升用户的生产力,Google 宣布将多款强大的 AI 工具免费开放给全球用户使用,其中包括备受瞩目的 Gemini 2.0 和 NotebookLM。大大幅降低个人和专业用户使用高级 AI 工具的门槛[笑cry][惊恐]
...
3月30日,阿里发布千问新一代全模态大模型Qwen3.5-Omni,在音视频理解、识别、交互等215项任务
3月30日,阿里发布千问新一代全模态大模型Qwen3.5-Omni,在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。新模型拥有极强的音视频理解与实时交互能力,能够对音视频内容生成详细且可控的结构化描述,可识别语言和方言数量多达113种,还惊喜地涌现出 ...
阿里巴巴最近推出的Qwen3.5系列模型广受好评,尤其是122b和27b这两个小模型。
阿里巴巴最近推出的Qwen3.5系列模型广受好评,尤其是122b和27b这两个小模型。
27b这个模型,编程/Agent能力逆天,媲美GPT 5.2 codex
之前我还说本地化部署AI+OC,Minimax M2.5是高性价比的选择,现在看来Qwen 3.5这两个小模型或许是性价比更加爆表的选择
...
和一位给OpenClaw贡献了核心代码的朋友聊天,几点感受
和一位给OpenClaw贡献了核心代码的朋友聊天,几点感受—-
❶不要再为人类开发产品,一切为了agent。
❷大模型目前还只是一个神经元,要进化为大脑,还必须通过架构升级解决复杂任务来实现。
❸顶尖玩家在做的事有三个:记忆、测试和约束。
❹大模型能力每7个月翻1倍,完全是一项“复利工程”,而绝大部分人的使用速度,像 ...
处理大型复杂文档,ChatGPT 跟 claude 的差距就会非常明显
处理大型复杂文档,ChatGPT 跟 claude 的差距就会非常明显
GPT 显然无法在理解高维理念的前提下展开总体规划,它很容易陷入局部一路向前,基本上一步正确的步子都迈不出,只有你给它写清楚,它来执行才没问题
opus4.6可以做到,但有时候对高维理念理解有偏差,但你稍微提醒即可,它就迅速按照意图展开规划。当然,opus4.6 ...
谷歌开源了一个时间序列基础模型。
谷歌开源了一个时间序列基础模型。
它无需训练即可处理任何数据。
与传统模型不同,TimesFM 无需针对特定数据集进行训练,开箱即可进行预测。
基于 1000 亿个真实世界时间点的交通、天气和需求预测数据进行训练。
看起来挺牛逼。
...
谷歌发布的新人工智能报告。人类历史上的每一次智能大爆发都是社会性的,而非个体性的。
谷歌发布的新人工智能报告。人类历史上的每一次智能大爆发都是社会性的,而非个体性的。
这些作者提出,将人工智能“奇点”定义为一个单一的超级智能大脑通过自我提升达到神一般智慧的观点是完全错误的。
这与任何设计多智能体系统的人都密切相关。他们观察到,像 DeepSeek-R1 这样的前沿推理模型仅通过强化学习就能自 ...
之前介绍过的项目“大道至简”minimind更新了不少。该项目会带你完全之前介绍过的项目“大道至简”minimind更新了不少。
之前介绍过的项目“大道至简”minimind更新了不少。该项目会带你完全之前介绍过的项目“大道至简”minimind更新了不少。该项目会带你完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind。
地址:github.com/jingyaogong/minimind
它还有一个兄弟项目:训练小型视觉模型的 github.com/jingyaog ...
在生成式视觉建模领域,分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁:先冻结编码器,再在固定潜空间上训练生成模型。
[CV]《End-to-End Training for Unified Tokenization and Latent Denoising》S Duggal, X Bai, Z Wu, R Zhang… [MIT & Adobe] (2026)
在生成式视觉建模领域,分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁:先冻结编码器,再在固定潜空间上训练生成模型。这种割裂导致生成目标的梯度永远无法塑造表示空间 ...
千问还是非常不错
今天使用千文完成了一个网站优化的过程我觉得千问还是非常不错一些问题通过提问都得到了修正。
GPT-5.4 Pro 在 FrontierMath 上创造了一项全新的记录,在前 3 个难度级别中解决了 50% 的问题。
GPT-5.4 Pro 在 FrontierMath 上创造了一项全新的记录,在前 3 个难度级别中解决了 50% 的问题。
作为背景,这项高阶数学基准测试旨在极难应对,即使对于花费数年时间研究这些主题的数学专家来说也是如此。
在最难的级别(称为 Tier 4)中,GPT-5.4 Pro 版本达到了 38% 的成功率。
这一得分使这款新机型远远领先于其他 ...
🔥谷歌最新的一篇报告。 硅基神明式的 AI 奇点论,是彻头彻尾的错觉。
🔥谷歌最新的一篇报告。
硅基神明式的 AI 奇点论,是彻头彻尾的错觉。
未来的智能大爆炸,绝对不会是一个全知全能的超级单体大脑,而是一个由数百亿非生物大脑和人类共同组成的赛博社会。
作者从进化史出发,每一次“智能大爆炸”都不是某个个体大脑升级了,而是一群脑子找到了新的协作方式。
猴子的智力跟它社交圈大 ...
又是魔幻的一天,最顶尖的AI模型不发布,不是因为算力或研发遇到瓶颈。
又是魔幻的一天,最顶尖的AI模型不发布,不是因为算力或研发遇到瓶颈。
而是因为它已经强大到,足以轻易摧毁现有的全球网络防御体系。
《财富》独家爆出,Claude 最新强力模型泄漏,代号 Claude Mythos。
泄漏原因很搞笑,Anthropic用于发布官博的内容管理系统(CMS)由于配置失误,泄漏了 3000 份保密文件,其中一份就 ...
Harness is the New Dataset:模型智能提升的下一个关键方向
Harness is the New Dataset:模型智能提升的下一个关键方向
http://t.cn/AXI75Br3
“最近,harness engineering 又成了继 prompt engineering、context engineering 之后新一代的 buzzword。
这背后对应着一个越来越清晰的变化:当基模能力逐渐成熟后,现在真正决定 agent 上限的,已经不是模型本身,而是围绕模型搭建起 ...
Claude是如何思考的
Claude是如何思考的
blog.bytebytego.com/p/how-anthropics-claude-thinks
bytebytego的文章.
"Anthropic 没有人编程让 Claude 按特定方式思考。他们只是用数据训练它,而 Claude 自行发展出了自己的策略,这些策略隐藏在数十亿次计算中。对于构建它的人来说,这可能感觉像一个令人不安的黑箱。因此,他们决定构建类似显微 ...
林俊旸从阿里离职后首发长文:复盘千问路线受阻,断言 AI 演进全面转向智能体
【林俊旸从阿里离职后首发长文:复盘千问路线受阻,断言 AI 演进全面转向智能体】前阿里千问负责人林俊旸在离职长文中指出,AI 大模型正从‘推理型思考’转向‘智能体思考’。他复盘了千问团队在融合指令与思考模式时遇到的困境,并揭示了未来竞争将围绕环境设计、防作弊协议等系统工程能力展开。#……
...
在格式指令与实质任务并行时,大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。
[CL]《Did You Forget What I Asked? Prospective Memory Failures in Large Language Models》A Mittal [Microsoft] (2026)
在格式指令与实质任务并行时,大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。现有评测(如IFEval)孤立地测试格式遵从,无法捕捉到"认知负载"如何侵蚀 ...
谷歌新型缓存技术将压缩6倍闪存需求
【#谷歌新型缓存技术将压缩6倍闪存需求#】近期,谷歌发布了名为TurboQuant的 KV 缓存压缩技术,旨在解决大语言模型(LLM)推理过程中显存占用过高的问题。该技术核心在于无需重新训练或微调模型,即可将键值缓存(KV Cache)压缩至3-bit精度,实现约6倍的闪存节省,同时在英伟达 H100 等加速器上可将推理速度提升最高8倍。 ...