AI大模型今日: 0|主题: 99|排名: 19

🔥谷歌最新的一篇报告。硅基神明式的 AI 奇点论，是彻头彻尾的错觉。未来的智能大爆炸，绝对不会是一个全知全能的超级单体大脑，而是一个由数百亿非生物大脑和人类共同组成的赛博社会。作者从进化史出发，每一次“智能大爆炸”都不是某个个体大脑升级了，而是一群脑子找到了新的协作方式。猴子的智力跟它社交圈大 ...

0128

星汉之辉发表于 2026-3-28 AI大模型

又是魔幻的一天，最顶尖的AI模型不发布，不是因为算力或研发遇到瓶颈。

又是魔幻的一天，最顶尖的AI模型不发布，不是因为算力或研发遇到瓶颈。而是因为它已经强大到，足以轻易摧毁现有的全球网络防御体系。《财富》独家爆出，Claude 最新强力模型泄漏，代号 Claude Mythos。泄漏原因很搞笑，Anthropic用于发布官博的内容管理系统（CMS）由于配置失误，泄漏了 3000 份保密文件，其中一份就 ...

0124

要修炼好心态发表于 2026-3-27 AI大模型

Harness is the New Dataset：模型智能提升的下一个关键方向

Harness is the New Dataset：模型智能提升的下一个关键方向 http://t.cn/AXI75Br3 “最近，harness engineering 又成了继 prompt engineering、context engineering 之后新一代的 buzzword。这背后对应着一个越来越清晰的变化：当基模能力逐渐成熟后，现在真正决定 agent 上限的，已经不是模型本身，而是围绕模型搭建起 ...

0109

hao898 发表于 2026-3-27 AI大模型

Claude是如何思考的

Claude是如何思考的 blog.bytebytego.com/p/how-anthropics-claude-thinks bytebytego的文章. "Anthropic 没有人编程让 Claude 按特定方式思考。他们只是用数据训练它，而 Claude 自行发展出了自己的策略，这些策略隐藏在数十亿次计算中。对于构建它的人来说，这可能感觉像一个令人不安的黑箱。因此，他们决定构建类似显微 ...

0116

贺超发表于 2026-3-27 AI大模型

林俊旸从阿里离职后首发长文：复盘千问路线受阻，断言 AI 演进全面转向智能体

【林俊旸从阿里离职后首发长文：复盘千问路线受阻，断言 AI 演进全面转向智能体】前阿里千问负责人林俊旸在离职长文中指出，AI 大模型正从‘推理型思考’转向‘智能体思考’。他复盘了千问团队在融合指令与思考模式时遇到的困境，并揭示了未来竞争将围绕环境设计、防作弊协议等系统工程能力展开。#…… ...

091

水坤发表于 2026-3-27 AI大模型

在格式指令与实质任务并行时，大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。

[CL]《Did You Forget What I Asked? Prospective Memory Failures in Large Language Models》A Mittal [Microsoft] (2026) 在格式指令与实质任务并行时，大语言模型频繁丢失格式要求——这是一个在真实部署中普遍存在却缺乏系统研究的失效模式。现有评测（如IFEval）孤立地测试格式遵从，无法捕捉到"认知负载"如何侵蚀 ...

096

空中月发表于 2026-3-27 AI大模型

谷歌新型缓存技术将压缩6倍闪存需求

【#谷歌新型缓存技术将压缩6倍闪存需求#】近期，谷歌发布了名为TurboQuant的 KV 缓存压缩技术，旨在解决大语言模型（LLM）推理过程中显存占用过高的问题。该技术核心在于无需重新训练或微调模型，即可将键值缓存（KV Cache）压缩至3-bit精度，实现约6倍的闪存节省，同时在英伟达 H100 等加速器上可将推理速度提升最高8倍。 ...

0108

爱深求发表于 2026-3-26 AI大模型

谷歌这个论文非常厉害，大模型推理内存革命了，节省资源非常厉害

谷歌这个论文非常厉害，大模型推理内存革命了，节省资源非常厉害怪不得昨晚美股存储跌了，有点类似DeepSeek的冲击。算法加速，让硬件资源效率大幅提升。这个TurboQuant算法感觉会流行起来。我一开始以为是，对内存中的大模型“KV缓存”（80%内存都是这个东西占了）搞个什么6倍的压缩算法，这样内存就可以少用了。但是要 ...

0105

FineRIk 发表于 2026-3-26 AI大模型

今日推介(第2086期)：高效通用感知编码器、针对“自动化研究”本身的元研究、基于条件流匹配的统一神经算子学习

今日推介(第2086期)：高效通用感知编码器、针对“自动化研究”本身的元研究、基于条件流匹配的统一神经算子学习、通过特征稀疏性实现注意力机制的规模化、更稀疏更高效更轻量化的 Transformer 语言模型公·众·号：爱可可爱生活 http://t.cn/AXfgADLS # ...

0125

想过发表于 2026-3-26 AI大模型

一句“嘿”吞掉22%用量配额，Claude的计费逻辑你可能从没搞清楚

【一句“嘿”吞掉22%用量配额，Claude的计费逻辑你可能从没搞清楚】快速阅读：有用户发现对一个久置的Claude Code会话发了句“hey”，用量暴涨22%。这不是bug，而是LLM的底层工作机制——每条新消息都会把整个对话历史重新发送一遍。叠加缓存过期、1M超长上下文等因素，账单会失控得很优雅。 --- 每次你在一个旧会话 ...

0132

闻听发表于 2026-3-26 AI大模型

在多模型推理调度领域，「如何在不实际生成回复的情况下，预判哪个模型最适合处理当前请求」是一个悬而未决的难题。

[CL]《Expected Reward Prediction, with Applications to Model Routing》K Hasanaliyev, S Alberti, J Hamer, D Rajagopal… [Stanford University & Google DeepMind] (2026) 在多模型推理调度领域，「如何在不实际生成回复的情况下，预判哪个模型最适合处理当前请求」是一个悬而未决的难题。过去的路由方法需要收集 ...

0129

吴歌发表于 2026-3-26 AI大模型

在自动化科研（autoresearch）领域，LLM 驱动的超参数搜索已初见成效，但所有现有系统的搜索机制本身

[AI]《Bilevel Autoresearch: Meta-Autoresearching Itself》Y Qu, M Lu (2026) 在自动化科研（autoresearch）领域，LLM 驱动的超参数搜索已初见成效，但所有现有系统的搜索机制本身——何时接受、如何提案、维护什么状态——都由人类工程师在系统设计时固化写死。LLM 只是搜索的执行者，而非搜索机制的设计者。每一次系 ...

0122

铉霸发表于 2026-3-26 AI大模型

🚀Anthropic 推出《Anthropic Science Blog》：AI 加速科学研究的桥梁

🚀Anthropic 推出《Anthropic Science Blog》：AI 加速科学研究的桥梁 2026 年 3 月 23 日，Anthropic 在官方 X 账号宣布推出 Anthropic Science Blog，旨在加速科学进步——这正是公司使命的核心部分。该博客将发布最新研究成果，以及科学家如何借助 AI 推动工作的真实故事。一、首发内容亮点： 1️⃣- 《Can AI do th ...

0115

梅琴发表于 2026-3-25 AI大模型

神经网络持久结构化记忆中的坐标系问题

我们提出了双视图信息素路径网络（DPPN），这是一种通过潜在槽位（latent slot）转换上的**持久信息素场（persistent pheromone field）**来路由稀疏注意力的架构。利用该架构，我们发现了神经网络实现持久结构化记忆的两个独立必要条件。通过 5 组逐步完善的实验（涵盖 5 种模型变体、4 个迁移目标，且每种条件下使用多达 ...

0114

西域·骆驼发表于 2026-3-25 AI大模型

版本避坑提醒

【版本避坑提醒】 Claude Code 新版本有个坑：缓存命中有问题，会导致消耗莫名变大。别问我怎么知道的，反正钱包会告诉你答案。降级方案： Claude Code（命令行）→ 用 2.1.77 以下插件 → 用 2.1.76 以下 Step 1：卸载当前版本 npm uninstall -g @anthropic-ai/claude-code Step 2：安装指定版本 npm install -g @ ...

0166

王荣超发表于 2026-3-25 AI大模型

最近在想一个问题：大模型和传统数据挖掘到底有什么本质区别？

最近在想一个问题：大模型和传统数据挖掘到底有什么本质区别？传统数据挖掘更像是“人的智慧”。研究者通过精巧的算法设计去发现数据中的规律。算法结构往往很优雅、很轻巧，很多经典算法都体现了很强的数学和算法设计能力。数据通常只需要做一些常规预处理，真正的核心在算法本身。而大模型更像是“数据的智慧”。模 ...

0135

如果夜懂我发表于 2026-3-24 AI大模型

LLM 是人类有史以来最强大的通用工具

LLM 是人类有史以来最强大的通用工具 Agent 则第一次让这种力量具备了持续进入现实、改造现实的可能直到今天，人类对如何真正开发 LLM 的潜能，依然处于近乎蒙圈的早期阶段我们已经看到的，可能连它全部潜力的 0.1% 都不到在实践中发挥想象力，创造性的解决一切问题 ...

0107

短腿小矮基发表于 2026-3-24 AI大模型

很有趣的一篇论文。

很有趣的一篇论文。字节跳动实现了基于深度的注意力机制，并将其与序列注意力直接结合。 P.S. 现在的论文相较于十年前的，大多都很无趣。 ##

0120

憬溺发表于 2026-3-24 AI大模型

刚才用Codex coding，模型GPT-5.4，它在思考的时候，出现了神奇的一幕——出现了一段一般是在网页被篡改劫持时候的一段代码…

刚才用Codex coding，模型GPT-5.4，它在思考的时候，出现了神奇的一幕——出现了一段一般是在网页被篡改劫持时候的一段代码……赛车的那个……当时没截图，但我大受震撼。[流汗] 这才是正儿八经的大模型投毒，或者说，大模型在学习（爬网）的时候被毒害了。[笑cry]#人工智能##ai# ...

0108

陈连利发表于 2026-3-24 AI大模型

在对话记忆检索领域，如何在有限token预算内从海量历史会话中精准召回相关证据，是悬而未决的难题。

[LG]《SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval》J Derehag, C Calva, T Ghiurau [Midbrain] (2026) 在对话记忆检索领域，如何在有限token预算内从海量历史会话中精准召回相关证据，是悬而未决的难题。现有系统受困于"越复杂越好"的迷思——在摄取阶段用LLM重构记忆、在查询阶段用 ...

0125

小鱼急急发表于 2026-3-24 AI大模型

1 234 5 / 5 页下一页

返回发新帖

AI大模型今日: 0|主题: 99|排名: 19

快速发帖

浏览过的版块

AI大模型 今日: 0|主题: 99|排名: 19

快速发帖

浏览过的版块

AI大模型今日: 0|主题: 99|排名: 19