谷歌这个论文非常厉害,大模型推理内存革命了,节省资源非常厉害
谷歌这个论文非常厉害,大模型推理内存革命了,节省资源非常厉害
怪不得昨晚美股存储跌了,有点类似DeepSeek的冲击。算法加速,让硬件资源效率大幅提升。这个TurboQuant算法感觉会流行起来。
我一开始以为是,对内存中的大模型“KV缓存”(80%内存都是这个东西占了)搞个什么6倍的压缩算法,这样内存就可以少用了。但是要 ...
今日推介(第2086期):高效通用感知编码器、针对“自动化研究”本身的元研究、基于条件流匹配的统一神经算子学习
今日推介(第2086期):高效通用感知编码器、针对“自动化研究”本身的元研究、基于条件流匹配的统一神经算子学习、通过特征稀疏性实现注意力机制的规模化、更稀疏更高效更轻量化的 Transformer 语言模型 公·众·号:爱可可爱生活 http://t.cn/AXfgADLS #
...
一句“嘿”吞掉22%用量配额,Claude的计费逻辑你可能从没搞清楚
【一句“嘿”吞掉22%用量配额,Claude的计费逻辑你可能从没搞清楚】
快速阅读: 有用户发现对一个久置的Claude Code会话发了句“hey”,用量暴涨22%。这不是bug,而是LLM的底层工作机制——每条新消息都会把整个对话历史重新发送一遍。叠加缓存过期、1M超长上下文等因素,账单会失控得很优雅。
---
每次你在一个旧会话 ...
在多模型推理调度领域,「如何在不实际生成回复的情况下,预判哪个模型最适合处理当前请求」是一个悬而未决的难题。
[CL]《Expected Reward Prediction, with Applications to Model Routing》K Hasanaliyev, S Alberti, J Hamer, D Rajagopal… [Stanford University & Google DeepMind] (2026)
在多模型推理调度领域,「如何在不实际生成回复的情况下,预判哪个模型最适合处理当前请求」是一个悬而未决的难题。过去的路由方法需要收集 ...
在自动化科研(autoresearch)领域,LLM 驱动的超参数搜索已初见成效,但所有现有系统的搜索机制本身
[AI]《Bilevel Autoresearch: Meta-Autoresearching Itself》Y Qu, M Lu (2026)
在自动化科研(autoresearch)领域,LLM 驱动的超参数搜索已初见成效,但所有现有系统的搜索机制本身——何时接受、如何提案、维护什么状态——都由人类工程师在系统设计时固化写死。LLM 只是搜索的执行者,而非搜索机制的设计者。每一次系 ...
🚀Anthropic 推出《Anthropic Science Blog》:AI 加速科学研究的桥梁
🚀Anthropic 推出《Anthropic Science Blog》:AI 加速科学研究的桥梁
2026 年 3 月 23 日,Anthropic 在官方 X 账号宣布推出 Anthropic Science Blog,旨在加速科学进步——这正是公司使命的核心部分。该博客将发布最新研究成果,以及科学家如何借助 AI 推动工作的真实故事。
一、首发内容亮点:
1️⃣- 《Can AI do th ...
神经网络持久结构化记忆中的坐标系问题
我们提出了双视图信息素路径网络(DPPN),这是一种通过潜在槽位(latent slot)转换上的**持久信息素场(persistent pheromone field)**来路由稀疏注意力的架构。利用该架构,我们发现了神经网络实现持久结构化记忆的两个独立必要条件。
通过 5 组逐步完善的实验(涵盖 5 种模型变体、4 个迁移目标,且每种条件下使用多达 ...
版本避坑提醒
【版本避坑提醒】
Claude Code 新版本有个坑:缓存命中有问题,会导致消耗莫名变大。别问我怎么知道的,反正钱包会告诉你答案。
降级方案:
Claude Code(命令行)→ 用 2.1.77 以下
插件 → 用 2.1.76 以下
Step 1:卸载当前版本
npm uninstall -g @anthropic-ai/claude-code
Step 2:安装指定版本
npm install -g @ ...
最近在想一个问题:大模型和传统数据挖掘到底有什么本质区别?
最近在想一个问题:大模型和传统数据挖掘到底有什么本质区别?
传统数据挖掘更像是“人的智慧”。研究者通过精巧的算法设计去发现数据中的规律。算法结构往往很优雅、很轻巧,很多经典算法都体现了很强的数学和算法设计能力。数据通常只需要做一些常规预处理,真正的核心在算法本身。
而大模型更像是“数据的智慧”。模 ...
LLM 是人类有史以来最强大的通用工具
LLM 是人类有史以来最强大的通用工具
Agent 则第一次让这种力量具备了持续进入现实、改造现实的可能
直到今天,人类对如何真正开发 LLM 的潜能,依然处于近乎蒙圈的早期阶段
我们已经看到的,可能连它全部潜力的 0.1% 都不到
在实践中发挥想象力,创造性的解决一切问题
...
很有趣的一篇论文。
很有趣的一篇论文。
字节跳动实现了基于深度的注意力机制,并将其与序列注意力直接结合。
P.S. 现在的论文相较于十年前的,大多都很无趣。
##
刚才用Codex coding,模型GPT-5.4,它在思考的时候,出现了神奇的一幕——出现了一段一般是在网页被篡改劫持时候的一段代码…
刚才用Codex coding,模型GPT-5.4,它在思考的时候,出现了神奇的一幕——出现了一段一般是在网页被篡改劫持时候的一段代码……赛车的那个……当时没截图,但我大受震撼。[流汗] 这才是正儿八经的大模型投毒,或者说,大模型在学习(爬网)的时候被毒害了。[笑cry]#人工智能##ai#
...
在对话记忆检索领域,如何在有限token预算内从海量历史会话中精准召回相关证据,是悬而未决的难题。
[LG]《SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval》J Derehag, C Calva, T Ghiurau [Midbrain] (2026)
在对话记忆检索领域,如何在有限token预算内从海量历史会话中精准召回相关证据,是悬而未决的难题。现有系统受困于"越复杂越好"的迷思——在摄取阶段用LLM重构记忆、在查询阶段用 ...
在形式化数学推理领域,反例生成长期处于被忽视的角落。
[AI]《Learning to Disprove: Formal Counterexample Generation with Large Language Models》Z Li, Z Li, K Yang, X Ma… [ETH Zurich & University of Toronto & MiroMind] (2026)
在形式化数学推理领域,反例生成长期处于被忽视的角落。现有AI系统几乎专注于定理证明,而反例——那个能在一秒内摧毁一个普遍猜想的具 ...
中国大模型版图全扫描:谁是真正的玩家?
【中国大模型版图全扫描:谁是真正的玩家?】
快速阅读: 中国LLM圈已形成“大厂+六小虎+DeepSeek”的三层格局。字节跳动Doubao领跑国内市场,DeepSeek以量化交易副业身份创造了大量技术创新,六小虎靠开放权重+廉价推理维持存在感,但长期生存能力存疑。
---
字节跳动旗下的Doubao是中国市场当之无愧的第一,Seedance ...
有朋友问我,为啥在网页使用 AI 大模型,跟自己调用 API 时感觉不一样,差别很大呢?
有朋友问我,为啥在网页使用 AI 大模型,跟自己调用 API 时感觉不一样,差别很大呢?
因为网页里的 AI 大模型,除了各项参数外,都内置了默认的系统提示词 system-prompt,细节可以参考下面几个开源项目。
1、system-prompts-and-models-of-ai-tools,132k Star,近 30 个 AI 大模型,AI 编程工具的系统提示词。传送门:g ...
让AI帮我总结这篇论文
让AI帮我总结这篇论文:http://t.cn/AXfATCbq
———
这篇发表于《Theory and Society》的论文运用大语言模型(LLM),对1960年至2024年间约60万篇英文社会科学摘要进行了意识形态分析,得出了五个关键发现。其核心结论是,社会科学研究在意识形态上长期且日益倾向于左翼。
以下是该论文的详细总结:
研究核心发现
...
Sebastian Raschka的新长篇文章:A Visual Guide to Attention Variants in Modern LLMs 现代大型语言模型注意力变体视觉指南
Sebastian Raschka的新长篇文章:A Visual Guide to Attention Variants in Modern LLMs 现代大型语言模型注意力变体视觉指南
地址:magazine.sebastianraschka.com/p/visual-attention-variants
这篇文章整理了现代大语言模型中为了提高推理效率和内存占用而演进出的各种注意力机制变体。
“在本文中,我认为回顾近年来 ...
大家都在追求更大的LLM... 但GPU显存正在角落里默默流泪。😭
大家都在追求更大的LLM...
但GPU显存正在角落里默默流泪。😭
近年来,大型语言模型(LLMs)变得无比巨大 🦾,拥有数十亿(甚至数万亿)参数。它们功能强大到难以置信……但同时也极度贪婪地消耗着显存。
而这正是问题变得棘手的地方。
→ LLMs(如 GPT-4, LLaMA, Claude)需要 数十GB的GPU显存 (VRAM ...
deepseek是什么?deepseek究竟是什么?
DeepSeek是一种基于深度学习和数据挖掘技术的智能搜索与分析系统,它通过深度学习模型理解数据的上下文语义,实现更智能化的搜索与分析。DeepSeek的核心技术、应用领域、功能特点及其面临的挑战,展望其在未来智能化转型中的重要作用。在大数据时代,如何从海量数据中提取有价值的信息,成为各行各业面临的共同挑战。DeepSe ...