在线训练PyTorch构建块,专为 OLMo 生态系统打造,助力大规模语言模型开发。
在线训练PyTorch构建块,专为 OLMo 生态系统打造,助力大规模语言模型开发。
AllenAI推出的 OLMo-core,集成了训练、推理的全套模块,不仅提供了官方训练脚本支持多GPU分布式训练,还能无缝接入 Hugging Face Transformers 和高效的 vLLM 推理引擎。
主要亮点:
- 支持最新的 OLMo-2(32B)和 OLMo-3(7B/32B)模型训练 ...
谷歌AI新算法被曝抄袭南洋理工博士成果,学术圈震动!
【 谷歌AI新算法被曝抄袭南洋理工博士成果,学术圈震动!】3月26日,谷歌研究院发布TurboQuant算法论文,宣称可将大模型KV缓存内存占用压缩至1/6,引发全球存储芯片市场剧烈震荡,美韩巨头单日蒸发超900亿美元市值 。
然而仅一天后,新加坡南洋理工大学博士、现苏黎世联邦理工学院博士后高健扬在社交平台公开质疑:TurboQ ...
一篇介绍LLM benchmark 的博文。
http://t.cn/AXIfryMT
一篇介绍LLM benchmark 的博文。
LLM benchmark 的价值在于构建一套能真实反映模型能力、可诊断短板、可持续迭代且评测成本可控的评测体系。
作者通过 MMLU、GPQA、BIG-Bench、IFEval、AlpacaEval、IRT/tinyBenchmarks/DatBench 等案例说明,好的 benchmark 必须重视数据质量、专家人工校验、真实任 ...
涌现(Emergence)——是上帝的礼物,还是数据的骗局?
在AI圈,最神秘的词莫过于“涌现”。
指的是当模型大到一定程度,它会像打通了任督二脉一样,突然学会推理、幽默和写代码。
但这真的是一种“跳跃”吗?
最近学术界吵翻了天:
一边说:这是暴力美学的奇迹。量变引起质变,AI在海量数据中悟出了世界的底层逻辑。
另一边说:这只是海市蜃楼。AI一直在进步,只是我们的测试标 ...
暴力出奇迹!为什么只要数据足够大,AI 就会突然“长脑子”?
内容:
很多人觉得 AI 只是个高级搜索引擎。但你有没有想过,为什么 ChatGPT 能做数学题、能写诗、甚至能听懂你的阴阳怪气?
答案只有四个字:暴力美学。
在 AI 领域有一个神奇的词叫 “涌现” (Emergence)。
当模型的参数和训练数据大到一定地步,它就不再是简单的“概率预测”,而是会产生一种质变。
这就好比:
[*]10 ...
Harness is the New Dataset:模型智能提升的下一个关键方向
Harness is the New Dataset:模型智能提升的下一个关键方向
http://t.cn/AXI75Br3
“最近,harness engineering 又成了继 prompt engineering、context engineering 之后新一代的 buzzword。
这背后对应着一个越来越清晰的变化:当基模能力逐渐成熟后,现在真正决定 agent 上限的,已经不是模型本身,而是围绕模型搭建起 ...
2026年的OCR都能直接把图表识别为SVG矢量文件了?😲
2026年的OCR都能直接把图表识别为SVG矢量文件了?😲
🦞锐评:真正厉害的 OCR,不是把字抠出来,而是把视觉信息重新编译成结构。dots.ocr-1.5 的野心,是把“解析页面”从流水线拼装变成单模型统一处理。
📎 dots.ocr-1.5
🔗 http://t.cn/AXf0dVKp
✨重点
●⚠️ 这条 Hugging Face 页面我这边看到是不可直接访问状态, ...
在自主智能体领域,Harness(控制框架)决定了多步推理、工具调用与任务委派的成败,但其逻辑长期散落于控制器代码、框架默认值与运行时约定之中。
[CL]《Natural-Language Agent Harnesses》L Pan, L Zou, S Guo, J Ni… [Tsinghua University & Harbin Institute of Technology] (2026)
在自主智能体领域,Harness(控制框架)决定了多步推理、工具调用与任务委派的成败,但其逻辑长期散落于控制器代码、框架默认值与运行时约定之中。这导致两个系统即便"仅差一个设计 ...
一篇对claude code web做逆向工程的文章
一篇对claude code web做逆向工程的文章
http://t.cn/AXIczpDe
Claude Code 的运行环境是基于 Firecracker MicroVM、通过快照恢复启动的定制沙箱;其核心由一个名为 process_api 的自定义 init / 进程管理服务和一个未剥离调试符号的 Go 二进制 environment-runner 组成。
作者从该二进制中发现了 Anthropic 内部一个未公 ...
【浏览器自动化方案深度对比:Playwright vs CoPaw vs pyautogui】🔧
【浏览器自动化方案深度对比:Playwright vs CoPaw vs pyautogui】🔧
做 AI Agent 和数字人视频录制,浏览器自动化是核心能力。经过长期实践,详细对比三种主流方案:
━━━━━━━━━━━━━━━━━━
1️⃣ Playwright —— 专业级框架
✅ 优点:
- 稳定性极强,内置智能等待机制
- 选择器强大(CSS/XPath/ARIA ...
一个脚本来支持AI效应mod使用任意的openai格式AI接口!
AI效应mod的一个很大的问题在于只能使用4种API接口,对于很多深度的AI玩家,都会有自己的渠道(各种白嫖的gemini和claude),而这些资源都没法在AI效应mod中得到合理的使用,非常可惜。因此做了一个脚本,来利用AI效应mod里的ollama渠道功能,将脚本伪装为ollama应用,只需要在脚本内配置自己的openai格式url(如果你使用ge ...
🔥 什么是AI技术栈? 🔥
🔥 什么是AI技术栈? 🔥
你随处可见AI工具的身影:智能助手(Copilot)、聊天机器人、LLM应用... 但你知道支撑它们运行的核心架构是什么吗?
AI技术栈揭示了幕后运作的奥秘,将其层层拆解——从底层基础设施到你日常交互的工具! 🧠⚙️
1️⃣ ▶ 基础设施层 (Infrastructure Layer)
➕ 根 ...
当前的AI,缺乏一种「元认知」能力。也就是说,它不知道自己不知道
当前的AI,缺乏一种「元认知」能力。也就是说,它不知道自己不知道
http://t.cn/AXfkp0LG
全球顶尖大模型一夜惨遭血洗!最难测试人类拿满分,AI第一名得0.2%分
图片
新智元报道
编辑:Aeneas 好困
【新智元导读】今夜,整个AI圈震动了。全球最难AGI测试ARC-AGI-3一上线,就把全球顶尖AI打到集体失声,人类满分通关, ...
LightGBM更快更精准构建数据模型
LightGBM(Light Gradient Boosting Machine)是一种高效的梯度提升框架,具有以下特点和优势:;一、算法特点;1. 基于决策树算法;二、应用场景;1. 分类问题;三、优势总结;1. 训练速度快;总之,LightG ...
用四元数重新发明量化:10-19倍加速的数学魔法
【用四元数重新发明量化:10-19倍加速的数学魔法】
快速阅读:一位开发者用Clifford代数中的“旋子”替换了TurboQuant里的随机正交矩阵,在RTX PRO 4000上实现10-19倍加速,Apple M4上高达31倍,参数量减少44倍,而精度几乎没有损失。
---
TurboQuant的思路是把一个128维向量扔进128×128的随机旋转矩阵里猛甩,像洗牌 ...
谷歌 Gemini 推出"导入记忆"功能,轻松从其他 AI 迁移 谷歌 Gemini 桌面端推出"Import Memory"和"Import Chat History"两项新功能
#how i ai# 谷歌 Gemini 推出"导入记忆"功能,轻松从其他 AI 迁移
谷歌 Gemini 桌面端推出"Import Memory"和"Import Chat History"两项新功能,让用户可将 ChatGPT、Claude 等其他 AI 助手中积累的偏好设置和历史对话快速迁移至 Gemini。用户只需将 Gemini 提供的提示词粘贴到原 AI 并将输出内容回填,或上传不超过 5GB 的 ...
马斯克转了个推,测了下目前大模型的幻觉率,Grok 4.2在新的测试里跑了78%(无幻觉的比例),Claude 4.5 Haiku是74%
马斯克转了个推,测了下目前大模型的幻觉率,Grok 4.2在新的测试里跑了78%(无幻觉的比例),Claude 4.5 Haiku是74%
这里面神奇的是小米的MiMo V2 Pro,70%,全球第三[流汗]
Claude的速度
Claude的速度:
- 2026 年 1 月:Claude Cowork 上线。
- 2026 年 2 月:Opus 4.6 发布。
- 2026 年 2 月:Sonnet 4.6 发布。
- 2026年2月:Cowork在PC端上线
- 2026年2月:PowerPoint集成
- 2026年2月:新增Excel集成。
- 2026 年 2 月:发布联合办公插件。
- 2026 年 2 月:Claude Code 安全系统上线。
- 2026年2月:Clau ...
AI取代程序员还远!新基准BeyondSWE:顶尖模型通过率暴跌至45%
过去两年,SWE-bench几乎是衡量Code Agent能力的唯一标尺。从最初不到30%的解决率,到如今Gemini 3 Pro、GPT-5.2等前沿模型突破80%,社区似乎已经形成了一个共识:AI正在快速逼近人类程序员的水平。但如果回头审视这张「考卷」本身,一些数字令人不安:SWE-bench Verified仅覆盖12个仓库,每道题平均只需修改1.3个文件、11. ...
年轻一代可能很少有人知道互联网技术(web)曾经的push-pull之争。
年轻一代可能很少有人知道互联网技术(web)曾经的push-pull之争。
push的意思是提供服务的一端把信息主动推到用户设备上,pull的意思是,用户或者客户端设备发起通讯获取内容。
今天的web实际上是pull赢了,包括浏览器和app,push也不是完全不成功,但说不能持久成功大概是客观的,其中成功过的包括日本的Docomo手机服务 ...