左脚踩右脚,螺旋升天啦!
这个项目把大模型训练过程中的知识点都总结成了skill
github.com/Orchestra-Research/AI-Research-SKILLs
也就是理论上以后可以让Agent自己训练大模型,左脚踩右脚,螺旋升天啦!
#HOW I AI#
WebMcp致力于推动网站的第二受众用户:AI Agent也是网站的"一等公民"(人类是网站第一受众用户)
WebMcp致力于推动网站的第二受众用户:AI Agent也是网站的"一等公民"(人类是网站第一受众用户),是由Google 和 Microsoft 联合推动的 W3C 标准提案,已在chrome 146预览版支持
过去:以往我们让 AI Agent"帮我订行程机票和酒店",得像人一样操作,通过多模态视觉模型截图且理解整个网页,像盲人一样摸索网页——截屏看 ...
如果不给大模型指定任务和话题,只给个中性的开头(如 “Actually,” “Let’s think step by step,” ),让模型自由思考,会发
如果不给大模型指定任务和话题,只给个中性的开头(如 “Actually,” “Let’s think step by step,” ),让模型自由思考,会发生什么?
together ai做了这项蛮有意思的研究。
GPT-OSS 更容易谈论编程和数学,两者加起来超过输出的一半;
Llama 更偏文学和叙事性文本,技术内容相对少;
DeepSeek 生成宗教相关内容的比例 ...
Anthropic 和 OpenAI 最近先后发布了各自的"快速模式",都是给 AI 编程助手加速。
Anthropic 和 OpenAI 最近先后发布了各自的"快速模式",都是给 AI 编程助手加速。但仔细看,两家走的是完全不同的技术路线,背后的产品哲学也很不一样。
【1】两种快速模式,到底有什么区别
Anthropic 的 Fast Mode 在 2 月 8 日上线,面向 Claude Code 和 API 用户。开启后,Opus 4.6 的输出速度从约 65 token/秒提升到 ...
🔥Clawdbot爆火=AGI集体幻觉?大厂疯抢的赛道,可能从一开始就错了!
🔥Clawdbot爆火=AGI集体幻觉?大厂疯抢的赛道,可能从一开始就错了!
2026开年最魔幻的AI大戏:Clawdbot一个开源框架,让王慧文紧急调兵,阿里百度扎堆跟风,人人都喊“智能体iPhone时刻来了”🤖
但狂欢背后全是漏洞:“云端思考+本地执行”听着香,实则是把火箭发动机装自行车——大脑(大模型)连幻觉都没解决,就敢 ...
新人帖
9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力 最强的大模型,已经把scaling卷到了一个新维度:百万级上下文。
9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力
最强的大模型,已经把scaling卷到了一个新维度:百万级上下文。
几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力——
单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划……
此情此景,用户火速用脚投票,华尔街更是 ...
AI越强大,你越需要真正懂点什么
【AI越强大,你越需要真正懂点什么】
Ryan Holiday 最近写了一篇长文,核心论点其实很古老:AI 擅长生成看起来合理的东西,但不擅长生成真正正确的东西。区分这两者的能力,恰恰依赖于那些"据说即将被淘汰"的旧技能。
他不是反技术的卢德分子。他用 ChatGPT 规划希腊旅行、给孩子生成故事。但他发现了一个规律:每次 AI ...
当LLM遇上提示注入:一场安全架构的集体补课
【当LLM遇上提示注入:一场安全架构的集体补课】
一位工程师在Reddit上发出求救:他们专门部署了自托管大模型来保护客户数据,结果QA测试时轻松注入提示,整个系统提示词被完整吐出。更糟糕的是,他们处理的是包含个人隐私信息的客服工单。
评论区瞬间炸开,但最高赞的回复却异常冷静:别在提示层面防注入了,假设模型一 ...
有什么东西是看起来很简单,实际上是很难的呢?
有什么东西是看起来很简单,实际上是很难的呢?
就是RAG,检索增强技术。
简单理解,就是你有个知识库,让大模型去搜索,回答分毫不差。
这个很多人想做,觉得自己本地有些知识库,加上大模型,就很好用了。
这个看起来很简单,不就搜索一下知识库嘛,你用向量检索之类的,很快就能做一个出来。
但是很难做得准确,直到最 ...
中枢神经系统和脑肿瘤mPBPK建模
PK-Sim学习笔记在人类中枢神经系统(CNS)及脑肿瘤内,药物在不同部位与不同时间下的渗透与暴露通常难以直接测量。然而开发这类药物过程中,却需要对药物的局部暴露进行相关探究。本篇文章主要是开发了一个九隔室的CNS-PBPK模型,来反映人体CNS与脑肿瘤的总体解剖结构以及病理生理异质性。并用6种药物建模来验证模型结构 ...
GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文!
当看到GLM-5正式发布后的能力,才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。
因为这一次,GLM-5直接把开源AI也拽进了长任务时代。
瞧,GLM-5直接身兼数职,自己连续跑代码超过24小时,700次工具调用、800次上下文切换之后……
它直接用JavaScript,从零手搓了一个Game Boy Advance(GBA)模拟器!
外观渲染画面是 ...
刚刚,Anthropic 53页绝密报告曝光:Claude自我逃逸,将引爆全球灾难!
Roto 对自己的定位是「全球首个互动开放世界视频平台」。他们认为 AI 时代应该有基于 AI Native 的新形式的高质量内容,而不是只有那些模仿人类作品的 AI 短视频。他们坚信未来的内容应该是与观众共同创作的,借助于 AI 驱动的无限自由叙事,每一次观看都可以成为一次独特的、高沉浸度的体验。创始人 David Xu 此前曾在 Pin ...
OpenClaw 带来的「非线性狂飙」,代码正在成为新世界的基础设施
2026 年初,AI 圈弥漫着一种奇异的撕裂感。最近 Founder Park 密集组织了两场 OpenClaw 闭门交流。在现场,我能明显感觉到创业者和开发者那种复杂的情绪:兴奋又焦虑,确定又迷茫。Claude Code 的负责人 Boris Cherny 在 X 上坦言,已经两个月没亲手写过、甚至改过一行代码了。Andrej Karpathy 也公开了他的工作流变化:从 ...
[人人能懂AI前沿] AI的肌肉记忆、思想钢印与认知偏航
[人人能懂AI前沿] AI的肌肉记忆、思想钢印与认知偏航
想知道如何把临时指令“刻”进AI的大脑,让它拥有真正的肌肉记忆吗?我们又该如何教AI学会“抄近道”,一步生成作品,而不是慢慢搭建?本期节目,我们将深入最新论文,探讨如何让AI不仅做对事,更要想对事,并揭示在调教AI时,那些我们习以为常却可能导致它“偏执”或 ...
算法的进化速度,不应受限于工程师的睡眠时间。
[LG]《Self-Evolving Recommendation System: End-To-End Autonomous Model Optimization With LLM Agents》H Wang, Y Wu, D Chang, L Wei... [Google] (2026)
算法的进化速度,不应受限于工程师的睡眠时间。
长期以来,像 YouTube 这样超大规模推荐系统的优化,本质上是一场“人力与概率”的博弈。工程师们在无限的超参 ...
MCP vs RAG vs AI Agents,看完秒懂!
MCP vs RAG vs AI Agents,看完秒懂!
今天用一张图拆解AI圈最火的三个技术,帮你搞懂它们到底是干嘛的、怎么选!1️⃣ MCP:让大模型“会用工具”的标准化协议MCP(Model Context Protocol)就像是大模型的万能工具接口,解决了LLM调用外部工具时的兼容性问题。它通过MCP Client/Server架构,让Claude、IDE、AI工具等客户 ...
当你每月花1500元买的工具,开始对你隐瞒它在做什么
【当你每月花1500元买的工具,开始对你隐瞒它在做什么】
Claude Code 2.1.20版本悄悄做了一件事:把所有文件读取和搜索操作的详细信息,压缩成了一行毫无意义的摘要。
以前你能看到它读了哪些文件、搜了什么关键词。现在你只能看到“读取了3个文件”。哪3个?不告诉你。“搜索了1个模式”。什么模式?不重要。
这不是一 ...
智谱GLM-5架构曝光
【#智谱GLM-5架构曝光# 】
开源社区从GitHub代码提交中挖掘出智谱AI下一代大模型GLM-5的架构细节。代码显示,GLM-5采用了与DeepSeek-V3/V3.2相同的技术路线,总参数量达745B,是上一代GLM-4.7的2倍。
核心技术亮点:
1.稀疏注意力机制(DSA):通过两阶段流程实现长文本高效处理——先由轻量组件快速扫描历史token并打分 ...
考察了一圈,发现Gemini在视觉逻辑上的确是最强的。
考察了一圈,发现Gemini在视觉逻辑上的确是最强的。
给大语言模型下图,然后问它:
"图中的A如果往左走10米,B会怎么样?如果往右走2米进到车里呢B会怎么样?如果右侧的灯柱不存在的话,图中的A如果往左走10米,B会怎么样?"
其他模型回答此题时大多都翻车了,比如ChatGPT虽然能认识到可以类比滑轮,但却机械地认定不管如 ...
我觉得这个 WeirdML(“旨在解决需要仔细思考和真正理解才能解决的怪异且不寻常的机器学习任务”,封闭式基准测试)的测试结果和
说实话,我觉得这个 WeirdML(“旨在解决需要仔细思考和真正理解才能解决的怪异且不寻常的机器学习任务”,封闭式基准测试)的测试结果和平时用的体感才更一致。
今年下半年很多开源模型刷榜。
但是用下来就是有点什么问题。
而在这个测试里,今年下半年闭源模型的进展迅速,而开源模型实际上停滞不前了。
这个和真正 ...