找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

阿里达摩院开源具身大脑模型RynnBrain:机器人首次拥有“时空记忆”,终结“转身就忘”

[复制链接]

14

主题

3

回帖

70

积分

注册会员

积分
70
发表于 1 小时前 | 显示全部楼层 |阅读模式
阿里达摩院开源具身大脑模型RynnBrain:机器人首次拥有“时空记忆”,终结“转身就忘”


机器人完成任务时不再需要连续观察同一个目标,即便中途被干扰打断,它也能像人一样记住刚才做到哪里,并在脑海中构建出环境的完整三维地图。

这个模型首次让机器人拥有了时空记忆和空间推理能力。RynnBrain在全系列7个开源模型中,包含业界首个采用MoE(专家混合)架构的30B参数规模具身模型,仅需3B推理激活参数,性能即超越当前规模最大的72B参数模型Pelican-VL。

视频直击:这届机器人不仅有智商,更有情商。在达摩院的演示中,搭载RynnBrain的机器人表现出了令人惊叹的时空记忆和逻辑规划能力:

打断不忘事:在分类水果时被要求递面包,它能立刻“挂起”当前任务,完成指令后瞬间找回记忆,继续干活。

空间叠罗汉:面对“三个面包两个盘”的分配难题,它没有死脑筋,而是通过长程规划玩起了“叠罗汉”。

一眼识破伪装:即便你像玩“三仙归洞”一样疯狂调换水瓶位置,它那双具备物体记忆的眼睛也能死死锁住目标。

中文OCR+常识:它能读懂配料表,在一堆食物中精准挑出那款“低卡”产品。

这种表现,标志着机器人正从“简单的执行器”向“具备物理推理能力的智慧体”蜕变。

在具身智能的三条主流技术路线(端到端VLA、世界模型、VLM分层大脑)中,达摩院坚定地选择了第三种:基于VLM的高级进化。

核心黑科技一:RynnEC“火眼金睛”

不同于传统的看图说话,RynnBrain继承了达摩院与浙大联研的RynnEC视觉理解模型。它引入了区域编码器和SAM2掩码解码器,让机器人不仅能看,还能理解物体的材质、功能、三维尺度以及空间方位。

核心黑科技二:文本与空间定位交错推理

针对大模型在物理世界经常“一本正经胡说八道”的幻觉问题,RynnBrain采用了一种名为“言必有据”的机制。它要求模型在输出指令时,必须同时在视频流中锁定对应的像素坐标(Grounding)。说不出在哪,就不许下指令。 这极大地抑制了物理幻觉。

核心黑科技三:以小博大的MoE架构

RynnBrain基于Qwen3-VL底座,采用自研的RynnScale架构。

惊人数据:其MoE架构模型仅需3B(30亿)推理激活参数,在16项具身基准测试中,性能全面超越了参数量高达72B的Pelican-VL,以及谷歌的Gemini Robotics ER 1.5。

达摩院的野心:从“大脑”到“机器人OS”

这次发布不仅仅是模型,达摩院正在构建一个完整的具身生态闭环:
🔹 RynnBrain(大脑):负责感知与时空规划。
🔹 RynnEC(感官):负责世界理解。
🔹 RynnRCP(协议):相当于机器人的底层“操作系统”,旨在打通不同品牌、不同型号的机器人硬件。

阿里通过“极致开源”:开放从2B到30B全系列模型,全栈代码及全新评测基准RynnBrain-Bench,实际上是在抢占具身智能时代的底层标准话语权。

马拉松可能才刚开始

具身智能是通往AGI(通用人工智能)的终极战场。正如英伟达黄仁勋所言,物理AI是下一个前沿。阿里达摩院此次“交卷”,不仅展示了中国在复杂多模态理解上的深厚积淀,更通过开源生态,将压力传导回了硅谷。

这场关于“大脑”与“肢体”的竞赛,远未到终点,但RynnBrain的出现,无疑让机器人真正学会了“像人一样思考与行动”。 http://t.cn/AX51N94Z
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-16 03:40 , Processed in 0.094582 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表