查看: 8|回复: 0

好莱坞女星 Milla Jovovich(《第五元素》女主角)和开发者 Ben Sigman 联合发布了一个开源 AI 记忆系统 MemPalace,声称在 LongMemEval 基准测试中拿下满分

[复制链接]

2

主题

2

回帖

10

积分

新手上路

积分
10
发表于 昨天 23:53 | 显示全部楼层 |阅读模式
好莱坞女星 Milla Jovovich(《第五元素》女主角)和开发者 Ben Sigman 联合发布了一个开源 AI 记忆系统 MemPalace,声称在 LongMemEval 基准测试中拿下满分,是有史以来第一个做到这个成绩的系统。项目完全本地运行,不需要云服务和 API 密钥,免费开源。


【1】它想解决什么问题

每次和 AI 对话结束后,所有上下文都消失了。你花几个小时跟 Claude 或 ChatGPT 解释你的项目架构、技术选型、调试过程,第二天它全忘了。半年下来可能积累了近 2000 万 Token 的对话,但没有一个系统帮你把这些东西管起来。

现有的记忆方案(比如 Mem0、Zep)让 AI 自己决定记什么,提取出“用户喜欢 Postgres”这样的标签,但把你解释为什么选 Postgres 的那段对话丢掉了。MemPalace 的思路相反:全部存下来,靠结构让它可搜索。

【2】怎么做的

借鉴了古希腊“记忆宫殿”(方位记忆法)的概念:把对话按项目和人物分成“翼”(wing),每个翼里按主题分成“房间”(room),房间之间有“走廊”(hall)按记忆类型分类,不同翼的同名房间通过“隧道”(tunnel)互相关联。

同时开发了一种叫 AAAK 的压缩语法,号称能把上下文压缩 30 倍,让 AI 用大约 120 个 Token 就加载几个月的关键信息。支持所有主流模型,包括本地运行的 Llama 和 Mistral。

通过 MCP 协议接入 Claude 等工具后,AI 会自动调用 MemPalace 的 19 个工具来搜索历史对话,用户不需要手动操作。

【3】争议

项目发布当天就遭到多方质疑,其中最系统的一篇来自 Penfield Labs,逐条拆解了 benchmark 数据的问题:
LongMemEval 的“满分”实际上只做了检索这一步,没有生成答案,也没有经过评判。

标准排行榜上的成绩是端到端的问答准确率,MemPalace 测的只是“能不能找到正确的对话片段”,难度低了一个量级。项目自己的文档也承认,最后三道题的修复是针对特定题目写的补丁代码,属于“teaching to the test”。

LoCoMo 基准测试的 100% 更离谱:10 段对话最多 32 个会话,但检索参数设成了 top_k=50,等于把所有内容全部丢给 Sonnet 做阅读理解,检索层完全被绕过了。项目自己的 BENCHMARKS.md 文件里白纸黑字写了这一点。而且 LoCoMo 数据集本身的标准答案就有大约 99 道题是错的,理论上不可能 100%。

“无损压缩”也站不住脚。AAAK 模块把句子截断到 55 个字符,decode 函数不能还原原文。项目自己跑的测试里,用 AAAK 压缩后的检索准确率从 96.6% 掉到了 84.2%,差了 12 个百分点。无损压缩不会导致质量下降。

宣传材料里提到的“矛盾检测”功能,在代码里也找不到实现。知识图谱模块只做了完全匹配的去重,矛盾的事实可以无限累积。

【4】该怎么看

项目内部文档其实还比较靠谱,大部分方法论缺陷在 BENCHMARKS.md 里都有披露。问题在于发布推文把所有限定条件都去掉了,只留下了最炸裂的数字。

抛开 benchmark 争议,MemPalace 的核心想法有可取之处:用结构化的方式组织对话记忆,全部本地运行,不依赖云服务。仅靠宫殿结构分层检索,准确率就提升了 34%,这个数字是实测的。纯本地无 API 的基线成绩 96.6% R@5 也确实是同类系统中最高的。

简单来说:明星光环制造的传播效果远超工程本身的分量。

项目地址:github.com/milla-jovovich/mempalace http://t.cn/AXMZAZxG
http://t.cn/AXMAZPed
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部