查看: 4|回复: 0

【转发】介绍一下我用 Obsidian + Codex 构建的个人知识库,整体基于Andrej Karpathy 的 LLM Wiki思路,工作量集中在反复迭代扩充知识,技术难度很低。

[复制链接]

15

主题

2

回帖

49

积分

新手上路

积分
49
发表于 9 小时前 | 显示全部楼层 |阅读模式
介绍一下我用 Obsidian + Codex 构建的个人知识库,整体基于Andrej Karpathy 的 LLM Wiki思路,工作量集中在反复迭代扩充知识,技术难度很低。


从4月3号早上一睁眼看到了Andrej Karpathy 的文章,立刻开始动手,用了五天时间把2018年以来的所有个人积累内容(本地文件积累+有道云笔记)基本都整理到了知识库当中,目前知识库基本构建完成。

之所以对这个想法如此积极,因为对我来说,它第一次回答了各种大模型技巧或者新工具无法回答的问题:我的每一次工作,尤其是讨论思路和想法的时候,永远要依靠我自己的记忆和理解以及文件检索能力找到一些素材,扔到对话框再去讨论问题,如果我记忆的不准确或者文件找不全,或者网页对话限制上传附件体量,那就只能放弃信息,即使用Codex、CC本地工作,让他直接访问我的文件夹,在各种复杂的工作目录里大海捞针找某几段特定文字,效率和准确性都没法接受。

在规模上,我的知识库把我在并行构建阶段的3条主线统一编进同一个体系里了:论文研究线、零碎的跨域知识整理线、工作项目线。整体有 3800+ 笔记、其中2000+ 是原始raw笔记文件和整理到知识库当中的原文备份素材(备份素材就是把有价值的笔记复制到Projects / Areas / Resources / Archive的特定分类中,然后在原始笔记基础之上增加了笔记属性和双向链接 建立了。和整理后的知识以及归档索引的双向链接),继续整理成 800+ 正式知识条目;每条主线下面又拆成 5 到 10 个左右的子方向,但最后都会统一收进 Inbox → Projects / Areas / Resources / Archive → AI Workspace → Worklog 这套结构里(其中worklog是我自己额外加的,这是我自己的工作习惯,在用多个智能体并行迭代干活的时候,每个智能体每次工作都会写好自己的todo和worklog,这样不同工作之间的衔接非常容易,然后有问题追溯记录也非常容易)。

介绍一个小案例:我和codex讨论某个之前进行了一半的论文构思,它能把我之前所有其他的论文工作细节(包括审稿修改,数据集等信息)都串起来,这个场景下,我觉得我是在和一个甚至比我还清楚自己先前工作细节的同行讨论,推进我的想法。这个过程只需要Codex根据我的需求,通过本地文件或者Obsidian Cli访问知识库,顺着索引、来源页、知识提取入口和双向链接完成,并不需要消耗多少上下文,速度和信息质量都远超过我在对话里艾特几个文本给他读。在这个框架下,新讨论产出的内容直接让他写成规范的Obsidian笔记放在inBox中,定期让大模型自己整理,把这些新形成的内容根据我的知识库结构自动加入现有知识库,就完成了归档工作,未来的新讨论也会访问到这些新知识。

再聊一下关于Obsidian,在过去的七八年我一直在使用有道云笔记,因为同步备份比较方便,用起来也比较省心。更符合一套自动同步的记事本的直觉。前几年在研究Zotero插件的时候了解到了双向链接笔记的概念和Obsidian这个工具,当时我就意识到这个理念。相比于有道云笔记这种传统的树形管理笔记结构有很大的领先,因为双向链接可以把来自不同枝干的叶子笔记连接起来,打通很多知识,甚至不同分支方向之间间隔。但是当时已经用了太久的有道云积累的笔记也有几百m了,考虑了一下迁移成本,还有手动构建这些双向链接的成本,就放弃了。

LLM Wiki这个概念,就是通过Obsidian Cli和智能体本地文件访问的能力,挪开了我原来设想中迁移成本和构建双向链接的成本这两个最大的阻碍,实现之后工作效果远远超出了我的预期。这个概念的意义很大,相比于目前很多各种素材还是按照文件目录分类存储的知识库产品(本质还是圈一块地让大模型自己扫),或者说完全编译为黑盒向量化只给大模型自己用,双向链接+Wiki编译领先了太多,白盒+本地文件+云同步,能让大模型用的同时,人自己也能用,而且还好用。

最后附上几个图,图1我当前的大概的笔记样子,图2是整体的知识库链接图,图3是小案例当时的对话效果。
补充一下图2里边大量的散点并不是没能建立成知识库,而是这些文件留在raw当中,并没有对原始文件进行修改。有价值要建立链接的笔记都是从这个raw当中复制出来,放到特定目录,再去和相关的知识和索引建立连接。

#LLM##智能体##知识库##obsidian##LLMWIKI##个人知识库#

@郑昀  @高飞 @蚁工厂 @宝玉xp @i陆三金 @默庵·超级个体 @数字生命卡兹克 @tombkeeper  @有个梨GPT
之前在各位大佬的转发和讨论看了很多关于这个LLM Wiki的内容,希望这次写的这个自己做的小案例能对大家有一些帮助。








本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部