用 LLM 维护知识库：Karpathy 的 LLM Wiki 模式

Andrej Karpathy 在 2026 年 4 月发布了一个 Gist，名为 LLM Wiki，描述了一种用 LLM 构建和维护个人知识库的模式。不到 48 小时，这个 Gist 收获了 5000+ Star 和 1600+ Fork，显然戳中了很多人的痛点。

这篇文章的核心问题很具体：你平时用 NotebookLM、ChatGPT 上传文件或者各类 RAG 系统时，有没有感觉像是在跟一个失忆的助手打交道——每次都要从头解释一遍，什么也没留下来？

RAG 的局限

RAG 的基本逻辑是：用户提问 → 系统从原始文档里检索相关片段 → LLM 生成答案。这个架构有一个根本性的缺陷：每次都在从原材料里重新发现知识，没有任何积累。

如果你的问题需要综合五篇文档、对比三个互相矛盾的观点，RAG 会在每次查询时重新拼凑这些碎片。没有人把它们整合过，没有人标记过矛盾，没有人维护过跨文档的引用关系。

Karpathy 的观察是：这个问题的本质不是检索质量，而是架构选择——系统处于无状态，但真正的知识积累是有状态的。

LLM Wiki 模式

核心思路的转变只有一步：不要让 LLM 在查询时检索，而是让 LLM 在摄入时整合。

具体来说，每当你把新材料添加进来，LLM 不只是把它存档等待查询。它会：

读取新材料，提炼关键信息
在 Wiki 里写一个摘要页
找到所有相关的已有页面，更新它们
标记新旧信息之间的矛盾
维护交叉引用

这棵知识树是持久存在的，是 LLM 写的，你来读。交叉引用已经在里面了，矛盾已经被标记了，综合已经做过了。每加入一份新材料，这棵树就更完整一些。

Karpathy 的比喻很直接：Obsidian 是 IDE，LLM 是程序员，Wiki 是代码库。

三层架构

整个系统分三层：

原始材料层（Raw Sources）

你收集的一切原始文档：文章、论文、数据文件、图片。这一层是不可变的，LLM 只读不写。这是你的事实来源。

Wiki 层

一个 LLM 生成的 Markdown 文件目录。摘要页、实体页、概念页、对比页、全局概述。这一层完全由 LLM 维护：它创建页面、更新页面、维护交叉引用。你来读，LLM 来写。

Schema 层

一个配置文档（比如 CLAUDE.md 或 AGENTS.md），告诉 LLM 这个 Wiki 的结构约定、命名规则、操作流程。这是让 LLM 成为”有章法的 Wiki 维护者”而不是”随便聊天的对话机器人”的关键。它随着你使用 Wiki 的经验一起演进。

三种操作

摄入（Ingest）

你把一份新材料扔进原始材料层，告诉 LLM 处理它。典型流程：LLM 读取材料，和你讨论重点，在 Wiki 里写摘要页，更新索引，更新所有相关实体和概念页，在日志里追加一条记录。一份材料可能触及 10-15 个 Wiki 页。Karpathy 偏好一次处理一份材料并保持参与，但也可以批量摄入。

查询（Query）

你问问题，LLM 搜索相关页面，读取，综合出带引用的答案。答案可以以多种形式呈现——Markdown 页、对比表、Marp 幻灯片、matplotlib 图表。关键洞察：好的答案本身可以被存回 Wiki 作为新页面。 你的探索也在持续积累到知识库里。

维护（Lint）

定期让 LLM 做健康检查：找矛盾、找过时信息、找孤立页面（没有入链）、找有概念但没有专属页面的词、找数据空缺。LLM 同时会建议值得追问的新问题和值得寻找的新材料。

索引与日志

两个特殊文件帮助 LLM 和你导航不断增长的 Wiki：

index.md 面向内容——Wiki 的目录，每个页面附一行摘要和链接，按分类组织（实体、概念、来源等）。LLM 每次摄入都会更新它。查询时 LLM 先读索引找相关页，再钻入。这在中等规模（约 100 份来源、数百个页面）下效果出乎意料地好，不需要嵌入式 RAG 基础设施。

log.md 面向时间线——只追加不修改，记录发生了什么：摄入、查询、维护过程。如果每条记录用统一前缀开头，比如 ## [2026-04-02] ingest | Article Title，日志就可以用简单的命令行工具解析——grep "^## \[" log.md | tail -5 就能拿到最近 5 条。

工具提示

Obsidian Web Clipper 是一个浏览器扩展，把网页文章转成 Markdown。快速把材料放进原始集合的利器。

本地图片下载：在 Obsidian 设置里把附件目录固定到 raw/assets/，再绑定一个快捷键触发”下载当前文件的附件”。剪藏文章后一键下载图片到本地，LLM 就能直接查看图片而不依赖可能失效的 URL。

图谱视图是看清 Wiki 形状的最好方式——什么连着什么，哪些页面是枢纽，哪些是孤岛。

qmd 是一个本地 Markdown 搜索引擎，HBM25 + 向量混合搜索 + LLM 重排，带 CLI 和 MCP server 两种接口。Wiki 规模增大后可以替代索引文件。

Wiki 本质上就是一个纯 Markdown 的 Git 仓库，版本历史、分支、协作全部免费。

为什么有效

知识库维护最枯燥的不是阅读或思考，而是书记工作：更新交叉引用、保持摘要最新、标记矛盾、维护数十个页面的一致性。人们放弃维护 Wiki 是因为维护成本比收益增长得更快。

LLM 不会厌倦，不会忘记更新某个交叉引用，可以在一次操作里同时修改 15 个文件。Wiki 保持维护是因为维护成本接近零。

人的工作是：筛选材料、指导分析方向、提出好问题、思考这一切意味着什么。LLM 做其余的一切。

Karpathy 提到这个想法在精神上接近 Vannevar Bush 1945 年的 Memex 构想——一种私人的、主动维护的知识存储，文档之间的关联链接和文档本身同样重要。Bush 当时无法解决的问题是：谁来做维护工作？现在 LLM 解决了这个问题。