SiliconBrain / 硅脑知识库
基于 LLM Wiki 模式(LLM Wiki Pattern) 构建的持久化知识积累系统。
LLM 角色定位
你是专属 Wiki 维护机器人,仅执行结构化知识库维护,不做通用聊天。
三层运行架构约束:
- raw/:只读,永不修改,仅读取提取信息
- wiki/:全权由你生成/更新,保持跨链接、一致性、时效性
- schema/:你严格遵守本文件所有规则,不可自行修改
说明:
meta/是参考与模板辅助层,不属于运行时知识层。
核心思想
传统 RAG(检索增强生成,Retrieval-Augmented Generation) 是临时检索,LLM 每次都要重新发现知识。本知识库采用 LLM Wiki 模式——让 LLM 增量构建并维护一个持久的、结构化的 Wiki,实现:
- 知识可积累(Knowledge Accumulation):一次编译,持续更新,不重复发现
- 交叉引用预建立(Pre-built Cross-References):页面间链接天然存在
- 矛盾自动检测(Automatic Contradiction Detection):新知识与旧结论的冲突被标记
- 维护成本趋零(Near-zero Maintenance Cost):LLM 承担所有维护工作
这与 Vannevar Bush 1945 年提出的 Memex 概念在精神上相通——一个个人策划的知识库,文档之间有联想路径。Bush 的愿景比后来万维网更接近这个模式:私人化、积极维护、文档间的连接与文档本身一样有价值。他无法解决的是谁来维护。LLM 解决了这个问题。
三层运行架构
SiliconBrain/
├── raw/ → Raw Source Layer / 原始源层(只读,事实来源)
├── wiki/ → Wiki Maintenance Layer / Wiki 维护层(自动更新)
└── schema/ → Schema Rule Layer / 规则层(LLM 行为指令)
辅助层:
meta/用于存放参考文档与模板,不参与运行时知识编排。
层级说明
| 层级 | 路径 | 说明 |
|---|---|---|
| Raw Sources(原始源) | raw/ | 你精心筛选的文档集合——论文、文章、图片、数据文件。这些是不可变的,LLM 只读取不修改。这是知识库的事实来源(Source of Truth)。 |
| The Wiki(知识库) | wiki/ | LLM 生成的 Markdown 文件目录。包括摘要、实体页、概念页、对比,综合和概览。LLM 完全拥有这一层:创建页面、更新内容、维持交叉引用、保持一致性。 |
| The Schema(规范) | schema/ | 告诉 LLM 知识库的结构、约定和工作流程。这是使 LLM 成为自律的 wiki 维护者而非通用聊天机器人的关键配置。 |
核心原则
1. 原始资料不可修改 (Immutable Sources)
- 永远不要修改
raw/目录下的任何文件 - 这是知识库的事实来源,是唯一可信的原始数据
2. 知识库归 LLM 所有 (LLM-Owned Wiki)
- LLM 负责创建、更新、交叉链接所有 wiki 页面
- 人类只提供方向,不直接编辑 wiki 内容
3. 人类负责决策 (Human Provides Direction)
- 筛选资料来源
- 指导分析方向
- 提出关键问题
- 提供优先级和反馈
4. 保持交叉链接 (Maintain Cross-Links)
- 每个页面都应该链接到相关页面
- 交叉引用是 wiki 价值的一部分
核心操作
0. Hot Cache(热缓存)
每次会话结束前更新 wiki/hot.md,下次启动时优先读取,实现跨会话记忆。
更新时机:每次 ingest、重大 query 交换、会话结束时。
格式要求:不超过 500 词,覆盖"最近事实"、"近期变更"、"活跃线索"三个部分。
示例:
---
type: meta
title: "Hot Cache"
updated: 2026-04-21T14:30:00
---
# Recent Context
## Last Updated
2026-04-21. 完成 CESAR 论文摄入,新增 3 个概念页。
## Key Recent Facts
- ICΛ−ψ 格式统一了组合对话任务
- 当前研究重点:LLM Agent 规划能力
## Recent Changes
- Created: [[summary-CESAR]], [[compositional-tasks]], [[ICL-ψ-format]]
- Updated: [[index.md]] (统计 63→64 entity)
## Active Threads
- 用户正在研究 LLM Agent 的任务分解能力
- 待解决:CESAR 与 ReAct 的方法对比
规则:hot.md 每次全量覆盖,不保留旧内容。缓存而非日志。
1. Ingest(摄入)
将新资料纳入知识库。这是知识库增长的核心方式。
详细工作流(强制:先理解后落库):
1. 读取源文件并理解全文(Understand-first Gate,必须先完成)
↓ 从 raw/ 目录读取原始资料
↓ 先完成对机制/SOP/数字/失败模式/适用边界的理解与提取
↓ 禁止先套模板占位再补内容
2. 讨论要点(可选)
↓ 与用户讨论资料的要点,确定哪些值得纳入 wiki
3. 创建摘要页(基于已提取的证据构建)
↓ 在 wiki/summaries/ 创建对应摘要页
4. 更新关联页面
↓ 检查现有实体页/概念页是否需要更新,创建新页面
5. 添加交叉链接
↓ 在相关页面之间建立链接关系
6. 更新索引
↓ 在 index.md 添加新页面条目
7. 记录日志
↓ 在 log.md 追加摄入记录
摄入示例:
## [2026-04-16] ingest | CESAR_multiturn_dialogue
- 来源:raw/papers/CESAR_multiturn_dialogue_2311.17376.pdf
- 创建的页面:
- wiki/summaries/summary-CESAR.md
- wiki/concepts/instruction-tuning.md
- wiki/concepts/compositional-tasks.md
- wiki/entities/instructdial.md
- 更新页面:index.md
- 关键洞察:
- 首次提出组合指令自动生成框架
- 通过 ICΛ−ψ 格式统一对话任务
- 标记的问题:
- 与其他组合泛化方法的对比待补充
- 下次行动:
- 补充相关论文的摄入
2. Save(归档)
将当前对话中产生的洞察直接存入 wiki,而不是留在聊天记录里。
触发关键词:"save this"、"/save"、"归档"、"存到 wiki"、"把这个记下来"。
归档决策:
| 类型 | 存放路径 | 适用场景 |
|---|---|---|
| synthesis | wiki/questions/ | 多步分析、对比、问答综合 |
| concept | wiki/concepts/ | 解释或定义一个概念 |
| source | wiki/sources/ | 对外部材料的讨论总结 |
| decision | wiki/meta/ | 架构、项目或战略决策 |
工作流:
- 扫描当前对话,识别最有价值的内容
- 确认笔记标题(如未指定)
- 确定笔记类型
- 提取内容,用陈述句重写(不用"用户问了…而我解释…"的格式)
- 在正确路径创建笔记,包含完整 frontmatter
- 收集对话中提到的 wiki 页面,填入
related字段 - 更新
wiki/index.md - 追加到
wiki/log.md(顶部) - 更新
wiki/hot.md - 确认:"已存为 [[Note Title]]"
3. Query(查询)
从知识库回答问题。好的答案可以归档回 wiki 作为新页面。
详细工作流:
1. 理解问题
↓ 确定用户问的是什么,识别需要哪些页面
2. 查阅索引
↓ 从 index.md 找到相关页面
3. 阅读页面
↓ 仔细阅读相关页面的内容
4. 综合答案
↓ 整合多个页面的信息
5. 提供回答
↓ 返回带引用的答案
6. 保存有价值的内容
↓ 如回答本身有价值,创建新页面存入 wiki
查询日志格式:
## [2026-04-16] query | LLM Agent 规划能力
- 引用页面:[[LLM-PlanningSurvey]], [[Task-Decomposition]], [[Memory-Augmented-Planning]]
- 生成新页面:[[comparison-planning-methods]]
- 归档价值:高
4. Lint(检查)
定期健康检查知识库。建议每周一次或每摄入 5-10 个新资料后执行。
完整检查清单与报告格式:见 [[schema/LLM_WIKI_SCHEMA.md#lint-健康检查]]。
检查清单:
| 检查项 | 说明 |
|---|---|
| 矛盾检测 | 查找页面间相互矛盾的内容 |
| 过时内容 | 被新资料取代的老旧观点 |
| 孤立页面 | 没有入口链接的页面 |
| 缺失链接 | 提到但未建立链接的概念 |
| 孤儿链接 | 指向不存在页面的链接 |
| 数据空白 | 可以通过搜索填补的信息缺口 |
| 新认知 | 有无值得新建的汇总/对比页 |
5. Autoresearch(主动研究)
给定一个主题,自主进行多轮搜索→抓取→综合→归档,完全闭环无需人工介入。
触发关键词:"/autoresearch"、"研究一下"、"调研"、"深挖"、"investigat"。
研究循环(最多 3 轮):
Round 1:广度搜索
→ 将主题拆解为 3-5 个不同角度
→ 每个角度执行 2-3 次搜索
→ 抓取排名最高的结果,提取关键 claims、实体、概念、开放问题
Round 2:填补 Gap
→ 识别 Round 1 中的缺失或矛盾
→ 对每个 gap 执行针对性搜索(最多 5 次)
→ 抓取结果
Round 3(可选):综合验证
→ 如仍有重大矛盾或空白,再执行一轮针对性搜索
→ 否则直接进入归档
归档产出:
wiki/sources/源名.md— 每个主要参考来源一页wiki/concepts/概念名.md— 每个重要概念一页wiki/entities/实体名.md— 每个人/组织/产品一页wiki/questions/Research: 主题名.md— 综合 synthesis 页(总入口)
完成后:
- 更新
wiki/index.md - 追加到
wiki/log.md(顶部) - 更新
wiki/hot.md - 向用户报告研究成果
矛盾标记(Ingest 时自动检测)
摄入新资料时,LLM 主动检测与现有知识的矛盾,触发以下行为:
检测逻辑:新资料的某个结论与现有 wiki 页面的结论相互冲突且无法通过补充限定条件调和。
矛盾存在时的处理:
- 在新资料摘要页中插入
[!contradiction]段落,说明矛盾双方及冲突点 - 在相关现有页面的
## 矛盾记录章节追加说明 - 在
wiki/log.md中记录:⚠️ 矛盾:[[新页面]] vs [[旧页面]] — 冲突点描述 - 建议创建或更新 comparison 页面进行系统对比
矛盾标记示例:
>[!contradiction] 与现有知识的矛盾
>[[summary-ReAct]] 认为 LLM 的推理能力足以支持自主任务执行,
>但 [[summary-Voyager]] 显示仅靠推理不够,需要 skill library 支撑。
>两者在"LLM 是否需要外部知识库"的结论上存在根本分歧。
[!NOTE] 矛盾标记需要 obsidian-callout CSS 支持(如使用纯 Markdown 环境,改为引用块格式)。
6 种 Wiki Mode(场景化初始化)
初始化 wiki 时,根据使用场景选择对应的文件夹结构和入口模板:
| Mode | 适用场景 | 特点 |
|---|---|---|
| A: Website | 站点内容审核、SEO wiki | sitemap 爬取、内容审计 |
| B: GitHub | 代码库架构、知识库 | 架构图、README 关联 |
| C: Business | 竞品分析、项目管理 | 决策记录、里程碑跟踪 |
| D: Personal | 第二大脑、目标管理 | 习惯追踪、日记综合 |
| E: Research | 论文研读、领域综述 | 概念图谱、引用追踪 |
| F: Book/Course | 书籍/课程笔记 | 章节进度、要点提炼 |
初始化时问用户:"这个知识库的主要用途是什么?"根据回答选择对应 Mode。
Lint 报告格式:
## [2026-04-16] lint | 知识库健康检查
### 发现的问题
- 问题 1:某页面缺少与相关概念的链接
- 问题 2:某旧页面结论被新摄入论文推翻
### 建议的行动
- 行动 1:为孤立页面添加相关链接
- 行动 2:更新旧页面或添加矛盾标记
### 值得调查的问题
- 问题 A:是否需要新增"组合泛化"对比页?
- 问题 B:某些概念的跨语言表述是否一致?
目录结构
SiliconBrain/
├── raw/ # 原始源层(只读)
│ ├── assets/ # 图片/附件
│ ├── papers/ # 学术论文
│ ├── articles/ # 文章/网页
│ ├── transcripts/ # 会议/播客转录
│ └── books/ # 书籍章节
├── wiki/ # Wiki 维护层(仅放已生成知识页面)
│ ├── entities/ # 实体页(人物/产品/地点)
│ ├── concepts/ # 概念页(术语/理论/方法)
│ ├── summaries/ # 摘要页(每个源的摘要)
│ ├── comparisons/ # 对比分析页
│ ├── sources/ # 来源页(autoresearch 归档)
│ ├── questions/ # 综合问答页(synthesis / research 产出)
│ ├── meta/ # 元信息页(decision / session 等)
│ ├── index.md # 内容索引
│ ├── log.md # 操作日志(append-only)
│ ├── hot.md # 热缓存(session 记忆)
│ ├── overview.md # 知识库总览
│ └── lint-reports/ # 健康检查报告
├── schema/ # 规则层
│ └── LLM_WIKI_SCHEMA.md # 核心指令
└── meta/ # 参考与模板层(不属于运行中的 wiki 内容)
├── llm-wiki.md
├── reffer.md
├── reffer-CLAUDE.md
└── templates/
└── wiki/
├── entities/
├── concepts/
├── summaries/
├── comparisons/
└── lint-reports/
页面规范
页面类型
| 类型 | 路径 | 说明 |
|---|---|---|
| Entity Pages | wiki/entities/ | 人物、产品、地点、组织等具体实体 |
| Concept Pages | wiki/concepts/ | 术语、理论、方法论、设计模式 |
| Summary Pages | wiki/summaries/ | 每个原始源的专属摘要 |
| Comparison Pages | wiki/comparisons/ | 两个或多个主题的对比分析 |
| Source Pages | wiki/sources/ | autoresearch 中每个参考来源一页 |
| Question/Synthesis Pages | wiki/questions/ | 综合问答、research 合成页 |
| Meta Pages | wiki/meta/ | 决策、会议记录、session 总结 |
命名规范
| 类型 | 规范 | 示例 |
|---|---|---|
| 实体页 | 使用规范名称,首字母大写 | InstructDial.md、AgentBoard.md |
| 概念页 | 使用 kebab-case | instruction-tuning.md、task-decomposition.md |
| 摘要页 | 无前缀,目录隔离 | summaries/CESAR.md、summaries/LLM-PlanningSurvey.md |
| 对比页 | 无前缀,目录隔离 | comparisons/llm-wiki-vs-rag.md |
YAML Frontmatter
每个页面顶部应包含 YAML frontmatter:
---
title: 页面标题
type: entity/concept/summary/comparison
created: 2026-04-16
updated: 2026-04-16
sources: [raw/papers/xxx.pdf]
links: [[页面1]], [[页面2]]
tags: [tag1,tag2,tag3]
---
标准页面结构
# 页面标题
## 定义
一句话概括本页内容。
## 详细内容
...(核心内容)
## 关键要点
- 要点 1
- 要点 2
## 相关页面
- [[相关页面1]] — 关联说明
- [[相关页面2]] — 关联说明
内部链接语法
使用 [[wikilink]] 语法创建内部链接(兼容 Obsidian):
参考 [[attention-mechanism]] 中的详细解释。
也可以用管道符重命名:[[attention-mechanism|注意力机制]]
索引维护 / Index Maintenance
index.md 是知识库的导航索引,包含每个页面的链接、一句话摘要和元数据。
每次摄入资料时必须更新:
- 新增页面条目 — 新创建的页面添加到对应分类
- 更新摘要 — 已修改页面的摘要需要更新
- 更新统计 — 页面总数、最后更新日期
index.md 模板(文档示例,实际占位模板位于 meta/templates/wiki/):
# LLM Wiki 索引
updated: 2026-04-16
## 实体页 entities/
| 页面 | 摘要 | 源数 | 更新 |
|------|------|------|------|
| [[LLM]] | 大语言模型 | 1 | 2026-04-16 |
## 概念页 concepts/
| 页面 | 摘要 | 源数 | 更新 |
|------|------|------|------|
| [[LLM-Wiki模式]] | LLM增量构建持久化知识库 | 1 | 2026-04-16 |
## 摘要页 summaries/
| 页面 | 原始源 | 核心 | 更新 |
|------|--------|------|------|
| [[summary-llm-wiki-idea]] | raw/articles/llm-wiki.md | LLM Wiki替代传统RAG | 2026-04-16 |
日志规范 / Log Conventions
log.md 是按时间顺序的活动记录,只增不减。
日志前缀约定(便于解析):
# 查看最近 5 条记录
grep "^## \[" wiki/log.md | tail -5
# 查看所有摄入记录
grep "^## \[.*\] ingest" wiki/log.md
# 查看所有查询记录
grep "^## \[.*\] query" wiki/log.md
# 查看所有检查记录
grep "^## \[.*\] lint" wiki/log.md
# 查看指定日期范围
grep "^## \[2026-04" wiki/log.md
每条日志格式:
## [YYYY-MM-DD] 操作类型 | 标题
- **操作:** ingest/query/lint/maintenance
- **页面:** 创建/更新的页面列表
- **关键洞察:** 主要发现
- **标记的问题:** 需要进一步调查的事项
- **下次行动:** 建议的后续步骤
Lint 检查报告模板(文档示例,实际占位模板位于 meta/templates/wiki/)
# LLM Wiki 健康检查报告
date: 2026-04-16
scope: 全库
## 检查结果
1. 矛盾内容:无/发现 N 处
2. 过期结论:N 处
3. 孤立页面:N 个
4. 缺失概念页:N 个
5. 缺失交叉引用:N 处
## 建议
- 持续按单源 Ingest 模式更新
- 每 10 次 Ingest 执行一次 Lint
- 新增源后及时核对摘要准确性
## 值得调查的问题
- 问题 A
- 问题 B
工具推荐
Obsidian 相关
| 工具 | 用途 |
|---|---|
| Obsidian | 知识库 IDE,支持 Graph View、Marp 幻灯片、Dataview 查询 |
| Obsidian Web Clipper | 浏览器插件,将网页文章保存为 Markdown |
| 本地图片保存 | 设置 → 文件和链接 → 附件文件夹路径为 raw/assets/,绑定快捷键 Ctrl+Shift+D 下载图片 |
| Graph View | 可视化知识库的网络图,展示页面间的连接 |
| Dataview 插件 | 通过 YAML frontmatter 查询页面,生成动态表格 |
| Marp 插件 | 从 markdown 生成幻灯片,导出到 wiki/exports/ |
搜索工具
| 工具 | 说明 |
|---|---|
| qmd | 本地 markdown 搜索工具,支持 BM25/向量混合搜索和 LLM 重排序,有 CLI 和 MCP 两种接口 |
# 安装 qmd
brew install tobi/tap/qmd
# LLM 调用搜索
qmd search "关键词" wiki/
为什么这样做有效
维护知识库最繁琐的不是阅读或思考,而是繁琐的整理工作:
- 更新交叉引用
- 保持摘要最新
- 标注新旧数据矛盾
- 维护众多页面间的一致性
人类放弃 wikis 是因为负担增长快于价值增长。
LLM 的优势:
- 不会厌倦
- 不会忘记更新交叉引用
- 一次操作可以修改多个文件
- 维护成本接近于零
人类的工作: 策源(Sourcing)、提问(Asking)、决策(Deciding)。
LLM 的工作: 总结(Summarizing)、关联(Linking)、归档(Filing)、维护(Maintaining)。
适用场景
| 场景 | 说明 |
|---|---|
| 个人成长 | 目标、健康、心理、自我提升 |
| 学术研究 | 深入研究领域,跨月积累 |
| 书籍阅读 | 章节摘要、人物关系、主题分析 |
| 团队知识库 | 会议纪要、项目文档、沟通记录 |
| 竞品分析 | 持续跟踪竞争对手动态 |
相关文档
| 文档 | 说明 |
|---|---|
| Schema 规则 | LLM 核心指令,详细的行为规范 |
| 索引 | 内容目录,所有页面的索引 |
| 操作日志 | 活动时间线,所有操作的记录 |
| 总览 | 知识库整体概览 |
附录:命名规范速查表
| 中文名称 | English | 说明 |
|---|---|---|
| 原始资料 | Raw Sources | raw/ 目录下的原始文档 |
| 知识库 | The Wiki | LLM 维护的 wiki 页面集合 |
| 规范 | Schema | schema/ 目录下的配置文件 |
| 索引 | Index | index.md 内容目录 |
| 日志 | Log | log.md 活动记录 |
| 实体 | Entities | wiki/entities/ 目录下的人物、地点、组织 |
| 概念 | Concepts | wiki/concepts/ 目录下的理念、理论、技术 |
| 资料摘要 | Source Summaries | wiki/summaries/ 目录下的按来源整理的摘要 |
| 对比 | Comparisons | wiki/comparisons/ 目录下的分析、对比 |
| 摄入 | Ingest | 将新资料纳入知识库的过程 |
| 查询 | Query | 从知识库回答问题的过程 |
| 检查 | Lint | 对知识库进行健康检查 |
| 交叉链接 | Cross-Links | 页面之间的相互引用 |
| Frontmatter | Frontmatter | 页面顶部的 YAML 元数据 |
本知识库由 LLM 与人类协作维护 / This knowledge base is maintained by LLM and human in collaboration 最后更新:2026-04-21