2024-01-03 约 2600 字预计阅读 6 分钟 - 次阅读

基于大模型构建本地知识库

想法

2023 年是大模型的元年，大模型的出现使得 NLP 领域的研究进入了一个新的阶段。在这一年，大模型的研究成果不断涌现，大模型的应用也在不断扩展。我一直在思考，如何在创作中应用大模型。

在 2022 年 6 月入职以来，我开始基于 github + vscode 构建自身的本地知识库，于是逐渐疏忽了对于博客的更新。而在 2023 年 6 月开始，我又逐渐尝试转向使用 obsidian 进行写作，并采取 PARA + Inbox 和日记来进行知识的规划、整理和总结。这又是后话了。

在知识创作的过程中，我逐渐发现了几个非常麻烦的问题：

相同类型的知识可能会散步在多个文件内，而现有的搜索方式很难找到这些内容，特别是当我自己都不知道我自己想要搜索什么时。
1. 例如，我有段时间在研究福格行为模型。这部分内容可能会出现在我对于行为科学的研究上，可能会出现在我对于《福格行为模型》的读书笔记里，可能会出现在我对其的其他实践中。诚然，这些文档之间有着对应的双向链接，通过链接或者 tag 一个个找肯定是能找到的，但是太过费事。
2. 使用 grep 来逐行搜索，又不一定能稳定在同一行。构建本地索引也可能有问题，因为我不确定自己输入的关键词是否完全正确。
此外，每次对知识进行总结和归纳也是一个体力活。特别是引入日历之后，需要定时定期地对每日、每周、每月的知识和个人行为表现进行总结和归纳。

这部分内容其实相对来说也不算多，一个很自然的想法就是：大模型是否能帮助我解决这一点？

GPT4

最早的想法自然是直接使用 GPT4，于是我找到了这篇文章。应该是在去年 11 月开始，OpenAI 允许用户自行创建 GPT。

不过原作者使用的方式是将所有内容全部传到一个 markdown 并上传，而我的东西太多了，我只能自己打 zip 压缩包。丢上去之后，效果非常差，模型完全不能回应我的任何内容。而且从一些视频和我自己的使用情况来看，ChatGPT 的回应速度不是很理想，在高强度的交互下会很影响灵感。所以我最终只能另寻他法。

在和 GPT 交互时积累的一些基础知识，应该是摘录自 reddit，虽然最后我也没用上

RTFC 框架：
- 角色（Role）：明确你希望 ChatGPT 扮演的角色。
- 任务（Task）：具体说明你希望完成的任务。
- 格式（Format）：指定输出的格式。
- 约束（Constraints）：定义清晰的约束条件，明确指出不希望看到的内容。这包括使用简单但权威的语言，避免使用行业术语和过于热情的销售语言等。
提供示例：
- 提供具体示例可以显著提高输出质量，就像去理发店一样，展示你想要的发型照片比描述要简单得多。告诉 ChatGPT 你不想要的内容或风格也同样重要。
分步请求：
- 让 ChatGPT 放慢速度，分步骤提供信息或结果，这样通常能得到更好的结果。同时，鼓励 ChatGPT 提出跟进问题，以便更好地理解需求或改进输出。

其他提示/观察：

当聊天记录变得过长时，最好重新开始，以避免混乱和误解。
可以要求 ChatGPT 提供对话摘要，以便重新开始但保留上下文。
在使用不同的 AI 工具时，可以结合它们的优势：例如，GPT-4 在推理上表现优秀，而 Claude 在写作上更自然、更吸引人。

本地知识库实践

由于 ChatGPT 无论怎么提问都无法使用知识库内的知识，一问三不知。我打算先跑起一个本地的知识库看一下效果，再决定后续的工作。

在实践中，我发现本地知识库的部署可以直接使用现有的开源项目来完成，而且效果也可以很不错：chatchat-space。问题在于，我比较看好的 chatglm6b 显存要求太高，至少要 14GB 的显存才能跑得起现有的大模型，比较麻烦。而 Qwen-1_8B-Chat 虽然只需要 3.8GB 的显存，但是看起来不是很靠谱。

远端尝试

由于本地实在不像是能跑起来的样子，于是我决定氪服困难。我直接在 AutoDL 上弄了一台 4090 的 GPU 服务器先尝试运行了一下，镜像为 Langchain-chatchat v12，要求 CUDA 12 以上。使用 vscode 完成端口的转发，毕竟它还能自动完成检测，更方便一些。

Langchain-chatchat 也很有意思，之后有时间可以把它拆解一些阅读源代码。

本地运行

总是在云端也不是办法，最终我还是尝试了一下本地直接启动。众所周知，配置深度学习和 GPU 环境一直是一个让人头秃的问题，不出问题还好，一出问题就让人容易去世。特别是在 windows 上，基本上是一个不太让人长寿的操作。因此我计划使用 windows-wsl，直接跑 docker 镜像来挽救我的时间。

wsl 教程可以参考 codewithGPU 的安装介绍

其中，docker 安装建议使用清华的镜像，docker 官方镜像慢的飞起

WSL 上使用 GPU 的教程见英伟达官方文档，具体来说：

首先，主机需要有对应的显卡驱动
WSL 中需要配置 wsl cuda，选择系统为 linux 的 wsl-ubuntu 即可。由于我这里使用的是 docker 镜像启动，所以可以直接跳过 CUDA

尝试结果：

本地效果会差很多，速度非常慢。值得注意的是我的 2070S（显存 8GB）也能运行起来 chatglm3-6b（理论要求显存 14GB）。怀疑是使用了虚拟内存之类的技术，因为我的机械盘读写炸了……
效果一般，Qwen 的效果相当一般，只能说得益于向量数据库，至少能找到对应的内容，作为本地搜索的补充确实还可以，想要更进一步……不太行。
对素材要求很高。本地的时候额外添加了微信读书内的划线和原文，表现一下子变差了很多。模型比较难以理解断续的文字，而对于我此前做好的笔记效果则好非常多。