离开DeepSeek R1 API 加持的本地知识库都是个渣渣,在深度踩坑后,发现了2个“残酷的”RAG真相。

问错问题=如入天坑,原以为是Bug,还得到了来着AnythingLLM官方社群的“贴心答复”,以正三观。

在部署AnythingLLM+DeepSeek R1的本地知识库方案后,凭借其简单、快速、小白友好、无代码压力等优势,快速利用春节假期进行更多的尝试和探索。

等几个卓有成效的落地场景后,惊讶于DeepSeek 卓越的能力。顿时感觉——“AI上天,什么都能起来了”

但随着更深和更多场景的探索,才发现**“入坑不浅”。特别是阅遍各大平台各大牛博主的文章后,几乎全部都是聚焦在“如何部署AnythingLLM本地知识库并快速上手”或专业开发人员领域的“RAG实战”,鲜有对普通纯应用user的“深度探索并分享应用技巧**”。

初始认知(误区)

如前所述,在解锁4大经典成功应用本地知识库场景后,顿时感觉:如获至宝,LLM在手,RAG无所不能。

于是探索:

  • 【电子书解读】 可否丢一本电子书进AnythingLLM, 让DeepSeek直接帮我详细解读电子书的任意章节及关键概念?

  • 【全文搜索问答】 可否像“全文搜索”一样,对着加载进知识库的文章/书籍/笔记,深度检索并基于问题重构生成?

  • 【复杂数据分析】 除上文验证过的“简单数据分析及洞察”外,做量更大、更复杂的数据分析?

  • 【成体系的知识问答】 短的政策文章可以实现经典问答,那长的完整应用主题的知识问答,可否胜任?

在通过 【场景重现】-【参数调整】-【结果对比分析】-【查找关联原理及流程】-【得出初步结论】的若干折腾后,发现了两个“残酷的真相”

  • 残酷真相1: 哪怕是已成功验证的4个应用场景,在离开“DeepSeek R1 API"(因被攻击后API功能未得到恢复)的加持后,那些本地部署的模型在AnythingLLM里的表现,就是个“渣渣”。——部署并打通流程很简单,取得卓有成效的实战效果强依赖于LLM的理解-检索-推理-生成等底座能力。

  • 残酷真相2: RAG世界里目前(2025年2月)暂时没有“一招鲜、吃遍天”的神奇魔法,在单应用的某些场景下具有稳定输出能力的RAG核心技术仍掌握在少数“专业大厂”手里,无一不是经过了复杂的“策略优化-管道设计-训练-调优-发布”等专业开发流程。开源应用框架提供了发现或探索真理的机会,但目前:臣 - 妾 -做-不-到。

怎么就“离开DeepSeek R1 API”的加持,本地知识库就是渣渣了?

在【场景重现】时,重点对“SmartPet产量数据分析洞察”的案例进行重现探索。由于DeepSeek爆火后,持续被海外攻击,直至今日(大年初七)开工前夕,仍未恢复API申请和使用功能。

在部署了若干本地模型后,进行对比尝试。

再用本地模型重现其他几个场景时,得到的结果基本一致:难以匹敌“DeepSeek R1 API(俗称:在线满血版R1)”的“接近完美的表现”。

因此,再次致敬:期待DeepSeek API的恢复,解锁更多可靠场景!

为什么“AnythingLLM”打造的是“本地知识库”,本地体现在哪里?

整体上,“本地” 的体现:知识在本地,大模型部署在本地,运算在本地,结果在本地。

  • 数据存储位置在本地:AnythingLLM中的各类文档、资料等知识数据上传后,都是在本地进行存储-分切-向量嵌入的,保存在我们自己可控制的本地环境中。

  • 模型运行环境在本地:如【】文所述的,通过 Ollama 等工具部署在本地设备并依赖本地算力的模型,在本地。但严格意义上“调用了API”的不算在本地,属于**“云计算”**。

  • 应用程序部署:AnythingLLM 本身是可以安装在本地电脑上的全栈应用程序,有本地的用户界面和交互环境,用户在本地即可进行知识库的创建、管理、查询等操作,无需通过网络访问远程的应用程序界面。 但AnythingLLM支持cloud部署,暂未探索。

那怎样查看和查找本地结果呢?

1. 本地对话记录

可以通过“小扳手标志的“配置”——“管理员”——“对话历史记录”,导出“工作区聊天历史记录”,支持csv和json格式,小A君通常导出用json格式,用sublime text 打开查看(或在Python中)。

2. 本地存储文件夹

所有AnythingLLM存储文件的地址是:C:\Users\user\AppData\Roaming\anythingllm-desktop\storage

AnythingLLM (1.7.x 版本) Storage各文件夹存储内容整理如下:

以下是 AnythingLLM 本地存储文件夹 Storage 中子文件夹的整理表格,包含各文件夹的作用和存储内容:

文件夹名称 作用及存储内容
documents 存储用户上传的文档文件Chunking分切后的json文件
lancedb [RAG直接访问的就是这个向量数据库里的“数”]按工作区存储文档的嵌入向量(Embeddings),用于语义搜索和相似性匹配。
models 存储通过内嵌AnythingLLM部署的本地模型文件(如语言模型、嵌入模型等),用于离线推理或特定任务。
logs 【基本不看】存储系统日志文件,记录运行时的错误、警告和信息,便于排查问题。
vector-cache 在工作区上传后在embedding前看到文件带"cache"标识的就是存在这个文件夹里:存储临时缓存数据,如处理中的文档片段或中间结果,用于加速后续操作。
temp 存储临时文件,如下载的文件或处理中的临时数据,通常会在任务完成后自动清理。
plugins 存储agent智能体插件文件,用于扩展系统功能或集成第三方工具。

其中,在探索RAG中,最具参考(学习)价值的是documents下的chunking分切后的文件,例如,打开一个可以获得以下信息:

比如,

  • word count:文档的字符数;

  • token_count_estimate: 文档经分切后的token数量。

  • pagecontext:文档分切的上下文。

这个文档,非常有助于小白、初学者,理解本地知识库RAG增强检索生成的流程和逻辑。

问错问题=入天坑,有你中招的情况没?

下面的情况我全部碰到了:

  • “为什么总搜不到答案?”-想把知识库当全文搜索用。

  • “结果驴唇不对马嘴”……出现大V嘴里常说的“幻觉”了。

  • “睁眼瞎”……明明资料里有,而且上下文片段里也有,可就说“在上下文中找不到”。

  • “数字数”……想让RAG来数一数文档字数,这绝对是来“捣乱的”。

  • “从头查到尾,跨整篇文章找“次数”或“列出所有人名”一类……这种问题,一旦容易出现“文本截断”就挂了。

期初根本不理解本地知识库的原理,以为是出Bug了……

在频繁遇到“文本截断”问题后,以为是AnythingLLM出Bug了,小A后者脸皮竟然将这个问题发在了官方的github的社区里:

**[Mintplex-Labs/anything-llm] [BUG]: " --prompt truncated for brevity--".When Uploading Long Files, (Issue #3035)**

我提交的问题(大佬就略过吧,简直太初级, 哈哈):

Q: When I uploading a txt file or pdf file (a report or a chapter of book), use the default setting (Text Chunk Size=512, Text Chunk Overlap=38), the default AnythingLLM Embedder, with LanceDB Vector Database.I see the Vector Count is around 100 -300.it can successfully embedded,

When I ask the following questions, it always answers wrong.what is the key context about, how many words in the context?

How many truncate labels in the context? where are they?

Can you find “XXX” in the context?

来着官方社区的回答:

LLMs are not calculators and also you are asking for full context comprehension in a RAG system. RAG, by its very nature is pieces of relevant content. Not the entire text

How many truncate labels in the context? where are they?

Again, would require the full text to know

Can you find “XXX” in the context?

This also would require the full text, but could work in RAG, but unlikely.

You should read this doc about how all RAG systems work: https://docs.anythingllm.com/llm-not-using-my-docs#llms-do-not-introspect

Additionally, the --prompt truncated for brevity-- is not a problem, it’s actually helping you from having a problem. Your LLM does not have a large enough context window to fit all of your documents into it. If we just let that happen your computer would either lock up totally from RAM and CPU going to 100% or the LLM would just fail.

You cannot fit an infinite amount of text into an LLM, not even the largest models can accomplish this - there is always a limit. RAG (which is what we use) enables us to chunk the document and then ask retrieve only the bits and pieces the make sense for your question and use that in the context window.

This makes larger documents easier to use, but it is at the expense of these types of “whole document” understandings. Instead you should ask questions about the content not the document itself.

The LLM has no idea what a document is, what it looks like, how many pages, and not the entire text. The only way to even accomplish this is using those very large context models like Gemini (2M) or Anthropic - again they still have limits and ingest that many tokens at once is expensive. Thus why RAG exists.

这段内容,可能值得部署了本地知识库的新手们——仔细研读,校正认知。


收货及思考

大模型时代,好问题胜过好答案

同样,本地知识库:问错问题=入天坑,找错对象了。

📌心得:本地知识库好像是**“超级资料员”,但不是“全文检索器”,更非"全能决策者"**。

用好它的核心在于:明确边界,扬长避短,人机协同

AnythingLLM你用的还好吗?你有更好的本地知识库方案吗?

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐