前言

本人于一周前写了一篇关于使用Ollama+PageAssist,本地部署Deepseek实现联网搜索的文章,其中提到了利用PageAssist中带的联网搜索功能来辅助本地部署的模型扩展实时获取信息的能力,但是有很多小伙伴会发现这个写出的答案并不是很准确,今天我就来研究一下是什么导致的。

问题复现、原理探究以及解决办法

  1. 提示设置RAG嵌入模型,就是需要一个嵌入模型来对网页的内容进行一个向量化,方便让LLM方便读取信息,而不是用大量的token去发给LLM处理,解决办法就是ollama pull nomic-embed-text然后在设置中设置好即可,或者想用其他的嵌入式模型就自己去拉取一个即可请在设置中设置一个文本嵌入模型RAG模型

  2. 联网搜索失败,例如下面几个的例子(分别为无联网搜索和有联网搜索但搜索失败)无联网搜索
    无联网搜索👆
    在这里插入图片描述
    开启了联网搜索,但实际并没有成功搜索的👆
    上面两种情况实际上都是没有进行联网搜索靠大模型自己得出来的结果,所以答案很明显是错误的,导致开启了联网搜索却没有搜索成功的主要原因是,设置的搜索引擎在本地环境下无法正常使用导致的,因为他的默认搜索引擎是duckduckgo,这个搜索引擎是需要科学上网才能使用的,解决办法也很简单,启动本地PC的科学上网,当然也有部分同学不能科学上网也可以直接选择国内的搜索引擎,例如:baidu、sougo修改搜索引擎

  3. 成功配置了搜索引擎,但是结果依旧不是我们想要的,如下图错误的结果
    错误的结果👆
    正确的结果
    想要的结果
    而导致这个原因一般都是设置了baidu搜索引擎,并且搜索网页数设置的少导致的(这里要点名批评百度,所有搜索引擎就它一个出了错误答案),我们点看思考看究竟是什么原因导致的,如下图
    详细思考的百度
    好家伙,我搜这个竟然还能搜到英雄联盟,这我只能说佩服,原来只觉得百度广告多,现在没想到除了广告还有这么多不相关的东西,甚至还有错误的东西,我们来对比一下sougou,这个思考看起来就是正确的
    正确的思考
    当然除了搜索引擎的不同,还有网页数量的不同也是一点,网页搜索数越多,获得的信息量也就越大,LLM处理的信息也就越多,信息的准确性也会越大,但还是要点名批评百度,就算搜狗只有两个搜索页面结果也还会是正确的,思考中第一个结果就让deepseek推理出了正确的答案,所以遇到结果不正确的时候,尽可能的选择好的搜索引擎,以及多添加几个搜索的页面或许就会有所改变,这里也再贴一下google搜索的结果,看起来是和搜狗的结果差不多的,不过好奇的是,他也引用了百度百科,但结果却是正确的google搜索结果

结语

总结一下,本地部署ollama+PageAssist的效果还是不错的,它可以让低参数模型获得更多的知识量来帮助我们解决很多日常遇到的问题,但由于需要使用到搜索引擎的API进行搜索,所以很多时候的准确程度是由搜索引擎的搜索结果导致的,至于要访问某些特定的网页,可能还无法直接使用这个插件做到,不过有曲线救国的方法,就是下载网页的html后链接到RAG中喂给LLM,当然这仅仅对静态页面有效,动态页面可能就需要更加厉害的爬虫手段来实现了。
在使用中如果有遇到什么问题,欢迎各位评论和私聊,也希望我的文章能够帮助到你!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐