前言

不久前,OpenAI 推出了基于全网权威信源搜索打造的报告生成神器Deep Research ,引发全球关注。

然而,Deep Research月费200美金,性价比并不算高;此外,针对不同任务,各家大模型各有所长,只绑定其中一家最终效果往往并不理想。最重要的是,企业级场景中,真正有价值的数据,比如企业场景中的项目文档、研发的CAD图纸,多以非结构化形式储存在本地。

那么,企业如何把本地数据数据与Deep Research结合,还能灵活地挑选适合自己的大模型?

不久前,我们结合DeepSeek等主流开源模型,并在常见的RAG方案上做了重大升级,推出开源项目Deep Searcher,帮助大家在企业级场景中,基于Deep Research思路,做私有化部署。

一经推出,仅一周时间,该项目已经在Github上收获了800+星和众多关注和讨论,成为备受关注的本地部署企业级DeepResearch方案。

尝鲜链接:https://github.com/zilliztech/deep-searcher

本文中,我们将以硅基流动 + DeepSeek +DeepSearcher为例,为大家带来本地部署展示。

01

为什么说DeepSearcher是搜索AGI的最新RAG范式

事实上,在DeepSearcher出现之前,企业做本地知识检索与专业内容生产的链路,一直是由一个个断点组成

在Simple RAG时代,我们问题拆解,本地知识检索,互联网知识检索,基于检索的内容生成,是在不同环节被拆解完成的。

到了Graph RAG时代,检索与带有一定推理能力的内容生成成为可能,不过对于如何将问题深度拆解,到底需要检索什么内容,仍处于比较初级的形态。

到了Deep Searcher时代,一方面是模型推理能力的进步,一方面是算力的提升,从提问到问题拆解,到不同内容的检索,到生成,得以在一个环节内执行,RAG完成了从一个工具,到完整解决问题的角色进化。

02

选型参考:硅基流动 + DeepSeek +Milvus=DeepSearcher

本次复现中,我们会采用硅基流动 + DeepSeek +Milvus的方式来打造企业本地的Deep Searcher,选型逻辑如下:

硅基流动

硅基流动致力于打造规模化、标准化、高效能AI Infra 平台,提供高效能、低成本的多品类AI 模型服务,并能提供“满血” 的DeepSeek R1 服务。与此同时,过年前后,在DeepSeek官方入口频繁被挤崩的背景下,硅基流动联合华为昇腾成为国内最早一批将DeepSeek模型部署到自家服务上,并为每个注册用户提供了免费的api key及邀请奖励额度的平台。

(另,新用户注册,平台会送14元免费额度,邀请新用户也可得14元额度)

DeepSeek

DeepSeek是目前全球范围内最顶级的开源大模型企业,旗下Deepseek R1 ,还有DeepSeek V3均处于全球领先水平,在内容生成方面,具备相当优势。

Milvus

相较Open AI的DeepResearch,DeepSearcher最大的优势在于可以接入本地数据与知识库,将企业的本地私有数据应用至复杂的研究任务中。使用开源的Milvus向量数据库,可以对企业的私有化数据进行更加高效管理,使得大模型可以更加准确有效地回答用户疑问。

03

实操教程

第一步:硅基流动准备工作

1.注册硅基流动账号,访问 https://siliconflow.cn/ 进行注册

2.创建API Key,完成后需要保存个人的API Key,文章后续需要使用该Key,另外个人Key注意保密,如果出现泄漏可以删除重新生成。

第二步:DeepSearcher运行环境准备

1.从Github上获取项目源码

git clone https://github.com/zilliztech/deep-searcher.git

2.为DeepSearcher创建虚拟python环境,建议使用python3.10以上版本,下面使用python自带的venv创建虚拟环境,也可以根据自己熟悉的工具进行创建。

cd deep-searcher``python3 -m venv .venv``source .venv/bin/activate

3.安装deepsearcher及其依赖第三方库

pip install -e .

第三步:DeepSearcher 示例运行

1.设置环境变量,以下以Linux为例,编辑用户目录下的.bashrc,添加SILICONFLOW_API_KEY环境变量,其值设置为自己的API Key。

export SILICONFLOW_API_KEY=sk-xxx

2.编辑项目DeepSearcher项目下的examples目录下的basic_example.py文件,设置硅基流动的DeepSeek服务。下面示例中设置的是deep seek v3的模型,也可以设置为r1(即:deepseek-ai/DeepSeek-R1),更多模型选项可以参考其官方文档:https://docs.siliconflow.cn/cn/api-reference/chat-completions/chat-completions

config.set_provider_config("llm", "SiliconFlow", {"model": "deepseek-ai/DeepSeek-V3"})``   
![](https://mmbiz.qpic.cn/mmbiz_png/MqgA8Ylgeh59KUbmMLQA7RjOS7mhLr3f5ic17d4Fq1iayNwrcz9XYaSmjQdHRsQLkQu83XicGTl1yZJricw1NBXUpg/640?wx_fmt=png&from=appmsg)

3.在运行前,这里简单介绍下这个示例,是加载一个本地的pdf,然后让大模型针对于这个pdf回答问题,当然你也可以通过同样的方式load更多pdf。这篇文章只是一个简单的示例演示,更多关于DeepSearcher的介绍参考之前发送的文章。

# 确保你在该项目的根目录``python examples/basic_example.py

运行后,将会看到整个问题思考解答的部分流程,在最后会给出一个类似于下图的最终答案。

这个示例最后也打印出了消耗的token数目,同时也可以在硅基流动平台查看该次消耗的费用。运行这次示例,笔者消耗了12224 token数目,费用为0.0286元。

04

写在最后

目前很多其他云厂商也提供了DeepSeek服务,如阿里云、科大讯飞、腾讯云等,也可以类似的设置,主要就是修改config,因为每个平台其模型名称可能存在差异,另外base url也不一样,可以参照下面示例对应编写。

config.set_provider_config(`    `"llm",`    `"DeepSeek",`    `{`        `"model": "xxx",`        `"api_key": "xxx",`        `"base_url": "xxx",`    `},``)

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐