全球82亿人口,网民55.6亿,而ChatGPT坐拥3.5亿全球月活,渗透率算下来也有6%左右了。但这还是DeepSeek-R1开源之前的故事。1/20 开源以来,DeepSeek-R1属实又硬拉高了一大波全球 AI的渗透率,或者换句话说,是解锁了更多的应用场景。

其实,本来就有个烂大街的共识是,截止 24 年年底大模型的tokens成本已经足够低、基座模型的智能程度也已经足够高,25年是可预见的AI Agent爆发的一年。也就是预计会在更个细分领域和细分场景上,涌现一批一大堆专注于特定任务的智能体。现在看起来,这个共识似乎已经开始变成常识了。

Anyway,这篇来给各位介绍一个基于DeepSeek本地部署模型(或商用 API)的自动化法证邮件分析系统。源码已在Github 开源,项目地址是:https://github.com/weiwill88/Email_audit, 欢迎大家试用后交流。

1

开发背景

开发的起点是,一个小红书上的盆友来咨询说,自己做法证审计经常需要查阅嫌疑人的工作邮箱,但是目前主要是人工根据经验设计关键词去做邮件过筛,然后再人肉的看完过去两年左右的邮件。当然,还需要根据蛛丝马迹来梳理线索,so 问了下是否能用DeepSeek自动完成这个过程。我当时直接回复说,这个没有 deepseek也能干,后来在实际做的过程中又想了下,可能也不是。

一年期用 Claude 3 或者 GPT 4o确实能力上没问题,但问题是 API 贵啊。那当时能否部署开源模型到本地呢,既不要钱还保证信息安全,也不是不行,只是普通电脑如果只有集成显卡,基本也就跑个7b,这个尺寸下原有的开源模型比较拉胯,效果很差,那还不如不用。

现在的变化是,DeepSeek-R1蒸馏过的几个小尺寸模型也已五脏俱全,凑活下也能用。至少针对核心敏感数据的本地处理可以应付下,大批量的脱敏数据条件允许下,也可以考虑使用商用API 来加快下速度。另外用 DeepSeek 的GRPO 方法也可以选择对本地部署的小尺寸模型进一步进行微调,可以使用 Unsloth工具,7G显存就能微调小尺寸模型。用自己的数据打造专属模型,本也是本地部署的终极意义。

言归正传,Unsloth 微调的教程和案例后续再发文,接下来先介绍下这个项目本身。

2

项目定位

本系统旨在利用大语言模型实现对被分析对象 outlook 邮箱中海量邮件的自动化分析和快速摘要,帮助法证审计人员迅速捕捉邮件中的蛛丝马迹,降低人工筛查工作量。特别针对长期邮件(如员工两年内的全部邮件)进行重点优化,实现自动摘要、疑点提示及重点预警功能。

3

邮件模拟

本来是拿自己的 outlook 邮箱来做的样例去试代码逻辑,但发现我只有充斥着广告的收件箱,发件箱几乎为空,完全不具备代表性。于是,就用 DeepSeek-r1 按照法证审计中的一些风险要点,去模拟了一个案例,然后再用 Deepseek-V3 生成了具体的模拟邮件内容(100 封)。

看完这个模拟邮件的设计文档和生成邮件结果,我忽然也发现,我其实很多项目的数据样例都可以让 DeepSeek-r1 来生成,这样或许测试数据还具备代表性。

4

🚀快速开始

4.1

环境要求

Python 3.8+、DeepSeek API Key(默认模式)或 Ollama(离线模式)

4.2

安装依赖

pip install -r requirements.txt

4.3

模型选择

本项目支持两种模式运行:

1. 在线模式(默认,推荐)

使用 DeepSeek V3 API:

✅ 优点:分析速度更快(约 5-10 倍)结果更准确无需本地部署资源占用少

⚠️ 注意事项:需要联网需要 API 密钥邮件内容会发送至 API 服务器

配置方法:

在 .env 文件中设置你的 API 密钥:

DEEPSEEK_API_KEY=你的密钥``DEFAULT_MODEL=deepseek_api

2. 离线模式

使用本地 Ollama 模型:

✅ 优点:完全离线运行数据本地处理无需 API 密钥

⚠️ 注意事项:需要较高配置(建议至少 16GB 内存)首次运行需要下载模型(约 7GB)分析速度较慢

配置方法:

安装 Ollama:https://ollama.ai/ ( https://ollama.ai/ )

下载模型:

ollama pull deepseek-r1:7b

在 .env 文件中修改配置:

DEFAULT_MODEL=ollama``OLLAMA_MODEL=deepseek-r1:7b

4.4

数据安全说明

在线模式(DeepSeek API):邮件内容会通过 HTTPS 发送至 API 服务器建议处理敏感数据时使用离线模式 API 提供商承诺不存储用户数据

离线模式(Ollama):所有数据本地处理无需网络连接适合处理敏感信息

5

🔄 系统流程

5.1

使用方法

PST 文件解析:

python pst_parser.py

将自动解析指定路径下的 PST 文件,生成 CSV 格式的邮件元数据。

邮件分析:

python email_analyzer.py

默认使用 DeepSeek API 进行分析。如需切换到离线模式:

python email_analyzer.py --model ollama

对解析后的邮件进行智能分析,生成审计报告。

5.2

配置说明

程序会自动在当前目录的 output 文件夹下查找 metadata_report.csv 文件。 请确保 PST 解析后的文件被保存在正确的位置。

公司邮箱配置

在 .env 文件中设置公司邮箱域名:

COMPANY_DOMAIN=你的公司邮箱域名

此配置用于识别外部邮件,这是风险评估的重要指标。如果有多个域名,可以用逗号分隔。

6

📊 输出示例

6.1

时间线分析

6.2

关系网络

6.3

审计报告

风险等级分布、关键发现列表、详细分析结果、建议措施

7

🔄 后续迭代计划

生成的报告还要经过很多完善才可能能用,计划后续结合前期介绍的 RAG 智能对话系统,可以针对特定问题进行全量邮件的检索回答。

1. 邮件向量化与存储

基于 ChromaDB 构建本地向量数据库实现增量数据更新机制支持多维度向量索引(正文、主题、时间等)优化向量压缩和检索性能

2. 智能问答系统

实现基于上下文的多轮对话支持复杂查询和条件过滤添加时间范围和关键词筛选集成实体识别和关系提取

3. 深度分析功能

邮件线索追踪和关联分析人物关系图谱构建事件脉络自动梳理异常行为模式识别

(完)

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐