DeepSeek版本

发布

DeepSeek V3 -2024/12/26

对标海外领军闭源模型 自研 MoE 模型 671B 参数,激活 37B,在 14.8T token 上进行了预训练 性能与世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 比肩

百科知识: DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022 相近,但在事实知识 C-SimpleQA 上更为领先

长文本: 在长文本测评中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型

代码: DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型;并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022

数学: 在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型。

中文能力: DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现

DeepSeek APP-2025/01/15

deepseek app 支持注册方式

1.国内手机号注册

2.微信扫码登录

3.APP ID (IOS)

下载方式

目前在如下平台已上架

Apple App Store

Google Play·

小米应用商店

华为应用市场

荣耀应用市场

OPPO 软件商店

vivo 应用商店

腾讯应用宝

官网下载

DeepSeek R1-2025/01/20

模型蒸馏 目前最佳方案,保障AI项目落地

模型蒸馏:高性能模型能力通过某种方式传输给小模型,由小模型在特定的特定的领域发挥作用 上线 API,对用户开放思维链输出,通过设置 model='deepseek-reasoner' 即可调用 性能对标 OpenAI-o1 正式版 蒸馏小模型超越 OpenAI o1-mini

完全开源,不限制商用 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型

Janus-Pro-2025/01/28

多模态处理:支持文本、图像、音频等多种数据类型的处理与分析 文字生成图片 语音识别 跨领域应用:适用于自然语言处理、计算机视觉、语音识别等多个领域

主要模型

DeepSeek V3-deepseek-chat 模型

强大的数据搜索与分析工具,帮助用户快速、高效地处理和分析大量数据

DeepSeek R1-deepseek-reasoner 模型

推理模型:在输出最终回答之前,模型会先输出一段思维链内容,以提升最终答案的准确性。在每一轮对话过程中,模型会输出思维链内容(reasoning_content)和最终回答(content)。在下一轮对话中,之前轮输出的思维链内容不会被拼接到上下文中

Janus-Pro-多态模型 开源

多模态处理:支持文本、图像、音频等多种数据类型的处理与分析 文字生成图片 语音识别 跨领域应用:适用于自然语言处理、计算机视觉、语音识别等多个领域

如何使用

Deepseek 官网

Deepseek APP

Deepseek API

Deepseek 本地化部署

如何选择

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐