用最简单的语言,在 AI 时代,带领更多的人一起前行。

DeepSeek 官方网站:https://www.deepseek.com/

一、大模型基本概念

1、多模态

多模态指的是 文本、图片、音频、视频。

2、通用模型

语言大模型比如 ChatGPT、通义、文心、Kimi 等等 ,是通用模型。

3、行业模型

医疗大模型比如百川智能,还有教育大模型等等。

二、详解DeepSeek-R1

人工智能的发展历程,可以追随到 1997 年的深蓝机器人战胜人类,然后到 2023 的GPT-4。DeepSeek-R1 以推理模型著称,擅长处理数学、代码推理等任务,在中文表达上有优势,并给用户展示思考过程。

说白了理科能力强。

1、常见的推理大模型

DeepSeek R1、OpenAI o1、OpenAI o3-mini、Gemini 2.0、Grok3、Kimi 1.5。

2、为什么独推 DeepSeek R1?

推理成本低、全部开源、国产,打破硅谷的算力神话,成功把国产 AI 推到了第一梯队,能力媲美 OpenAI o1。

3、DeepSeek 背后的公司

DeepSeek,背后是杭州深度求索人工智能有限公司,成立于2023  年7月。投资者是知名私募巨头幻方量化孕育而生的。

4、DeepSeek工作原理

工作原理涉及几个重要的概念

思维链 (CoT)让模型进行慢思考。

蒸馏 (Distillation)在不损失能力的情况下缩小模型。

强化学习 (Reinforcement Learning)让模型自我探索和训练。

DeepSeek的工作原理可以分为以下四个主要步骤:

1). 输入理解

我们向 DeepSeek 提问时,DeepSeek 会对输入的内容进行分析和理解。识别文本中的关键词、语义和上下文信息,以确定用户的需求、意图。

这一步骤类似于:我们在听到一个问题时,先理解问题是什么。

2). 知识检索

DeepSeek 会其内部的知识库中检索相关信息。这个知识库包含了大量预先存储的知识、数据。

这一步骤类似于:我们在回答问题时,从自己的大脑中提取相关知识。

3). 生成回答

DeepSeek 会利用自然语言生成技术,将这些信息组织成一段通顺的回答。

这一步骤类似于:我们在组织语言来回答。

4). 输出结果

DeepSeek 会将生成的回答以文本的形式输出给用户。

这一步骤类似于:我们在回答完问题后,等待对方的反馈。

5、DeepSeek 版本

记住 DeepSeek-R1-671B 是满血版,能力最强,其余是蒸馏版本。

6、DeepSeek-R1 局限

和 DeepSeek-R1 对话,不需要使用过于复杂的提示词。DeepSeek-R1 的幻觉比较明显,看着是一本正经的胡说八道。

三、行业应用

1、电商行业

AI 模特,产品拍摄加速新品发布。

2、内容行业

使用 AI 全流程打造 IP,辅助自媒体运营。

高校研究、医疗、影视、短剧、清洁能源等等。

 北京大学 DeepSeek 系列教程:DeepSeek教程

学废了,帮忙点个赞!这对我非常重要!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐