北京大学DeepSeek系列-DeepSeek与AIGC应用
用最简单的语言,在 AI 时代,带领更多的人一起前行。DeepSeek 官方网站:https://www.deepseek.com/
用最简单的语言,在 AI 时代,带领更多的人一起前行。
DeepSeek 官方网站:https://www.deepseek.com/
一、大模型基本概念
1、多模态
多模态指的是 文本、图片、音频、视频。
2、通用模型
语言大模型比如 ChatGPT、通义、文心、Kimi 等等 ,是通用模型。
3、行业模型
医疗大模型比如百川智能,还有教育大模型等等。
二、详解DeepSeek-R1
人工智能的发展历程,可以追随到 1997 年的深蓝机器人战胜人类,然后到 2023 的GPT-4。DeepSeek-R1 以推理模型著称,擅长处理数学、代码推理等任务,在中文表达上有优势,并给用户展示思考过程。
说白了理科能力强。
1、常见的推理大模型
DeepSeek R1、OpenAI o1、OpenAI o3-mini、Gemini 2.0、Grok3、Kimi 1.5。
2、为什么独推 DeepSeek R1?
推理成本低、全部开源、国产,打破硅谷的算力神话,成功把国产 AI 推到了第一梯队,能力媲美 OpenAI o1。
3、DeepSeek 背后的公司
DeepSeek,背后是杭州深度求索人工智能有限公司,成立于2023 年7月。投资者是知名私募巨头幻方量化孕育而生的。
4、DeepSeek工作原理
工作原理涉及几个重要的概念
思维链 (CoT)让模型进行慢思考。
蒸馏 (Distillation)在不损失能力的情况下缩小模型。
强化学习 (Reinforcement Learning)让模型自我探索和训练。
DeepSeek的工作原理可以分为以下四个主要步骤:
1). 输入理解
我们向 DeepSeek 提问时,DeepSeek 会对输入的内容进行分析和理解。识别文本中的关键词、语义和上下文信息,以确定用户的需求、意图。
这一步骤类似于:我们在听到一个问题时,先理解问题是什么。
2). 知识检索
DeepSeek 会其内部的知识库中检索相关信息。这个知识库包含了大量预先存储的知识、数据。
这一步骤类似于:我们在回答问题时,从自己的大脑中提取相关知识。
3). 生成回答
DeepSeek 会利用自然语言生成技术,将这些信息组织成一段通顺的回答。
这一步骤类似于:我们在组织语言来回答。
4). 输出结果
DeepSeek 会将生成的回答以文本的形式输出给用户。
这一步骤类似于:我们在回答完问题后,等待对方的反馈。
5、DeepSeek 版本
记住 DeepSeek-R1-671B 是满血版,能力最强,其余是蒸馏版本。
6、DeepSeek-R1 局限
和 DeepSeek-R1 对话,不需要使用过于复杂的提示词。DeepSeek-R1 的幻觉比较明显,看着是一本正经的胡说八道。
三、行业应用
1、电商行业
AI 模特,产品拍摄加速新品发布。
2、内容行业
使用 AI 全流程打造 IP,辅助自媒体运营。
高校研究、医疗、影视、短剧、清洁能源等等。
北京大学 DeepSeek 系列教程:DeepSeek教程
学废了,帮忙点个赞!这对我非常重要!
更多推荐
所有评论(0)