
DeepSeek「保姆级教程」| 从“零基础到精通”的速成指南,新手3分钟深度玩转DeepSeek-R1!
DeepSeek无疑是2025年最热门的话题之一,网上有关DeepSeek的消息更是满天飞,很多不懂IT和AI的朋友想要跃跃欲试,却是一脸懵逼,完全不知道从哪里下手!虽然网上已经有很多介绍DeepSeek的资料和文章,但是缺乏一个系统性的综述类文章,能够快速让不懂的IT和AI的朋友们也能从0~1的深入了解DeepSeek系列大模型。于是乎就有了这篇文章的诞生,小编从多个角度向你娓娓道来,讲讲有关D
DeepSeek保姆级教程
“DeepSeek无疑是2025年最热门的话题之一,网上有关DeepSeek的消息更是满天飞,很多不懂IT和AI的朋友想要跃跃欲试,却是一脸懵逼,完全不知道从哪里下手!虽然网上已经有很多介绍DeepSeek的资料和文章,但是缺乏一个系统性的综述类文章,能够快速让不懂的IT和AI的朋友们也能从0~1的深入了解DeepSeek系列大模型。于是乎就有了这篇文章的诞生,小编从多个角度向你娓娓道来,讲讲有关DeepSeek你想知道的一切内容,涉及:
- 入门篇–聊聊DeepSeek是谁?有哪些产品?
- 上手篇–如果使用官方与三方平台的DeepSeek模型?
- 应用篇–DeepSeek有哪些应用与落地场景?
- 技术篇–DeepSeek中包含哪些核心技术?
- 感悟篇–DeepSeek能给我们带来哪些改变与机遇?
- 拓展篇–o3-mini、李飞飞s1 VS DeepSeek效果如何?
希望这篇文章能够通过一个全新的视野来带给你不一样的收获,让你对DeepSeek有一个更系统、更全面、更专业的深度理解,让它能够为你所用,大幅提升你的工作效率和生活质量!”
项目主页-https://www.deepseek.com/
HF链接-https://huggingface.co/deepseek-ai
代码链接-https://github.com/deepseek-ai/DeepSeek-R1
论文链接-https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
Part1-DeepSeek入门篇
01.01-DeepSeek是谁?
杭州深度求索有限公司(简称“深度求索”或“DeepSeek”)是一家专注于实现AGI的中国公司。
- 自2023年成立以来,深度求索长期坚持“自主可控AGI,让人类未来更美好”的使命,致力于通过体系化的技术攻坚,探索AGI的本质,打造首个具备世界级能力的AGI系统。
- 在自主可控方面,中国需要这样一个团队来突破AGI的关键技术,并在全产业链上完成关键环节的自主研发,避免在战略领域被“卡脖子”。
- 深度求索得到了国际学术界的认可,多篇论文入选人工智能顶会,技术产品被多家权威媒体评为中国大模型“潜力玩家”和“领跑者”。
01.02-DeepSeek都有哪些大模型产品?
产品名称 | 产品类型 | 产品功能 | 产品链接 |
---|---|---|---|
DeepSeek V2 | 通用大模型 | 一种强大的混合专家(MoE)语言模型 它包括236B的总参数,其中21B针对每个令牌被激活。 节省了42.5%的训练成本,将KV缓存减少了93.3%,最大生成吞吐量提高到5.76倍。 |
主页链接-https://www.deepseek.com/ 代码链接-https://github.com/deepseek-ai/DeepSeek-V2 |
**DeepSeek Coder ** | 代码大模型 | 由一系列代码语言模型组成,每个模型都是在2T令牌上从头开始训练。 由87%的代码和13%的中英文自然语言组成。 官方提供各种大小的代码模型,从1B到33B版本。 在编码能力方面,在多个基准上实现了最先进的性能。 |
主页链接-https://www.deepseek.com/ 代码链接-https://github.com/deepseek-ai/DeepSeek-Coder |
DeepSeek V3 | 通用大模型 | 一个强大的混合专家(MoE)语言模型。 总参数为671B,每个令牌激活37B。 采用了多头潜在注意力(MLA)和DeepSeekMoE架构。 开创了一种用于负载平衡的辅助无损耗策略。 只需要2.788M H800 GPU小时即可进行全面训练。 |
主页链接-https://www.deepseek.com/ 代码链接-https://github.com/deepseek-ai/DeepSeek-V3 |
DeepSeek-R1-Zero | 通用大模型 | 一个通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤。 通过RL,DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。 然而,DeepSeek-R1-Zero遇到了诸如无休止的重复、可读性差和语言混合等挑战。 |
主页链接-https://www.deepseek.com/ 代码链接-https://github.com/deepseek-ai/DeepSeek-R1 |
DeepSeek-R1 | 通用大模型 | 在强化学习之前整合了冷启动数据。 在数学、代码和推理任务方面的性能与OpenAI-o1相当。 DeepSeek-R1-Distill-Qwen-32B在各种基准测试中表现优于OpenAI-o1-mini。 |
主页链接-https://www.deepseek.com/ 代码链接-https://github.com/deepseek-ai/DeepSeek-R1 |
DeepSeek VL | 多模态大模型 | 一种开源的视觉语言(VL)模型。 具有通用的多模态理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像和复杂场景中的隐含智能。 |
主页链接-https://www.deepseek.com/ 代码链接-https://github.com/deepseek-ai/DeepSeek-VL |
DeepSeek Math | 数学大模型 | 使用DeepSeek-Coder-v1.5 7B进行初始化, 继续对来自Common Crawl的数学相关令牌以及500B令牌的自然语言和代码数据进行预训练。 在竞赛级MATH基准测试中取得了51.7%的高分,接近Gemini Ultra和GPT-4的性能水平。 |
主页链接- https://www.deepseek.com/ 代码链接- https://github.com/deepseek-ai/DeepSeek-Math |
Part2-DeepSeek上手篇
02.01-官方版本上手指南
02.01.01-网页版使用指南
如上图所示,DeepSeek官方支持“网页端和手机App”两种访问方式,大家可以根据自己的需求选择合适的使用方法。具体的使用步骤如下所述(这里以网页版为例):
步骤1-登录“https://www.deepseek.com/”网站;
步骤2-点击图中的“开始对话”链接;步骤3-输入“自己的手机号”,验证之后,填写获取到的"验证码”;
步骤4-点击这里的“深度思考(R1)”和“联网搜索”功能。前者是为了使用DeepSeek R1模型,官网默认使用DeepSeek-V3;后者是为了打开联网搜索功能,大家可以根据自己的需求打开即可!
步骤5-在对话框中“输入你的问题”,开始体验神奇的“大模型之旅”吧!
如上图所示,小编在绿色区域的提问区输入的问题是“简单介绍下你自己”,DeepSeek-R1模型经过深度思路(深度思考过程如图中的第2个红色框中的暗灰色区域所示)给出相应的回复。小编这里只是做了一个简单的演示,大家可以根据自己的需要去问相应的问题。
02.01.02-手机App端使用指南
步骤1-在手机应用商城中搜索“DeepSeek-AI智能对话助手”下载!
步骤2-在协议页面中点击“同意”;
步骤3-登录自己的“手机号”,并填写相应的“验证码”;
步骤4-在最下面的问题输入框中选择"深度思考(R1)和联网搜索"功能;
步骤5-在输入框中“输入你的问题”,开始你手机端的大模型之旅吧!
实际体验之后发现,官网的手机App端十分卡顿,响应很慢!可能手机App端使用的用户比较多,所以强烈建议大家用网页版的体验,响应速度快,不卡顿,也不需要用其它的第三方平台,毕竟官方的还是有保证一些。
02.01.03-本地环境搭建指南
本章节内容适合想在本地部署DeepSeek-R1的朋友,如果你只是想玩一玩,建议使用“网页端”或者“手机App端”使用,跳过这个章节即可!DeepSeek-R1可以使用以下硬件和开源社区软件在本地进行部署:
- DeepSeek Infer Demo:官方为FP8和BF16推理提供了一个简单而轻量级的演示。
- SGLang:在BF16和FP8推理模式下完全支持DeepSeek-V3模型,多令牌预测即将推出。
- LMDeploy:为本地和云部署提供高效的FP8和BF16推理。 TensorRT
- LLM:目前支持BF16推理和INT4/8量化,FP8支持即将推出。
- vLLM:支持DeepSeek-V3模型,支持FP8和BF16模式,实现张量并行和流水线并行。
- AMD GPU:允许在BF16和FP8模式下通过SGLang在AMD GPU上运行DeepSeek-V3型号。
- 华为Ascend NPU:支持在华为Ascend设备上运行DeepSeek-V3。
更详细的步骤请参考https://github.com/deepseek-ai/DeepSeek-V3中的“6. How to Run Locally”部分内容,能进行本地部署的朋友一般都有一些AI的基础技能,所以这里我就不赘述了!
02.02-三方平台上手指南
- 秘塔搜索👍–https://metaso.cn
- 360纳米AI搜索👍–https://www.n.cn/
- 硅基流动👍–https://cloud.siliconflow.cn/i/OlJOcjGr
- 字节跳动火山引擎👍–https://console.volcengine.com/ark/region:ark+cn-beijing/experience
- 百度云千帆👍–https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/list
- 英伟达NIM👍–https://build.nvidia.com/deepseek-ai/deepseek-r1
- Groq👍–https://groq.com/
- Fireworks👍–https://fireworks.ai/models/fireworks/deepseek-r1
- Chutes👍–https://chutes.ai/app/chute/
- Github👍–https://github.com/marketplace/models/azureml-deepseek/DeepSeek-R1/playground
- POE👍–https://poe.com/DeepSeek-R1 Cursor👍–https://cursor.sh/
- Monica👍–https://monica.im/ Lambda👍-https://lambdalabs.com/
- Cerebras👍–https://cerebras.ai
- Perplexity👍–https://www.perplexity.ai
- 阿里云百炼👍–https://api.together.ai/playground/chat/deepseek-ai/DeepSeek-R1
- 超算互联网👍–https://chat.scnet.cn/
- 天工AI👍–https://www.tiangong.cn/
很多朋友可能会发现,在2025年年前使用官方的DeepSeek还比较流畅,响应速度也比较快。可是年后用起来的体验却不尽人意,经常没有响应,等待时间长等等!哈哈,谁叫人家火呢?免费的东西大家都想薅薅羊毛,这就导致官方的服务器爆满的情况。
不过可喜的是,国内外的大厂和硬件厂商们也纷纷来凑这一波热度,都纷纷在自己的服务器上面调用DeepSeek的API接口。以下仅仅列出来一部分链接,这几天的链接层出不穷。搞AI的公司要是没有接入DeepSeek,就好像都没法在AI圈混,哈哈哈!
以上这些链接都可以使用,个人推荐使用POE,不过这个需要VPN。国内的话试试秘塔AI。由于文章篇幅原因,这里就不一一展开了,大致的使用方式相同,大家记得选择“深度思考(R1)”功能就行。大家根据自己的需求选择一个合适的使用就行,记得不要贪多哦!
Part3-DeepSeek应用篇
03.01-DeepSeek-R1应用场景探索
小编相信看了前面的几个章节之后,你应该对DeepSeek-R1有了一定的了解,而且基本上能把它用起来了。那么问题来了,你能用它做解决什么问题呢?它如何为你所用?这是很多人经常问到我的一个问题,这里小编就抛砖引玉,说一些比较通用的应用场景吧。
03.01.01-给孩子出几道“数学题”
问题:给我出10道小学5年级的数学题目,写出对应的答案。
如果你有孩子,那给孩子出点题目这种事情就太刚需了!DeepSeek-R1可以快速帮你完成这个任务,简直不要太好用了!小编这里只是以数学题为例,语文、英语题目你也可以出呀。
03.01.02-撰写几个“元宵节灯谜”
问题-马上到2025年的元宵节了,给我出5个有创意的灯谜游戏吧,附带上对应的答案。
03.01.03-总结&问答“PDF文档内容”
问题:利用100个字左右总结下DeepSeek-V3的论文
03.01.04-做你的“虚拟女友/男友”
问题-我今天心情不好,你来做我的虚拟女友好不好,我们来聊会天,你开始吧。
03.01.05-优化你的“Prompt提示”
问题-我想要用AI绘画工具生成一张“一个漂亮的小女孩在海边快乐的玩耍”的图片,你能帮我优化下这个Prompt吗,让工具生成的图片更漂亮。
03.01.06-写代码&转换代码
问题-帮我利用C++写一个冒泡函数吧
03.01.07-文案创作
问题:帮我写一篇1000字左右的文案来推广DeepSeek公司的DeepSeek-R1大模型,要求思路清晰,简洁明了。
看了它生成的文章内容,小编真的有些慌了,这也太棒了吧,直接秒杀了很多初级创作者,节省了大量的创作时间!
大模型是一个很强大的工具,基本上能做到“有问必答”的程度。小编在这里只是简单介绍了几个实际的应用场景,由于篇幅有限,就不赘述了。
这里小编给大家一个使用大模型的建议:从自身需求出发,整理出一份清单,带着需求去探索答案,结果一定会超出你的预期!切勿人云亦云!Because only you know yourself best!
03.02-DeepSeek-VL应用场景
项目主页-https://janusai.pro/
代码链接-https://github.com/deepseek-ai/Janus
ComfyUI链接-https://github.com/CY-CHENYUE/ComfyUI-Janus-Pro
Demo链接-https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
论文链接-https://janusai.pro/janus-pro-paper/
很多朋友可能只知道DeepSeek做大语言模型,但是很少有朋友了解到DeepSeek也做多模态大模型!大语言模型只能接受文本输入,输出文本内容;而多模态大模型不仅支持文本问答,还支持图片理解与生成,有的甚至支持视频理解与生成等等!
Janus是DeepSeek提出的一个自回归框架,它将多模态理解和生成任务统一起来。它通过将视觉编码解耦到单独的路径中,同时仍然使用单个统一的转换器架构进行处理,解决了以前方法的局限性。
Janus Pro整合了1)优化的训练策略;2)扩展的训练数据;3)扩展到更大的模型尺寸。通过这些改进,Janus Pro在多模态理解和文生图指令跟随功能方面取得了重大进展,同时也提高了文生图模型的稳定性。
03.02.01-图像描述/Image Caption
上图展示了Janus-Pro模型的图像描述能力,它可以很精准的对输入的图片进行描述,生成的描述其实就可以用作文生图的Prompt用!
03.02.02-标志物识别
上图展示了该算法在标志物识别场景下的应用效果。它可以根据图中的标志物准确的识别出相应的地方,如图中的杭州西湖。
03.02.03-文本识别/OCR
上图展示了该算法在文本识别任务/ocr任务上的应用效果。这种变体字是一种很复杂的识别场景,该方法却能很准确的完成检测与识别任务,这在一定程度上展示了其OCR能力,这在自动驾驶等场景具有很广泛的应用空间。
03.02.04-通用知识理解能力
上图展示了该模型的通用知识理解能力,它能力学习到人类世界中的一些通用知识,如图中的Tom和Jerry。这种能力对机器人等场景来说至关重要!
03.02.05-文本生成图片
前面的那些图像展示了该算法的图像理解能力,而上图展示了该算法的图像生成能力,这才是该算法的强大之处-图像理解与生成大一统!用户只需要输入简单的文本描述它就可以快速生成高质量的图片。
Part4-DeepSeek技术篇
04.01- DeepSeek-V3创新点梳理
架构创新点–创新的负载均衡策略与训练目标函数
- 在DeepSeek-V2基础上,作者提出了一种辅助的无损耗负载均衡策略,最大限度地减少了因鼓励负载平衡而导致的性能下降问题。
- 如上图所示,作者为DeepSeek-V3设置了一个多令牌预测(MTP)目标函数,该目标将预测范围扩展到每个位置的多个未来令牌。一方面,MTP目标使训练信号更加密集,并可能提高数据效率。另一方面,MTP可以使模型预先规划其表示。以便更好地预测未来的Token。作者顺序预测额外令牌,并在每个预测深度保持完整的因果链。
预训练创新点–迈向更高的训练效率
- 如下图所示,作者设计了一个FP8混合精度训练框架(之前大多数大模型都是基于FP32类型进行训练),并首次在超大规模模型上验证了FP8训练的可行性和有效性。在这个框架中,大多数计算密度操作都是在FP8中进行的,而一些关键操作则以保持原始数据格式,从而更好的平衡训练效率和数值稳定性。
- 通过算法、框架和硬件的协同设计,克服了跨节点MoE训练中的通信瓶颈难题,几乎实现了完全的计算通信重叠。这极大的提升了训练效率,节省了训练成本!
- 仅以2.664亿H800GPU小时的经济成本,在14.8TTokens上完成了DeepSeek-V3的预训练,生成了目前最强大的开源基础模型。预训练后的后续训练阶段只需要0.1MGPU小时。
后训练创新点–从DeepSeek-R1中提取知识
- 作者介绍了一种方法,将长链思维(CoT)模型中的推理能力,特别是从DeepSeek
R1系列模型中提取出来,转化为标准LLM。整个流程将R1的验证和反射模式优雅地整合到DeepSeek-V3中,并显著提高了其推理性能。
04.02-DeepSeek-R1创新点梳理
后训练创新点–基于基础模型的大规模强化学习
- 不同于DeepSeek-V3和其它的大模型,作者直接将强化学习(RL)应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法允许模型探索解决复杂问题的思维链(CoT),从而开发了DeepSeek-R1-Zero。
- 为了训练DeepSeek-R1-Zero,作者首先设计了一个简单的模板,引导基础模型遵守作者指定的指令。如下表所示,该模板要求DeepSeek-R1-Zero首先生成推理过程,然后生成最终答案。作者有意将约束限制在这种结构格式上,避免任何特定于内容的偏见(这个模版至关重要)!
- 作者介绍了DeepSeek-R1的整体流程,它主要包含两个RL阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个SFT阶段,作为模型推理和非推理能力的种子。
模型轻量化创新点–利用模型蒸馏,使得较小的型号也可以变得很强大
- 大量实验证明,与通过RL在小模型上发现的推理模式相比,较大模型的推理模式可以被提炼成较小的模型,从而获得更好的性能,这个观点与OpenAI的o3-mini和李飞飞的s1模型类似。
- 作者利用DeepSeek-R1生成的推理数据对研究界广泛使用的几个密集模型进行了微调。作者基于Qwen2.5和Llama3系列向社区开源了1.5B、7B、8B、14B、32B和70B检查点。个人认为,DeepSeek-R1系列的模型大小还是太大,很多实际场景根本不需要使用这么大的模型。为了补齐这个短板,作者才蒸馏了一些小模型,模型蒸馏本身是一个比较成熟且广泛应用的技术(如上图所述)。
Part5-DeepSeek感悟篇
自从2025年年前到现在,DeepSeek这家不知名的公司一下子名声大噪,传遍了全球,它背后的几个股东更是赚的锅满盆满。很多朋友可能都比较关心DeepSeek会对我们的2025年造成哪些影响,或者说DeepSeek对于普通人来说有哪些赛道或者机会?这里小编就来谈谈自己浅显的一些看法,欢迎大家在评论区留言,一起交流与探讨。
- DeepSeek彻底掀起了国内大模型的高潮,国内大模型正式开始进入洗牌阶段!国内和国际的巨头效应已经形成,然而OpenAI与DeepSeek却走着两条不同的路,其它厂商该如何站队是个很严峻的问题!大厂或许可以都跟进,那么创业公司呢?
- 国内的很多大模型厂商应该会陆续融入Deepseek生态中,陆续会有一大波的迭代与更新。这不这几天国内的大厂和一些硬件公司都相继开始适配DeepSeek,百度、阿里、字节、华为、天数智芯等国产巨头纷纷来蹭这一波流量。
- OpenAI应该很快也会出个应对DeepSeek的大招。结果不出所料,OpenAI近期推出o3-mini开源大模型,这是OpenAI首次开源它的大模型,而且是顶级大模型,这大概是为了应对DeepSeek而做出来的无奈之举吧!
- DeepSeek的出现可以进一步降低大模型的算力和推理成本。而且也打破了很多普通人心里的鸿沟-开始相信AIGC还是可信的,我觉得2025年的大模型应用应该会爆火。
- DeepSeek的出现,让很多端测应用看到了更多的机会,端测应用的迭代速度会直线加速。DeepSeek提出的FP8精度训练方式应该会被广泛使用,蒸馏技术也会很快被用到其它的大模型上面,相继会出现一些参数小但精度高的小模型,这不李飞飞的s1就是一个典型代表,有了这些小模型的出现,端侧大模型很快就是百花齐放了。
- DeepSeek让AI更加深入人心,AI培训行业将迎来高潮,家长们将更加焦虑,孩子们又多了一门必须的功课,全民学AI将陆续展开!不知道作为父亲或者母亲的你是否有这个焦虑?不过智能化时代的浪潮已经袭来,没有人能够阻挡,我们能做的只有尽快去接纳它、适应它!
- DeepSeek的出现在一定程度上会改变国内的一些投资机构和投资人的投资逻辑,开始关注一些类似DeepSeek一样专注于核心技术突破的创企。在2024年期间,很少有投资人会愿意去投像DeepSeek这样的创业型公司,毕竟大多数投资人都认为中国还没有公司能做最原始的创新,而且能够影响全球!
- DeepSeek的出现让国人开始觉醒,原来中国已经有很多企业开始在做最原始的创新与突破,在许多行业已经开始在主导全球。这是一个好的势头,在这个热浪之下,我相信中国会出现更多类似DeepSeek这样的企业!
Part6-DeepSeek拓展篇
06.01-OpenAI的o3-mini效果如何?
几天前,OpenAI为了应对DeepSeek,迫不得已开源了自己的o3-mini模型,这是其推理系列中最新、最经济高效的模型。这种强大而快速的模型突破了小型模型的界限,提供了卓越的STEM能力–在科学、数学和编码方面具有特别的优势,同时保持了OpenAI o1-mini的低成本和低延迟。
o3-mini是OpenAI推出的第一个小型推理模型,它支持高要求的开发人员功能,包括函数调用(在新窗口中打开)、结构化输出(在新窗中打开)和开发人员消息(在新窗户中打开),使其一开始就可用于生产。除此之外,o3-mini将支持流媒体(在新窗口中打开)。
此外,开发人员可以在三个推理(在新窗口中打开)选项(低、中、高)之间进行选择,以针对其特定用例进行优化。这种灵活性使o3 mini在应对复杂挑战时能够“更努力地思考”,或者在延迟成为问题时优先考虑速度。o3-mini不支持视觉功能,因此开发人员应该继续使用OpenAI o1进行视觉推理任务。
06.02-李飞飞的s1又是咋回事?
李飞飞团队提出的s1,即测试时间缩放是一种有前景的语言建模新方法,它使用额外的测试时间计算来提高性能。最近,OpenAI的o1模型显示了这种能力,但没有公开分享其方法,导致了许多复制工作。她们只是为了寻求最简单的方法来实现测试时间扩展和强大的推理性能。其实这个结论在几个主流大模型中大有所体现!
首先,我们根据我们通过消融验证的三个标准(难度、多样性和质量),策划了一个包含1000个问题和推理痕迹的小型数据集s1K。其次,作者开发了预算强制来控制测试时间计算,方法是强制终止模型的思维过程,或者在模型试图结束时多次向模型的生成添加“等待”来延长它。这充分的证明高质量的数据的重要性!
作者在s1K上对Qwen2.532B Instruct语言模型进行监督微调并为其配备预算强制功能后,s1-32B模型在竞赛数学问题上比o1预览高出27%(math和AIME24)。此外,通过预算强制扩展s1-32B,可以在没有测试时间干预的情况下推断其性能:在AIME24上从50%到57%。蒸馏技术是一个比较成熟,并广泛使用的一门技术,这预示着未来将会出现越来越多强大的小模型,端侧大模型指日可待!
06.03-DeepSeek-R1 VS o3-mini 谁更安全?
在“o3-mini vs DeepSeek-R1: Which One is Safer?”论文中,作者系统地评估了DeepSeek-R1(70b版本)和OpenAI的o3 mini(测试版)的安全级别。为此,作者使用了最近发布的名为ASTRAL的自动化安全测试工具。
通过利用该工具,作者在两个模型上自动系统地生成并执行了1260个测试输入。在对两个LLM提供的结果进行半自动评估后,大量的结果表明:DeepSeek-R1产生的不安全反应(12%)明显多于OpenAI的o3 mini(1.2%)。
个人认为,DeepSeek只是取得了一个阶段性的胜利而已,模型的安全性还是有待进一步提升。除此之外,OpenAI毕竟是老牌选手,实力自然是不容小觑。希望国人们能戒骄戒躁,沉下心来继续做出更多的突破才是王道,毕竟多模态还是很长的路要走,它才是通往AGI更近的一条路!
欢迎大家关注“AI产品汇”公众号,专注AIGC,持续跟踪最前沿的“AI生图、AI生视频、AI生3D、大模型&多模态、机器人、具身智能”等多个热门方向。
欢迎对DeepSeek感兴趣的朋友关注公众号,回复“DeepSeek”进交流群。
更多推荐
所有评论(0)