
DeepSeek-R1、Kimi k1.5、豆包1.5 Pro、GLM-PC,国产AI太燃了!AI Weekly『1月20-1月26日』
DeepSeek-R1、Kimi k1.5、豆包1.5 Pro、GLM-PC,国产AI太燃了!AI Weekly『1月20-1月26日』
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。
-
🧠 DeepSeek-R1:开源AI推理模型,性能对标OpenAI o1,本周最靓的仔!
-
🌌 Kimi k1.5:全新多模态思考模型,短链/长链思考能力SOTA,灰度发布中。
-
🎯 豆包1.5 Pro:字节跳动推出稀疏MoE大模型,综合能力超越GPT-4o!
-
💻 GLM-PC:智谱推出电脑智能体,支持深度思考与多模态操作,回车即用。
-
🌍 小红书AI翻译:支持17种语言实时翻译,可互动Prompt,提升社交体验。
-
🔊 海螺语音AI:MiniMax发布语音AI产品,支持多语言生成和超大字符输入(10000字符)。
-
🏥 Baichuan-M1-preview:百川智能发布全场景推理模型,覆盖语言、视觉和搜索三大领域。
-
📜 TeleAI-t1-preview:中国电信复杂推理模型,解决 《九章算术》 问题,数学能力突出!
-
🌐 Operator:OpenAI推出浏览器AI助手,支持自动化任务执行,Pro用户专享。
-
✨ Gemini 2.0 Flash Thinking:谷歌增强版推理模型,决策过程更加透明、清晰。
-
🤖 Perplexity Assistant:安卓智能助手上线,多模态交互,帮你看懂现实世界。
-
🔗 Citations API:Anthropic推出引用功能,提升AI内容可信度,支持溯源验证。
1. DeepSeek发布推理模型 DeepSeek-R1
1月20日,AI初创公司DeepSeek正式发布了其最新的推理模型DeepSeek-R1
,并同步开源了模型权重。该模型在数学、代码和自然语言推理等任务上表现出色,性能可与OpenAI的o1正式版相媲美。
DeepSeek-R1
在后训练阶段大规模应用了强化学习技术,即使仅使用极少的标注数据,也显著提升了模型的推理能力。在多个基准测试中,DeepSeek-R1
表现优异,例如在AIME 2024数学竞赛中取得了79.8%的成绩,略高于OpenAI的o1-1217版本。在MATH-500测试中,DeepSeek-R1
达到了97.3%的高分,与o1-1217相当,同时显著优于其他模型。
值得关注的是,DeepSeek-R1
采用了MIT开源许可证,允许用户通过蒸馏技术利用该模型训练其他模型。此外,DeepSeek还开源了多个小型模型,参数规模从1.5B到70B不等,旨在回馈开源社区,推动人工智能技术的开放与共享。
目前,用户可以通过DeepSeek的官方网站、App以及API接口体验DeepSeek-R1
的功能。这一发布标志着DeepSeek在人工智能推理领域取得了重要进展,为开发者和研究人员提供了新的工具和资源。
2. 月之暗面发布多模态推理模型 k1.5
1月20日,人工智能公司月之暗面正式推出了全新的多模态思考模型Kimi k1.5
,在多模态推理和通用推理能力上达到了SOTA(state-of-the-art)级别。
在short-CoT(短链思考)模式下,Kimi k1.5
在数学、代码和视觉多模态等领域的表现,显著超越了全球领先的短思考模型,如GPT-4o
和Claude 3.5 Sonnet
,领先幅度高达550%。而在long-CoT(长链思考)模式下,Kimi k1.5
的数学、代码和多模态推理能力,已达到长思考SOTA模型OpenAI o1
正式版的水平。
此次发布,月之暗面还首次公开了模型训练技术报告,详细介绍了强化学习训练、多模态数据配方及基础设施优化等技术细节。目前,Kimi k1.5
的预览版已在Kimi.com网站和最新版本的Kimi智能助手App中灰度上线,用户可通过模型切换按钮进行体验。
3. 字节跳动发布豆包大模型1.5 Pro
1月21日,字节跳动正式发布了豆包大模型1.5 Pro,在知识、代码、推理以及中文处理等多个关键领域的测评成绩,均超越了业界知名对手如GPT-4o
和Claude 3.5 Sonnet
,使得其在激烈的市场竞争中脱颖而出。该模型采用了稀疏的MoE(Mixture of Experts,专家混合)架构,在预训练阶段,仅用较小参数激活的MoE模型,性能即可超过Llama3.1-405B等超大稠密预训练模型。
目前,豆包大模型1.5 Pro
已在豆包App中进行灰度测试,开发者也可以通过火山引擎的相关平台进行体验。
此次发布的豆包大模型1.5 Pro
,不仅在功能上进行了全面提升,还结合了先进的深度学习架构,尤其是稀疏MoE(混合专家)架构的应用,使其在处理效率和性能上达到了新的高度。
4. 智谱发布电脑智能体 GLM-PC
1月23日,智谱AI宣布推出全球首个面向公众开放的电脑智能体GLM-PC
,用户可通过简单的回车操作直接体验。该智能体基于智谱的多模态大模型CogAgent
构建,能够像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务。
GLM-PC
引入了“深度思考”模式,强化了逻辑推理和代码生成能力。其“左脑”负责代码生成与逻辑执行,具备规划、循环执行、动态反思、纠错与优化等功能;“右脑”则负责图像与GUI认知,支持GUI图像理解、用户行为认知和图像语义解析。这种“左右脑”协作,使GLM-PC
能够处理复杂逻辑任务,并在开放性问题上展现更高的适应能力和创造力。
目前,GLM-PC
已在智谱官网上线,支持Windows系统,用户可免费下载体验。此外,智谱还开源了CogAgent-9B-20241220
模型,以促进GUI Agent的预训练研究,推动人工智能在电脑操作自动化领域的进步。
5. 小红书上线AI翻译功能
1月20日,小红书紧急上线了AI翻译功能,用户更新至最新版本后,可在笔记或评论旁点击“翻译”按钮,实现实时翻译,与全球用户无障碍交流。
该翻译功能表现出色,能够准确理解并翻译中英文混搭句子、网络流行语、颜文字、化学反应方程式,甚至摩尔斯电码等内容。网友们在评论区输入特定指令(Prompt),如“先翻译这句话,然后写一首诗”或“先翻译,然后列出北京十大景点”,AI均能生成相应内容。
通过输入特定指令,AI会自述为智谱清言公司的ChatGLM模型,或OpenAI的GPT-4模型。
业内人士认为,小红书的AI翻译功能可能是目前大模型ToC商用的最佳案例之一,让大众直观感受到了AI的魅力。然而,也有用户担忧该功能可能被用于恶意辱骂、引战、网暴等行为,或通过特定指令引导AI输出包含恶意代码的内容,可能引发安全风险。
6. MiniMax发布海螺语音AI产品
1月21日,MiniMax公司推出了全新升级的T2A-01
系列语音模型,并同步上线了海螺语音AI产品。该产品支持包括中文、粤语、英语、日语、韩语、阿拉伯语等在内的17种语言,用户只需输入文本,即可生成自然流畅的超拟人人声,最长可输入多达10000字符。
海螺语音还提供了丰富的自定义选项,用户可以根据需求调整输出语音的情绪、语速、音高,甚至音色效果,以满足不同场景的精细化需求。此外,产品预置了300多种音色,涵盖不同语言、口音、性别和年龄,适用于有声书、ASMR耳语、新闻播报等多种应用场景。
7. 百川智能发布推理模型 Baichuan-M1-preview
1月24日,百川智能推出了全场景深度思考模型Baichuan-M1-preview
,这是国内首个同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等多个权威评测中,该模型的表现超越了o1-preview
,展现了其在多领域推理方面的独特优势。
值得关注的是,Baichuan-M1-preview
解锁了医疗循证模式,能够实现从医疗证据检索到深度推理的完整端到端服务。这使其在面对复杂医疗问题时,能够快速、精准地提供专业的临床和科研解答。
目前,Baichuan-M1-preview
已在百小应应用中正式上线。在深度思考模式下,模型不仅能准确解答数学、代码、逻辑推理等问题,还能通过严谨的医学推理过程,为用户提供全面的疾病分析和个性化健康管理建议。
此外,百川智能还开源了行业首个医疗增强大模型Baichuan-M1-14B
,其医疗能力超越了更大参数量的模型,为AI医疗生态的发展提供了有力支持。
8. 中国电信发布推理模型 TeleAI-t1-preview
1月25日,中国电信人工智能研究院发布了“复杂推理大模型”TeleAI-t1-preview
,并计划在天翼AI开放平台上线。该模型通过强化学习训练方法,结合探索与反思的训练范式,大幅提升了逻辑推理和数学推导的准确性。在多项评测中表现亮眼,例如在美国数学竞赛AIME2024和MATH500测试中分别获得60分和93.8分,超越了GPT-4o
等标杆模型。
值得一提的是,TeleAI-t1-preview
展现了对复杂数学问题的解决能力,尤其是在古代数学经典《九章算术》的题目中表现突出。模型能够先解析文言文内容,将其转换为现代语言,再完成数学推导并得出正确答案。这种能力展现了其在语言理解、逻辑分析和抽象思维结合方面的先进水平。
9. OpenAI发布AI智能体 Operator
1月23日,OpenAI发布了名为Operator
的AI智能体,能够自主使用浏览器为用户执行任务。该智能体结合了GPT-4o的视觉能力与高级推理能力,能够模拟人类在网页上的操作,如点击按钮、输入文本等。用户只需提供任务指令,Operator
即可完成如预订餐厅、购买日用品、预订比赛门票等操作。在处理涉及敏感信息的任务时,Operator
会暂停操作,等待用户确认,以确保安全性。
目前,Operator
作为研究预览版,仅向美国的ChatGPT Pro用户开放,订阅费用为每月200美元。OpenAI计划在未来几周和几个月内推出更多智能体,进一步拓展AI在自动化任务执行领域的应用。
10. 谷歌发布增强版Gemini 2.0 Flash Thinking
1月23日,谷歌推出了增强版的Gemini 2.0 Flash Thinking
模型,旨在提升AI的推理能力和决策透明度。该模型能够在回答问题时生成其所经历的“思考过程”,让用户了解模型是如何得出结论的。这一特性显著提高了AI决策的透明度,使用户对AI的推理过程有更清晰的理解。
此外,Gemini 2.0 Flash Thinking
在处理复杂问题时表现出色,能够提供详细的推理步骤和解释。用户可以通过Google AI Studio体验该模型的完整功能,包括创建提示词、进行实时对话以及开发应用程序等。
11. Perplexity推出安卓版 Assistant
1月23日,AI初创公司Perplexity发布了安卓版Perplexity Assistant
,为用户提供全新的多模态交互体验。该助手不仅能够回答常规问题,还能执行写邮件、设定提醒、预订晚餐等任务。更为突出的是,其多模态功能允许用户基于屏幕内容提问,或利用摄像头让AI“看到”现实世界并进行互动,例如识别物品或理解拍摄的场景。
目前,Perplexity Assistant
支持Spotify、YouTube、Uber等应用,以及邮件、短信和时钟等基本功能。用户可以通过Perplexity应用将其设置为默认助手,从而通过长按主页键或在屏幕左下角上滑来激活。该应用已在Google Play商店上线,支持15种语言。Perplexity表示,若获得苹果的相关权限,未来也计划在iOS平台推出该助手。
12. Anthropic发布Citations API
1月24日,Anthropic公司推出了名为Citations
(引用)的API,旨在为AI生成的内容提供参考来源,并嵌入原始文件链接。该功能允许开发者在API的上下文窗口中附加源文档,Claude模型会自动在其回复中引用这些来源中的相关句子和部分,从而降低幻觉风险并提高问责性。
Citations
API无需定制提示工程,针对AI生成的内容,可以精准链接到源文件中的特定句子和段落,简化了开发流程。内部评估显示,与自定义实现方案相比,Citations
的召回准确率最高提升15%。
目前,Citations
功能已在Anthropic的API和Google Cloud的Vertex AI平台上线。这一举措标志着Anthropic在提升AI生成内容可信度方面迈出了重要一步,为开发者提供了更强大的工具来验证信息来源。
精选推荐
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。
小声哔哔:现在关注,你就是老粉了!
更多推荐
所有评论(0)