百度 Create 2025 大会发布总结

百度 Create 2025 AI 开发者大会[1]于 2025 年 4 月 25 日在武汉举行,重磅发布了多项 AI 相关内容:

  • 文心大模型 4.5 Turbo 和 X1 Turbo[2]:性能对标 DeepSeek V3 & R1,价格更便宜

  • 高说服力数字人[3]

  • 通用智能体「心响[4]」

  • 内容操作系统「沧舟 OS」

  • 全面拥抱 MCP 生态[5]

阿里 Qwen Chat 正式推出 App

Google Play[6] 和 App Store[7] 现已上线阿里 Qwen Chat 的完全免费 App,其他应用商店可能还需要等待一段时间下载。

DeepWiki:一键将 GitHub 仓库转化为百科全书式文档

Devin 最新推出的DeepWiki[8] 能将任何公共 GitHub 代码库转化为百科全书式的知识库。只需将 GitHub URL 中的域名替换为 deepwiki,就能立即获得该仓库的详细解析。

以俺写的微信机器人框架 wechatferry[9] 为例,DeepWiki 能自动生成包括系统架构图、设计模式、时序图在内的完整文档,甚至详细解析各个组件和 API 的用途。这下学习和参与大型代码库再也不用头疼了!

LemonAI 推出 Slice Live:照片秒变实时数字人

Lemon Slice Live[10] 是一款实时音视频 AI 数字人模型。

仅需上传一张照片,就能与任意角色进行流畅的视频对话。支持最高 25 FPS 的实时渲染,佬们可以去官网上体验,每个月有免费额度!

Step1X-Edit:媲美 ChatGPT 的开源 AI 图像编辑框架

Step1X-Edit[11] 是一个开源的图像编辑框架,基于 MIT 许可可自由商用。它提供了与 GPT-4o 和 Gemini2 Flash 相媲美的 AI 图像编辑能力,官方推荐使用 80GB 显存的 GPU 以获得最佳性能。

它同样支持自然语言指令编辑图像,比如'美颜'、'换个背景'或者'改成像素风格'等等。

佬们可以在官方在线演示[12]里亲自试试看效果如何~

月之暗面开源 Kimi-Audio:支持端到端语音对话的通用音频模型

月之暗面最新开源的Kimi-Audio[13] 是一个端到端语音对话的通用音频模型。

模型支持:语音识别(ASR)、智能音频问答(AQA)、自动音频字幕(AAC)、精准语音情感识别(SER)、专业级声音事件/场景分类(SEC/ASC)等功能。

Adobe 发布商用级 AI 图像生成模型 Firefly Image 4 系列

Adobe[14] 更新发布了 Firefly Image 4 和 Firefly Image 4 Ultra 两大 AI 图像生成模型,支持最高 2K 分辨率输出。

这两款模型均基于 Adobe Stock 等授权内容以及公共领域数据训练,如侵犯版权,可以让 Adobe 赔偿。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐