【AI News | 20250303】每日AI进展

不过，目前它仅支持英语。”，ViDoRAG能看文字、看图片、看图表，核心是它基于高斯混合模型的多模态混合检索策略，及多智能体迭代推理机制，来提升模型在视觉丰富文档上的检索和推理能力。一款面向中文网络搜索的AI agent框架：Level-Navi Agent，它能更好的理解及回答复杂的中文搜索问题，适用于各种开/闭源 LLM，核心能力是其分层搜索能力，能像人一样分层次搜索信息，先分析问题，把复杂问

三道杠卷胡

1025人浏览 · 2025-03-03 23:16:29

三道杠卷胡 · 2025-03-03 23:16:29 发布

AI Repos

1、prompt-optimizer
一款实用的AI提示词优化工具。
🎯 智能优化：一键优化提示词，支持多轮迭代改进，提升AI回复准确度
🔍 实时测试：直接测试优化后的提示词效果，对比优化前后差异
🔄 多模型集成：支持OpenAI、Gemini、DeepSeek等主流AI模型，满足不同需求
🔒 安全架构：纯客户端处理，数据直接与AI服务商交互，不经过中间服务器
💾 隐私保护：本地加密存储历史记录和API密钥，确保数据安全
项目图

2、Level-Navi-Agent-Search
一款面向中文网络搜索的AI agent框架：Level-Navi Agent，它能更好的理解及回答复杂的中文搜索问题，适用于各种开/闭源 LLM，核心能力是其分层搜索能力，能像人一样分层次搜索信息，先分析问题，把复杂问题拆分成小问题。
请添加图片描述

3、ViDoRAG
阿里巴巴通义实验室开源的一个面向视觉文档的RAG系统：ViDoRAG，ViDoRAG在GPT-4o上准确率达到了 79.4%，比传统RAG提高了10%以上。它可以在一堆包含图片文档中找到，比如“这个产品的最高温度是多少？”或者“这篇文章主要讲了什么？”，ViDoRAG能看文字、看图片、看图表，核心是它基于高斯混合模型的多模态混合检索策略，及多智能体迭代推理机制，来提升模型在视觉丰富文档上的检索和推理能力。
多智能体协作：
1、Seeker，负责快速浏览文档，找出可能相关的图片或页面
2、Inspector，仔细检查Seeker找到的内容，判断是否真的有用，提出进一步建议
3、Answer Agent，根据Inspector的结果给出准确的答案
请添加图片描述

4、shandu
OpenAI DeepResearch的开源替代
基于多个搜索引擎和LLM的研究系统，对任意主题进行全面迭代式研究；Shandu利用LLM、智能网络爬虫和迭代探索技术，从多个搜索引擎和知识库中获取信息，并进行整合分析；可以生成全面的结构良好且包含适当引用的报告；采用并行处理架构，支持并行执行多个查询；可以用来做学术研究、市场情报、内容创作、技术探索、政策分析以及竞争分析等多种场景。
在这里插入图片描述

5、UniTok
字节跳动等团队开源了一个同时用于生成和理解任务的视觉分词器：UniTok，性能优于现有模型；可以与多种类型的模型兼容，自回归生成模型比如 LlamaGen、多模态理解模比如 LLaVA，以及统一的多模态模型比如Chameleon和 Liquid兼容；一个模型解决两个问题，用做同时进行图像生成和理解的场景，节省资源；在生成高质量图像和理解复杂的视觉内容上表现出色。
在这里插入图片描述

6、Search-R1
首个开源复现 DeepSeek-R1 的创新强化学习模型。Search-R1 通过强化学习（RL）训练模型，使 3B 参数的小模型能够在推理过程中自主调用工具（如搜索）。Search-R1 的灵感来源于DeepSeek-R1，是首个成功复现 DeepSeek-R1 方法并加以创新的开源项目。
在这里插入图片描述

7、PhotoDoodle
开源照片涂鸦框架，轻松添加艺术元素：PhotoDoodle 是一个开源的图像编辑框架，主要用于实现“照片涂鸦”（Photo Doodling）。它允许用户通过简单的文字提示，在真实照片中添加艺术化的装饰元素，例如手绘风格的图案、魔幻效果或卡通角色，同时保持原图的真实感。可以在官方的 Space 上在线体验，实测效果还行的。
在这里插入图片描述

8、olmocr
开源OCR解决方案：OlmOCR 是由 Allen Institute for AI 开发的一款开源 OCR 工具，专门用于从 PDF 或图片中提取文字，并保留标题、表格等结构信息，甚至能够识别手写内容。该模型不仅识别精度高，还能理解阅读顺序，并输出 Markdown 格式。批量处理 100 万页 PDF 的成本仅为 190 美元，佬们可以在官网上传几页进行测试下效果，或者选择自部署。总体确实非常不错，不过音标识别方面还是差点意思。
在这里插入图片描述

AI News

1、DeepSeek 公布高效系统设计，理论利润率高达 545%
DeepSeek 在开源周第六弹发布了系统设计原则，通过优化吞吐量和降低延迟，将性能和成本发挥到了极致。他们晒出了 24 小时的实战成绩单：高峰时使用了 278 个节点（每节点配备 8 个 H800 GPU），平均使用 226.75 个节点。单个节点能够处理 73.7k 输入 token/秒和 14.8k 输出 token/秒，全天吞吐量分别达到了 6080 亿和 1680 亿 token。速度稳定在 20-22 token/秒，一天花费 8.7 万美元，却能赚取 56 万美元，利润率高达 545%。

2、Conversational Speech Model：超真实 AI 语音模型
Sesame 团队弄了个叫 Conversational Speech Model (CSM) 的语音技术，其主要目的是解决现阶段语音助手那种“死板”的问题，让人觉得是在跟一个真人在说话，能听懂你情绪，还能跟你聊出点感觉来。他们还设计了两个演示角色：Maya（女声）和 Miles（男声）。根据用户反馈，这些角色确实表现出色。例如，当你停下来不说话时，Maya 会主动询问“你咋了？”或者用之前聊过的梗儿来 cue 你。与那些只会“嗯嗯啊啊”的助手相比，CSM 更像是一个有灵魂的朋友。不过，目前它仅支持英语。佬们可以在 Sesame 官网上体验看看。

3、中国智谱AI再获1.38亿美元融资，国有资本押注长三角AI生态
中国AI企业智谱AI获杭州国有资本领投的1.38亿美元，资金将用于升级大语言模型及拓展长三角企业服务。面对DeepSeek等低成本开源模型竞争，其计划推出开源AI套件，加速技术布局，巩固行业地位。

4、T-Mobile联合Perplexity推千元内AI手机，2026年上市挑战苹果谷歌
来源: techcrunch
T-Mobile与AI公司Perplexity合作开发定价低于1000美元的AI手机，计划2026年发售。手机深度整合Perplexity的AI助手“Magenta AI”，支持主动服务（如订票、发邮件），并搭载Google Cloud AI等工具。此举是电信巨头通过AI技术争夺用户入口、对抗科技公司的关键布局，但智能手机市场寡头垄断格局下，能否突围仍存悬念。

5、Stability AI联姻Arm芯片，音频生成模型提速30倍
来源: techcrunch
Stability AI宣布与Arm合作优化其音频生成模型Stable Audio Open，使其可在Arm芯片移动设备离线运行。该模型通过技术蒸馏处理，生成速度提升30倍（11秒音频仅需8秒），且训练数据全为免版税内容，规避版权风险。其本周将在巴塞罗那MWC大会演示，未来或嵌入消费级应用。
此举是Stability AI新任CEO Prem Akkaraju推动“模型全场景化”战略的关键一步，旨在吸引专业创作者与企业用户。但该公司此前因前CEO管理不善陷入财务危机，近期通过引入新董事会成员（如导演詹姆斯·卡梅隆）试图重振业务，能否借Arm生态突破Suno等云端竞品的围剿仍待观察。

6、Opera推出浏览器原生AI助手，本地化运行挑战OpenAI等云端方案
来源: techcrunch
Opera发布内置浏览器的AI代理Browser Operator，支持用户通过自然语言指令完成跨网站任务（如购物比价、订票、行程规划），所有操作均在设备本地运行，用户可实时监控并随时接管，强调数据安全性。其技术路径与OpenAI云端方案Operator、Arc浏览器Dia形成差异化竞争。
当前，Perplexity等公司亦在开发AI浏览器，Opera借助Feature Drop机制快速迭代功能，但未透露代理能否跨平台执行复杂指令（如“查找明日伦敦至纽约最廉价机票”）。此举或重塑浏览器作为AI入口的行业格局。

7、Flora推出AI“无限画布”工具，瞄准专业创作者对抗生成式疲劳
来源: techcrunch
初创公司Flora发布面向创意工作者的AI协作平台，主打“无限画布”界面，整合现有AI模型生成图文视频，强调精细化控制与协作流程（如生成100个Logo变体）。其技术路径放弃自研模型，聚焦交互设计，与知名设计公司Pentagram合作迭代产品，以解决现有工具“生成随机性强”与“专业软件门槛高”的痛点。创始人Weber Wong（兼具风投与艺术科技背景）定位用户为“对AI好奇”的专业设计师，定价16美元/月起，试图以可控性说服抵制AI的艺术家。融资方包括A16Z Games、Menlo Ventures及Midjourney等公司天使投资人。

8、通义灵码上线Qwen2.5-Max推理模型
阿里云通义灵码发布最新推理模型Qwen2.5-Max，以20万亿token预训练数据及强化后训练方案，在编程与数学能力上实现突破。其于Chatbot Arena三方盲测以1332分位列全球第七，超越DeepSeek V3、Claude-3.5等竞品，并斩获编程/数学单项第一、硬提示能力第二，成为中国非推理类大模型冠军。该模型在Arena-Hard、LiveCodeBench等技术基准测试中全面领先GPT-4o及Llama-3.1-405B，现已集成至通义灵码插件，开发者可直接调用强化版代码生成与逻辑推理功能，剑指专业开发者工具市场。

9、超越DeepSeek-R1！阿里万相大模型登上全球开源榜首
阿里巴巴港股今日早盘拉升逾4%，最高触及133.1港元，市场反应与其AI领域突破密切相关。旗下万相大模型2.1版（Wan2.1）开源仅6天即登顶Hugging Face模型热榜与模型空间榜，超越DeepSeek-R1，同时在魔搭社区与Hugging Face总下载量突破百万，GitHub星标数超6000。
此次技术突破印证阿里AI开源战略成效：万相凭借高效训练架构与多模态能力，快速获得开发者社区认可，或加速其在企业级AI市场的渗透。阿里云持续加码大模型开源生态，推动技术商业化与股价联动效应显现。

10、字节跳动发布国内首款AI原生IDE Trae，集成豆包1.5pro与满血版DeepSeek模型
2025年3月3日，字节跳动推出中国首个AI原生集成开发环境Trae国内版，核心搭载Doubao-1.5-pro并支持切换DeepSeek R1/V3满血版模型，主打动态人机协同编程。其创新功能包括：
①自然语言生成代码：通过Builder模式，用户以口语描述需求即可生成项目框架并持续调优，实现“思想到代码”直通；
②上下文深度感知：实时解析代码仓库及IDE环境，精准补全代码、修复Bug，支持一键应用AI生成代码至多模块；
③全场景覆盖：覆盖代码补全、理解、调试及多模态开发流程，适配从新手到资深开发者的效率提升需求。
Trae定位为开发者“全天候拍档”，通过人机共创代码优化开发效率，或挑战现有AI编程工具市场格局。

11、百度文库×网盘上线AI“自由画布”，打通公私域内容重构创作流程
百度文库与网盘联合推出全模态AI创作工具自由画布，基于文心大模型实现公域（文库）+私域（网盘）数据融合，支持图片、PPT、PDF、音视频等混合编辑。核心功能包括：
①“一拖一圈”极简操作：拖拽任意格式文件至画布，AI自动解析内容并生成结构化创作素材；
②AI全网搜：输入指令（如“青蒿素发现过程”）可聚合全网资源生成逻辑化内容框架；
③跨模态批注协同：框选文档重点段落后，AI可依据标注目的（复制、仿写风格等）生成新内容，支持多轮编辑；
④安全协作闭环：创作成果可通过链接分享并实时协作，一键存储至网盘保障数据安全。
该工具瞄准企业文档处理、教育课件制作等场景，通过AI重构内容生产链路，或将激活百度生态内超10亿份文档与6亿用户网盘资产的商业价值。

12、科大讯飞星火X1大模型多领域升级，数学医疗司法能力对标DeepSeek与OpenAI
科大讯飞完成深度推理大模型星火X1全面升级，重点突破数学、医疗、教育及司法场景：
①数学推理：以较少参数量实现竞赛级难题解析，网页端与APP支持用户直接输入数学题验证，性能对标DeepSeek R1及OpenAI同类模型；
②医疗应用：整合医学知识库与用户健康档案，升级疾病诊断精准度，解决AI医疗建议“实用性不足”痛点；
③教育司法：教师助手优化教学设计逻辑，AI法官助理强化法律推理与证据审查能力，提升司法裁判可靠性；
④硬件落地：联合华为发布星火一体机，搭载双引擎推理架构，实现推理性能优化，支撑金融、政务等行业场景部署。
此次升级标志着科大讯飞以垂直领域深度推理能力破局通用大模型混战，构建“模型+硬件+行业know-how”生态壁垒。