支付宝开放平台-开发者社区——AI 日报「3 月 6 日」

UCLA等机构的研究者发现，虽然目前已经涌现出许多试图复现DeepSeek-R1的研究，然而这些研究大多遭遇了这个难点：很难复现出R1所表现出的回答长度增加和思考模式。没有任何SFT的情况下，模型就在CVBench上达到了59.47%的准确率，比基础模型高出约30%，比经过SFT的模型高出约2%。甚至，这个模型大幅超越了指令微调模型，而后者的训练数据明显更多。产品上线后 4 个月，月活跃用户数便突

支付宝官方开放平台

717人浏览 · 2025-03-06 14:14:09

支付宝官方开放平台 · 2025-03-06 14:14:09 发布

1️⃣一头大象难倒ChatGPT，Grok 3完美通关

量子位｜阅读原文

ChatGPT新Bug引热议：无法画出“有0头大象的房间”。ChatGPT也能意识到自己的错误。但重新生成的图中还是出现了大象。确实很多早期未升级过的AI文生图产品都像ChatGPT一样有这个毛病，但比较新的Grok 3就可以生成正常只有家具的房间。

以ChatGPT为代表的AI们是出了什么问题？或许是Dall-E 3作为扩散模型还无法理解否定的含义，提示词中出现了“大象”就会增加大象出现的机会。还有网友分享Midjourney增加了一个特殊的提示词参数“- no”来解决这个问题。

这几天还有一个现象也引起了大家的关注：ChatGPT拒绝画一副玫瑰，因为不符合内容规范。再联系到此前ChatGPT拒绝回答David Mayer是谁，总之OpenAI的内容过滤真是令人困惑。

2️⃣全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

新智元｜阅读原文

就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！这一成就，再次让AI社区轰动。「啊哈时刻」指大模型能够自发构建推理策略，重新审视自己的初始方法，来提升自己的推理能力。

UCLA等机构的研究者发现，虽然目前已经涌现出许多试图复现DeepSeek-R1的研究，然而这些研究大多遭遇了这个难点：很难复现出R1所表现出的回答长度增加和思考模式。幸运的是，他们成功了！如同DeepSeek-R1论文所描述的那样，多模态的「啊哈时刻」出现了——模型回答中涌现出了自我反思能力。他们不仅成为全球首个成功在多模态推理中产生了「啊哈时刻」涌现现象和回答长度增加的团队，而且仅仅使用了一个未经监督微调的2B模型。

具体来说，研究者从从Qwen2-VL-2B基础模型开始，直接在SAT数据集上进行强化学习。没有任何SFT的情况下，模型就在CVBench上达到了59.47%的准确率，比基础模型高出约30%，比经过SFT的模型高出约2%。甚至，这个模型大幅超越了指令微调模型，而后者的训练数据明显更多。现在，研究者已经在GitHub上开源了训练代码和关于回答长度的发研究发现，希望能加速AI社区未来对多模态推理的研究。

3️⃣对话像素绽放赵充：一年内用户超千万且挣到钱，AiPPT.cn是怎么做的

Founder Park｜阅读原文

国内的 AI 办公产品，AiPPT.com 绝对是最不可忽视的一个。产品上线后 4 个月，月活跃用户数便突破了百万大关，2025 年 2 月，AiPPT.com 的全球单月访问量逼近 1400 万，全球排名第 2。

Key Message:

用户心智传播度：第一天要决定品牌叫什么。一个好名字能提升一倍甚至几倍的传播效率。还储备了很多的品牌名和域名，前前后后买了几十个。核心要点就是一个「快」字，时间不等人，这个事要是琢磨一个月，黄花菜都凉了。
用户群体明确：这款产品和其它一些产品不太一样，不存在 early adopter 或者核心群体，本身就是面向普通大众的，目标用户就是像白领、打工人、老师以及学生这类群体，从一开始推出就是大众在使用。
流量输入明确：这是 AI 原生体验的新一代 AI 办公工具，所以工作流程的其核心标签是 AI 原生而非功能式的。作为一家创业公司，究竟该以怎样的生态位来切入市场呢？答案就是把自身的能力输出给所有这二三十个流量入口。宗旨就是，用户在哪里出现，咱们就得在哪里现身。
用户增长营销差异化：平台化是所有软件类产品通用的标准思考路径与进化模式，核心目的是：扩大用户池规模、提升用户留存率以及提高ARPU值。切入巨头赛道，关键还是要看那经典的 4P 理论里的差异化能否凸显出来，也就是产品、价格、渠道、促销这几个关键要素，能不能做到与众不同，只要看到差异化就够了。

对此，你怎么看？

支付宝/钉钉扫码加入支付宝开发者钉组织，可了解支付宝开放能力最新动态，订阅文档更新消息，和同城同行业交流业务，与支付宝产研沟通交流。