1️⃣一头大象难倒ChatGPT,Grok 3完美通关

量子位|阅读原文

ChatGPT新Bug引热议:无法画出“有0头大象的房间”。ChatGPT也能意识到自己的错误。但重新生成的图中还是出现了大象。确实很多早期未升级过的AI文生图产品都像ChatGPT一样有这个毛病,但比较新的Grok 3就可以生成正常只有家具的房间。

以ChatGPT为代表的AI们是出了什么问题?或许是Dall-E 3作为扩散模型还无法理解否定的含义,提示词中出现了“大象”就会增加大象出现的机会。还有网友分享Midjourney增加了一个特殊的提示词参数“- no”来解决这个问题。

这几天还有一个现象也引起了大家的关注:ChatGPT拒绝画一副玫瑰,因为不符合内容规范。再联系到此前ChatGPT拒绝回答David Mayer是谁,总之OpenAI的内容过滤真是令人困惑。

2️⃣全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

新智元|阅读原文

就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」!这一成就,再次让AI社区轰动。「啊哈时刻」指大模型能够自发构建推理策略,重新审视自己的初始方法,来提升自己的推理能力。

UCLA等机构的研究者发现,虽然目前已经涌现出许多试图复现DeepSeek-R1的研究,然而这些研究大多遭遇了这个难点:很难复现出R1所表现出的回答长度增加和思考模式。幸运的是,他们成功了!如同DeepSeek-R1论文所描述的那样,多模态的「啊哈时刻」出现了——模型回答中涌现出了自我反思能力。他们不仅成为全球首个成功在多模态推理中产生了「啊哈时刻」涌现现象和回答长度增加的团队,而且仅仅使用了一个未经监督微调的2B模型。

具体来说,研究者从从Qwen2-VL-2B基础模型开始,直接在SAT数据集上进行强化学习。没有任何SFT的情况下,模型就在CVBench上达到了59.47%的准确率,比基础模型高出约30%,比经过SFT的模型高出约2%。甚至,这个模型大幅超越了指令微调模型,而后者的训练数据明显更多。现在,研究者已经在GitHub上开源了训练代码和关于回答长度的发研究发现,希望能加速AI社区未来对多模态推理的研究。

3️⃣对话像素绽放赵充:一年内用户超千万且挣到钱,AiPPT.cn是怎么做的

Founder Park|阅读原文

国内的 AI 办公产品,AiPPT.com 绝对是最不可忽视的一个。产品上线后 4 个月,月活跃用户数便突破了百万大关,2025 年 2 月,AiPPT.com 的全球单月访问量逼近 1400 万,全球排名第 2。

Key Message:

  • 用户心智传播度:第一天要决定品牌叫什么。一个好名字能提升一倍甚至几倍的传播效率。还储备了很多的品牌名和域名,前前后后买了几十个。核心要点就是一个「快」字,时间不等人,这个事要是琢磨一个月,黄花菜都凉了。
  • 用户群体明确:这款产品和其它一些产品不太一样,不存在 early adopter 或者核心群体,本身就是面向普通大众的,目标用户就是像白领、打工人、老师以及学生这类群体,从一开始推出就是大众在使用。
  • 流量输入明确:这是 AI 原生体验的新一代 AI 办公工具,所以工作流程的其核心标签是 AI 原生而非功能式的。作为一家创业公司,究竟该以怎样的生态位来切入市场呢?答案就是把自身的能力输出给所有这二三十个流量入口。宗旨就是,用户在哪里出现,咱们就得在哪里现身。
  • 用户增长营销差异化:平台化是所有软件类产品通用的标准思考路径与进化模式,核心目的是:扩大用户池规模、提升用户留存率以及提高ARPU值。切入巨头赛道,关键还是要看那经典的 4P 理论里的差异化能否凸显出来,也就是产品、价格、渠道、促销这几个关键要素,能不能做到与众不同,只要看到差异化就够了。

对此,你怎么看?

详情查看参与互动赢蚂蚁周边


支付宝开放平台-开发者社区

 「AGI 之路」 内容库

欢迎你的投稿!戳我进群


支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐