
2025年NICAR大会上的LLM新动态
这是一种探索模型能力的有趣方式,尽管有一些明显的注意事项。一个重要的主题是中国的模型,来自DeepSeek(DeepSeek v2和DeepSeek R1)和阿里巴巴的Qwen。数据新闻工作者的关键教训是:如果我们要用这些模型做严肃的工作,我们需要自己的评估。我在文章《GPT-4的壁垒被彻底打破》中提到——先是Gemini和Anthropic,然后几乎是其他所有人,都做到了这一点。的存在——这是一
以下是该网页内容的翻译,并转换为Markdown格式:
2025年NICAR大会上的LLM新动态
2025年3月8日
今年,我在2025年NICAR数据新闻大会上主持了两场会议。第一场是基于我对2024年LLM的回顾,延长了几个月,以涵盖2025年至今发生的一切。第二场是关于“前沿网络爬虫技术”的研讨会,我已经单独写了一篇文章。
以下是关于LLM最新动态的幻灯片和详细笔记,重点关注与数据新闻相关的趋势。
我从2022年11月30日ChatGPT发布以来的故事回顾开始。
这并不是一项比我们已经使用了两年多的GPT-3更大的技术飞跃……但事实证明,为其添加聊天界面是使其能够被大众接受的关键改进。其结果被声称是有史以来增长最快的消费级应用。
回顾过去,2023年剩下的时间实际上有点平淡!至少与2024年相比是这样。
2023年最大的飞跃是GPT-4,它最初由必应预览,然后在3月向其他人发布。
……并且在那一年剩下的时间里几乎无人能敌。有一段时间,GPT-4似乎是一个独特的成就,没有人能够赶上OpenAI。这种情况在2024年完全改变了。
我在文章《GPT-4的壁垒被彻底打破》中提到——先是Gemini和Anthropic,然后几乎是其他所有人,都做到了这一点。GPT-4级别的模型几乎已经成为一种商品。目前已经有18个实验室达到了这一里程碑。
OpenAI在这方面不再无可争议地领先于所有人。
过去大约15个月中,我最喜欢的趋势之一是多模态LLM的崛起。当人们去年抱怨LLM的进步正在放缓时,我总是用多模态模型作为反例。这些模型在处理图像方面已经变得非常出色,音频和视频也开始变得实用。
我在2023年10月为我的LLM工具增加了多模态支持。我的“vision-llms”标签紧密跟踪这一领域的进展。
如果你认为通过API访问这些模型是昂贵的,那么你应该重新评估一下。
我一直在用我的“llm-pricing”标签跟踪模型成本的下降。
总体而言,价格一直在大幅下降。
……除了GPT-4.5,这是一个非常昂贵的模型——它的价格是OpenAI目前最便宜的模型GPT-4o mini的500倍!
尽管如此,与几年前价格几乎与GPT-4.5相当、但与今天的GPT-4o mini相比非常弱的GPT-3 Da Vinci相比,仍然很有趣。
与此同时,谷歌的Gemini模型包括一些极其便宜的选项。我可以用Gemini 1.5 Flash 8B模型为我的68,000张照片生成标题,总共只需1.68美元。
大约六个月前,我开始对可以在自己的笔记本电脑上运行的模型失去兴趣,因为它们感觉比托管模型的用途少得多。
这种情况首先随着Qwen 2.5 Coder、然后是Llama 3.3 70B、最近是Mistral Small 3而发生了变化。
所有这些模型都可以在同一个笔记本电脑上运行——一台64GB的苹果硅MacBook Pro。我已经拥有这台笔记本电脑一段时间了——事实上,自LLaMA 1以来,我所有的本地实验都使用了同一台机器。
现在,可以在该硬件上运行的模型确实很有用,其中一些感觉就像2023年让我印象深刻的GPT-4。
今年才刚刚过去两个月,就已经发生了这么多事情。
一个重要的主题是中国的模型,来自DeepSeek(DeepSeek v2和DeepSeek R1)和阿里巴巴的Qwen。更多关于这些模型的信息可以查看我的“deepseek”和“qwen”标签。
我在大多数演讲中都会重复使用这个动画幻灯片,因为我非常喜欢它。
“氛围”仍然是评估模型的最佳方式。
这是聊天机器人竞技场排行榜,它使用用户对匿名提示结果对的投票来决定最佳模型。
它仍然是我们拥有的最佳工具之一,但人们越来越怀疑其结果可能无法真正反映模型质量——部分原因是我的最爱模型Claude 3.7 Sonnet并没有上榜!排行榜奖励具有某种风格的模型——简洁的答案——这可能并不反映整体质量。模型甚至可能根据排行榜的偏好进行训练。
数据新闻工作者的关键教训是:如果我们要用这些模型做严肃的工作,我们需要自己的评估。我们需要评估视觉OCR是否足够好地应用于警察报告,或者从文章中提取人物和地点的分类器是否在做正确的事情。
这是一项艰巨的工作,但非常重要。
好消息是,即使是非正式的评估,也能让你在这个领域领先一步。创建一个充满你喜爱的提示的笔记文件。将它们粘贴到不同的模型中。
如果一个提示给出了糟糕的结果,将其保存起来,并在六个月后用最新的模型再次尝试。这是在其他人之前了解模型新能力的好方法。
这一点应该不再有争议——支持它的证据太多了。
利用这一事实的系统越来越多。
我写过关于Claude Artifacts、ChatGPT代码解释器和ChatGPT画布的文章。
“氛围编码”是安德烈·卡帕西为使用LLM编写代码创造的一个新术语,你只需随意尝试看看它能生成什么,并输入任何错误或漏洞看看它是否能修复它们。这是一种探索模型能力的有趣方式,尽管有一些明显的注意事项。
我在这一点上切换到了Claude的现场演示,提示是:
为我构建一个可以在数据新闻大会上选择参加活动的工具
这是对话记录,这是它为我构建的网络应用程序。它在为一个想象中的大会生成示例数据方面做得很好。
我还提到了我的tools.simonwillison.net网站,这是我的一个集合,我通过提示模型构建了所有这些工具。
我认为,一个模型能够生成一个完整的HTML+JavaScript自定义界面的能力现在已经如此强大且广泛可用,以至于它已经成为一种商品。
我的部分证据是https://web.lmarena.ai/的存在——这是一个聊天机器人竞技场的衍生产品,你可以在两个模型上运行相同的提示,并看看哪个模型创建了更好的应用程序。
我在这里也用Claude的测试提示进行了另一个现场演示。
2025年的另一个重要趋势是“推理时计算”,也被称为推理。
OpenAI o1和o3、DeepSeek R1、Qwen QwQ、Claude 3.7 Thinking和Gemini 2.0 Thinking都是这种模式的例子。
这就是模型在回答问题之前“思考”问题的情况。这是几年前“逐步思考”技巧的一个衍生产品,只是现在它已经被嵌入到模型中了。它非常有效,至少对于某些类别的问题(通常是代码和数学问题)来说是这样。
这里有一个非常有趣的技巧:事实证明,你可以“黑”这些模型,拦截它们试图用</think>
结束思考的尝试,并将其替换为Wait, but
——然后它们会“更努力地思考”!
在这一点上,我切换到了一些现场演示。我通过Ollama运行了新的Qwen qwq模型:
llm install llm-ollama
ollama pull qwq
llm -m qwq:latest 'prove that dogs are real'
看着Qwen几乎耗尽我的GPU,深入思考如何证明狗是真实存在的,这是一个很棒的现场演示。这是它得出的结果。
后来,我用同样的提示尝试了小巧的Llama 3.2 3B:
ollama pull llama3.2:3b
llm -m llama3.2:3b 'prove that dogs are real'
对于一个不到2GB下载量的模型来说,它的表现相当不错。
记者非常关心这个问题。世界上有太多重要的信息被困在可怕的PDF文件中。
(更多关于这个问题的内容可以查看我的另一个NICAR研讨会。)
视觉LLM正接近能够解决这个问题。
Gemini和Claude都可以直接接受PDF文件。对于其他模型(包括OpenAI),你需要先将它们分解成图像——每页一个PNG格式效果不错。
到目前为止,我见过的对PDF文件处理效果最好的是Gemini。
更多推荐
所有评论(0)