每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

众所周知,持续扩大数据规模和模型规模能够显著提升人工智能的智能水平。然而,无论是稠密模型还是专家混合(MoE)模型,业界在如何高效扩展超大规模模型方面仍处于探索阶段。直到 DeepSeek V3 的发布,一些关键的技术细节才得以曝光。与此同时,Qwen 团队也在打造 Qwen2.5-Max——一款经过 20 万亿 tokens 预训练,并结合精细的监督微调(SFT)与人类反馈强化学习(RLHF)进行后训练的大规模 MoE 模型。如今,Qwen2.5-Max 的性能评测结果正式公布,同时其 API 已上线阿里云,用户可通过 Qwen Chat 直接体验。

性能表现

Qwen2.5-Max 在多个行业关注的权威基准测试中,与主流开源及闭源模型展开对比。其中包括用于大学水平知识测试的 MMLU-Pro、衡量代码能力的 LiveCodeBench、全面评估模型泛化能力的 LiveBench,以及模拟人类偏好的 Arena-Hard。此外,Qwen2.5-Max 在 GPQA-Diamond 等高难度测试中同样表现出色。此次评测涵盖了基础模型和指令微调模型两大类别。

在指令微调模型的对比中,Qwen2.5-Max 在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等测试中均超越 DeepSeek V3,同时在 MMLU-Pro 等其他基准上展现出竞争力。针对基础模型的对比,由于无法获取 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的结果,此次 Qwen2.5-Max 主要对比了 DeepSeek V3(领先的开源 MoE 模型)、Llama-3.1-405B(最大规模的开源稠密模型)以及自家 Qwen2.5-72B。评测数据显示,Qwen2.5-Max 在多数基准上具备明显优势,未来通过优化后训练技术,模型性能仍有进一步提升的空间。

如何使用 Qwen2.5-Max

目前,Qwen2.5-Max 已集成至 Qwen Chat,用户可以直接与模型对话,体验搜索、代码生成等功能。同时,该模型的 API(型号:qwen-max-2025-01-25)也已上线,用户可通过以下步骤使用:

  1. 注册阿里云账户并开通 Model Studio 服务。
  2. 进入控制台,创建 API Key。
  3. 由于 Qwen API 兼容 OpenAI API,用户可以直接沿用 OpenAI API 的调用方式。

示例代码(Python 调用 Qwen2.5-Max API):

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
      {'role': 'system', 'content': 'You are a helpful assistant.'},
      {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

未来展望

数据与模型规模的不断扩大,不仅推动了 AI 智能的飞跃,也彰显了前沿研究的决心。未来,Qwen 团队将持续探索强化学习技术的创新应用,进一步增强大语言模型的思考与推理能力。这项突破性研究有望让 AI 超越人类认知极限,迈向更深层次的知识探索。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐