Qwen模型性能评测：超越同规模竞品的卓越表现

Qwen模型性能评测：超越同规模竞品的卓越表现【免费下载链接】QwenThe official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud....

gitblog_00061

707人浏览 · 2024-06-24 09:46:45

gitblog_00061 · 2024-06-24 09:46:45 发布

Qwen模型性能评测：超越同规模竞品的卓越表现

【免费下载链接】Qwen The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud. 项目地址: https://gitcode.com/GitHub_Trending/qw/Qwen

本文通过多个权威基准测试对Qwen系列模型进行了全面性能评估，涵盖MMLU和C-Eval知识理解基准、HumanEval代码生成能力、GSM8K和MATH数学推理能力，以及多语言翻译与自然语言处理能力。评测结果显示，Qwen模型在各个维度均展现出超越同规模竞品的卓越表现，特别是在中文理解、代码生成和数学推理方面优势明显。

MMLU和C-Eval基准测试结果分析

在大型语言模型的性能评估体系中，MMLU（Massive Multitask Language Understanding）和C-Eval（Chinese Evaluation）作为两个核心的基准测试，分别衡量模型在英文和中文领域的综合知识理解能力。通过对Qwen系列模型在这两个基准上的表现进行深入分析，我们可以清晰地看到其在同规模模型中的卓越性能。

MMLU基准测试深度解析

MMLU基准测试涵盖了57个不同的学术领域子任务，从STEM学科到人文社科，全面评估模型的多领域知识理解能力。Qwen系列模型在MMLU测试中展现出了令人瞩目的表现：

模型	MMLU (5-shot)	STEM	社会科学	人文学科	其他领域
LLaMA2-7B	46.8	36.4	51.2	42.9	52.2
ChatGLM2-6B	47.9	41.2	54.4	43.7	54.5
InternLM-7B	51.0	-	-	-	-
Qwen-7B	58.2	47.6	65.9	51.5	64.7
Qwen-14B	66.3	-	-	-	-
Qwen-72B	77.4	-	-	-	-

从数据可以看出，Qwen-7B在MMLU测试中达到了58.2%的准确率，显著超越了同规模的LLaMA2-7B（46.8%）和ChatGLM2-6B（47.9%）。特别是在社会科学领域，Qwen-7B取得了65.9%的优异成绩，展现了其在社会经济、公共事务、心理学等领域的强大理解能力。

mermaid

C-Eval基准测试全面剖析

C-Eval作为专门针对中文语言理解能力的评估基准，涵盖了52个学科领域，分为四个主要方向：STEM（科学、技术、工程和数学）、社会科学、人文学科和其他领域。Qwen系列在C-Eval测试中表现尤为突出：

模型	C-Eval (5-shot)	STEM	社会科学	人文学科	其他领域
LLaMA2-7B	32.5	-	-	-	-
ChatGLM2-6B	51.7	48.6	60.5	51.3	49.8
InternLM-7B	53.4	48.0	67.4	55.4	45.8
Qwen-7B	63.5	52.8	74.1	63.1	55.2
Qwen-14B	72.1	-	-	-	-
Qwen-72B	83.3	-	-	-	-

Qwen-7B在C-Eval测试中取得了63.5%的综合准确率，远超同规模的其他模型。特别值得关注的是，在社会科学领域达到了74.1%的惊人准确率，这充分证明了Qwen模型在中文社会科学知识理解方面的卓越能力。

技术实现细节分析

Qwen模型在MMLU和C-Eval测试中的优异表现，得益于其先进的技术架构和训练策略：

多语言词汇表设计：Qwen采用了151,851个token的词汇表，专门优化了中英文和代码数据的高效编码，这使得模型在处理中文知识时具有天然优势。

大规模预训练数据：Qwen-7B在超过2.2万亿个token的多语言数据上进行预训练，其中中文数据占相当比例，为C-Eval测试的优秀表现奠定了坚实基础。

# MMLU评测核心代码示例
def eval_subject(model, tokenizer, subject_name, test_df, k=5, dev_df=None):
    """评估单个学科的表现"""
    few_shot_prompt = generate_few_shot_prompt(k, subject_name, dev_df)
    scores = []
    
    for i in tqdm(range(len(test_df))):
        question = format_example(test_df.iloc[i], include_answer=False)
        full_prompt = few_shot_prompt + question
        
        # 获取模型预测
        logits = get_logits(tokenizer, model, [full_prompt])
        pred = decode_prediction(logits)
        
        # 计算准确率
        correct = 1 if pred == test_df.iloc[i]['answer'] else 0
        scores.append(correct)
    
    return scores

跨模型对比分析

通过横向对比不同规模模型的表现，我们可以发现Qwen系列的 scaling law 规律：

mermaid

从1.8B到72B参数规模，Qwen系列模型在MMLU和C-Eval上的表现呈现明显的正向相关关系，说明模型能力的提升与参数规模的增加保持了良好的线性关系。

领域特异性表现

在细分领域分析中，Qwen模型展现出以下特点：

STEM领域优势：在数学、物理、计算机科学等STEM学科中，Qwen-7B达到52.8%的准确率，这得益于其训练数据中大量包含的科技文献和代码数据。

社会科学卓越表现：在经济学、心理学、社会学等社会科学领域，Qwen-7B取得了74.1%的惊人准确率，反映了模型在理解复杂社会现象和人类行为方面的强大能力。

人文学科稳定发挥：在历史、哲学、文学等人文学科中，63.1%的准确率体现了模型对文化知识和人文思想的理解深度。

Qwen系列模型在MMLU和C-Eval基准测试中的卓越表现，充分证明了其在多语言、多领域知识理解方面的领先地位。特别是在中文知识理解方面，Qwen模型展现出了明显的优势，为中文自然语言处理领域的发展树立了新的标杆。

代码生成能力HumanEval评测对比

在代码生成能力评测中，HumanEval数据集作为业界公认的标准测试集，专门用于评估大语言模型在Python编程任务上的表现。该数据集包含164个手工编写的编程问题，每个问题都包含函数签名、文档字符串和测试用例，要求模型根据给定的函数签名和问题描述生成完整的函数实现。

HumanEval评测机制深度解析

HumanEval评测采用零样本（0-shot）评估方式，即模型在没有任何示例的情况下直接生成代码。评测过程通过以下关键步骤进行：

def extract_code(text, entry_point):
    # 正则表达式匹配代码块
    code_block_pattern = re.compile(
        rf"```(?:[Pp]ython\n)?.*?def\s+{entry_point}.*?:\n(.*?)\n```", re.DOTALL
    )
    code_block = code_block_pattern.search(text)
    if code_block is None:
        code_block_pattern = re.compile(
            rf"def\s+{entry_point}.*?:\n(.*?)(?:\n(?!\n*(?:  |\t))|$)", re.DOTALL
        )
        code_block = code_block_pattern.search(text)
    if code_block is None:
        code_block_pattern = re.compile(
            r"def.*?:\n(.*?)(?:\n(?!\n*(?:  |\t))|$)", re.DOTALL
        )
        code_block = code_block_pattern.search(text)

    if code_block is not None:
        return code_block.group(1)
    
    return textwrap.indent(text, " " * 4)

评测流程通过提取模型生成的代码，并使用OpenAI提供的官方评估工具evaluate_functional_correctness进行自动化测试，确保生成的代码能够通过所有测试用例。

Qwen系列模型HumanEval表现对比

根据官方评测数据，Qwen系列模型在HumanEval数据集上展现出卓越的代码生成能力：

模型	HumanEval得分	对比同规模模型优势
Qwen-1.8B	15.2	超越同规模竞品3-5个百分点
Qwen-7B	29.9	显著领先LLaMA2-7B的12.8分
Qwen-14B	32.3	相比InternLM-20B的25.6分优势明显
Qwen-72B	35.4	全面超越同规模竞品，接近顶级水平

从数据对比可以看出，Qwen系列模型在代码生成任务上呈现出明显的规模效应，随着模型参数量的增加，代码生成能力显著提升。特别是Qwen-72B模型，在HumanEval评测中达到了35.4的高分，超越了绝大多数同规模竞品。

代码生成能力的技术实现

Qwen模型在代码生成方面的优异表现得益于其多方面的技术创新：

1. 大规模代码数据预训练 Qwen模型在预训练阶段包含了大量高质量的代码数据，覆盖Python、JavaScript、Java等多种编程语言，使模型对编程语法、算法逻辑和代码结构有深入理解。

2. 精准的代码理解能力 模型能够准确理解函数签名、参数类型和返回要求，生成的代码具有良好的结构性和可读性：

def generate_sample(model, tokenizer, question, entry_point):
    response, _ = model.chat(
        tokenizer,
        question,
        history=None,
    )
    answer = extract_code(response, entry_point)
    return answer, response

3. 严格的代码质量保证 Qwen生成的代码不仅能够通过功能测试，还具有良好的编码风格和错误处理机制：

mermaid

典型代码生成示例分析

以下是一个典型的HumanEval问题及其Qwen模型生成解决方案：

问题描述： 编写一个函数，接受字符串列表作为输入，返回其中最长的字符串。如果有多个相同长度的字符串，返回第一个出现的。

Qwen-7B生成代码：

def find_longest_string(strings):
    """
    找出字符串列表中最长的字符串。
    
    参数:
    strings: 字符串列表
    
    返回:
    最长的字符串，如果有多个相同长度，返回第一个出现的
    """
    if not strings:
        return None
        
    longest = strings[0]
    for s in strings[1:]:
        if len(s) > len(longest):
            longest = s
    return longest

生成的代码不仅功能正确，还包含了完整的文档字符串和适当的错误处理，体现了Qwen模型在代码生成任务上的成熟度。

与其他模型的对比优势

相比其他同规模模型，Qwen在代码生成方面具有以下显著优势：

更高的通过率：在相同的测试条件下，Qwen模型的代码通过率明显高于竞品
更好的代码质量：生成的代码结构清晰，注释完整，符合编程规范
更强的泛化能力：能够处理各种复杂的编程场景和边界条件
更快的推理速度：在保证代码质量的同时，保持了高效的生成速度

Qwen系列模型在HumanEval评测中的卓越表现，充分证明了其在代码生成领域的领先地位，为开发者提供了可靠的AI编程助手解决方案。

数学推理GSM8K和MATH表现评估

在大型语言模型的评测体系中，数学推理能力是衡量模型逻辑思维和复杂问题解决能力的重要指标。Qwen系列模型在GSM8K和MATH这两个权威数学推理基准测试中展现出了卓越的性能表现，超越了同规模的其他主流模型。

GSM8K基准测试表现

GSM8K（Grade School Math 8K）数据集包含约8,500道小学数学应用题，主要测试模型的多步数学推理能力。该数据集要求模型不仅能够理解自然语言描述的问题，还需要进行多步计算并得出最终答案。

Qwen模型在GSM8K测试中采用了8-shot提示策略，其表现如下表所示：

模型	参数量	GSM8K准确率	相对优势
LLaMA2-7B	7B	16.7%	基准
ChatGLM2-6B	6B	32.4%	+15.7%
InternLM-7B	7B	31.2%	+14.5%
Baichuan2-7B	7B	24.6%	+7.9%
Qwen-7B	7B	51.7%	+35.0%
Qwen-14B	14B	61.3%	+44.6%
Qwen-72B	72B	78.9%	+62.2%

从测试结果可以看出，Qwen-7B在GSM8K上的准确率达到51.7%，显著超越了同规模的LLaMA2-7B（16.7%）、ChatGLM2-6B（32.4%）和InternLM-7B（31.2%）。随着模型规模的增大，Qwen-14B和Qwen-72B分别达到了61.3%和78.9%的准确率，展现了强大的数学推理能力。

MATH基准测试表现

MATH数据集包含12,500道来自数学竞赛的高难度题目，涵盖代数、几何、数论、概率等多个数学领域，对模型的深度数学理解和复杂推理能力提出了更高要求。

Qwen模型在MATH测试中采用4-shot提示策略，其性能表现如下：

模型	参数量	MATH准确率	难度级别
LLaMA2-7B	7B	3.3%	初级
LLaMA2-13B	13B	5.0%	中级
LLaMA2-34B	34B	6.2%	中高级
InternLM-7B	7B	6.3%	中级
InternLM-20B	20B	7.9%	中高级
Baichuan2-7B	7B	5.6%	中级
Baichuan2-13B	13B	10.1%	高级
Qwen-7B	7B	11.6%	高级
Qwen-14B	14B	24.8%	优秀
Qwen-72B	72B	35.2%	卓越

Qwen-7B在MATH测试中取得了11.6%的准确率，远超同规模的其他模型，甚至超越了参数量更大的LLaMA2-13B（5.0%）和InternLM-20B（7.9%）。Qwen-14B和Qwen-72B分别达到了24.8%和35.2%的准确率，在数学竞赛级别的问题上展现出了接近人类专家的表现。

评测技术实现细节

Qwen的数学推理评测采用了标准化的测试流程，其核心实现如下：

# GSM8K评测核心代码示例
def doc_to_text(doc):
    return (
        fewshot_prompt + "\nQuestion: " + doc["question"] + 
        "\nLet's think step by step\n"
    )

def extract_answer(completion):
    # 使用正则表达式提取最终答案
    match = ANS_RE.search(completion)
    if match:
        match_str = match.group(1).strip()
        match_str = match_str.replace(",", "")
        return eval(match_str)
    else:
        return INVALID_ANS

def is_correct(completion, answer):
    gold = extract_answer_hf(answer)
    return extract_answer(completion) == gold

评测流程采用多轮对话模式，模型需要生成包含推理过程的完整回答：

sequenceDiagram
    participant User
    participant Model
    participant Evaluator

    User->>Model: 输入数学问题+few-shot示例
    Model->>Model: 逐步推理计算
    Model->>User: 生成包含推理过程的回答
    Evaluator->

【免费下载链接】Qwen The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud. 项目地址: https://gitcode.com/GitHub_Trending/qw/Qwen