本研究探讨了大型语言模型如何通过提示工程对科学论文中的句子进行分类。我们使用两种先进的基于网络的模型,OpenAI 的 GPT-4o 和 DeepSeek R1,将句子分类为预定义的关系类别。DeepSeek R1 已在其技术报告中测试过基准数据集。然而,其在科学文本分类中的性能尚未得到充分探索。为解决这一问题,我们引入了一种专门为该任务设计的新评估方法,并整理了一个来自多个领域的清洁科学论文数据集。该数据集提供了一个比较这两个模型的平台。通过使用此数据集,我们分析了它们在分类中的有效性和一致性。

近年来,人工智能(AI)领域发展迅速。这些进步催生了强大的语言模型,广泛应用于许多领域。其中,OpenAI 的 GPT-4o 和 DeepSeek R1 因其能力和设计而备受关注。

OpenAI 于2024年5月推出了GPT-4o (OpenAI 2024) 。该模型在早期版本的基础上改进了文本、语音和视觉任务的性能。它提供了GPT-4级别的智能,同时运行速度更快,计算成本更低。这些改进使GPT-4o适用于更广泛的任务。

AI初创公司DeepSeek于2025年1月发布了DeepSeek R1 (DeepSeek 2025) 。该模型以较低的成本提供了与领先专有系统相当的性能。它是开源的,允许AI研究人员对其进行研究和修改。这种透明性使DeepSeek R1成为AI研究社区的重要贡献。然而,对于DeepSeek的基于网络的平台处理涉及政治敏感话题的问题存在一些担忧 (Staff 2025) 。

DeepSeek R1的推出对AI的发展产生了多方面的影响。其成本效益对投资于专有模型的公司提出了挑战。开源方法也有利于更多的研究和发展 (Vox 2025) 。

尽管DeepSeek R1已经在通用基准上进行了评估 (Team 2025) ,但其在特定任务如科学文本句子分类中的表现尚未得到系统分析。特别是关于其分类科学文本的能力的研究较少。本研究引入了一种专门为此任务设计的评估方法。此外,我们构建了一个包含10篇科学论文文本的数据集。该数据集允许直接比较GPT-4o和DeepSeek R1在句子分类中的表现。通过对这两种模型将句子分类为预定义关系类型,我们考察了它们的优缺点。

2 GPT-4o 和 DeepSeek R1 概述

2.1 GPT-4o:OpenAI 的多模态模型

OpenAI 于2024年5月推出了GPT-4o作为对其先前模型的改进 (OpenAI 2024) 。与早期版本不同,GPT-4o能够同时处理文本、图像和音频输入。它提供了GPT-4级别的智能,但运行速度更快,效率更高。

GPT-4o的一些关键特性如下:

  • 多模态处理 :GPT-4o在一个模型中处理文本、图像和语音输入。
  • 更快的性能 :OpenAI报告称,GPT-4o的运行速度至少是GPT-4 Turbo的两倍,同时保持相似的准确性。
  • 更低的成本 :API定价低于早期版本,使其更适合研究人员和开发人员。
  • 更好的推理和编码能力 :GPT-4o在数学、编程和长上下文任务中的表现有所提升。
    OpenAI设计GPT-4o以提高效率并支持实时AI应用。
    2.2 DeepSeek R1:开源替代方案
    DeepSeek于2025年1月发布了DeepSeek R1作为一种开源的大规模语言模型(LLM) (DeepSeek 2025; Team 2025) 。与许多专有模型不同,DeepSeek R1可供公众使用和修改。它还应用强化学习来改进逻辑推理能力。
    DeepSeek R1的一些关键特性如下:
  • 基于强化学习的训练 :该模型通过强化学习改进推理能力 (Team 2025) 。
  • 开源访问 :提供多个版本,包括DeepSeek R1-Zero和较小的蒸馏模型。
  • 较低的计算成本 :其性能水平类似于OpenAI的o1-1217,但需要的资源更少。
  • 社区参与 :开源性质允许AI研究人员对其进行修改和扩展。
  • 基准性能 :DeepSeek R1技术报告显示其在标准推理和文本基准上的竞争力 (Team 2025) 。
    最近的分析引发了对DeepSeek基于网络的平台处理涉及政治敏感话题的问题的关注 (Staff 2025) 。然而,DeepSeek R1通过提供一种成本效益高、开源的模型,促进了AI的普及 (Vox 2025) 。
    2.3 比较考虑
    GPT-4o和DeepSeek R1的设计目标不同。GPT-4o侧重于实时、多模态应用,而DeepSeek R1则提供了一个具有强化学习改进的开源替代方案。它们在科学文本分类方面的能力尚未深入研究。
    本研究引入了一种用于评估这两种模型的方法。我们整理了一个包含10篇清理过的科学文章的数据集,并比较了它们的句子分类结果。接下来的章节描述了语义关系分类法的相关工作,然后简要讨论了先前的工作,并详细介绍了实验设计、方法和结果。
    3 文献综述
    科学文本的分类依赖于对语义关系的结构化理解。先前的研究探讨了各种建模这些关系的方法,以增强AI驱动的分类系统。
    Maia和Lima (Maia和Lima 2021) 提出了一种用于知识表示的语义关系分类法,为科学文本分类奠定了基础。他们的研究表明,结构化实体之间的关系可以提高信息检索和分类的效果。Wang等人 (Wang等人 2023) 进一步通过隐喻解释方法引入了跨学科概念关联发现(ICAD-MI)。他们的研究强调了细致关系建模的重要性,这可以应用于AI驱动的文本分类。
    语料库研究也在理解语义转换中发挥了重要作用。Kunch和Kharchuk (Kunch和Kharchuk 2023) 研究了艺术话语中确定性词汇的变化,而Albota等人 (Albota等人 2024) 则专注于使用语料库技术研究“病毒”一词的语义转换。这些研究表明了语言的动态性以及AI模型在准确分类科学文本时面临的挑战。
    此外,Kunch等人 (Kunch等人 2024) 研究了媒体话语中正字法规范的动态变化,为文本分类提供了见解。Vysotska等人的研究 (Vysotska等人,n.d.) 进一步展示了信息结构在AI驱动应用程序中的作用。
    本研究的主要目的是整合来自语义分类法、语料库语言学和跨学科概念建模的见解,并利用这些见解进行提示工程,以考察两个大规模语言模型GPT-4o和DeepSeek R1在处理和分类科学文本方面的比较能力。
    4 方法论
    4.1 数据收集
    为了评估GPT-4o和DeepSeek R1在科学文本分类中的表现,我们整理了一个包含十篇来自arXiv的科学文章的数据集。这些文章的选择确保了广泛的学科覆盖。以下类别的文章被使用:
  • 物理学 :天体物理学、凝聚态物理学
  • 计算机科学 :数据库、网络与互联网架构、系统与控制
  • 经济学 :理论经济学、一般经济学
  • 生命科学 :生物分子、神经与进化计算
  • 工程学 :信号处理
    虽然存在包含数千篇文章的大规模数据集,但我们选择了较小且精心策划的十篇文章集合,原因有几点。首先,每篇科学论文包含大量文本数据,通常涵盖引言、方法、讨论和结论等多个部分。这为我们提供了足够数量的句子进行有意义的比较分析,而不至于过度冗余。其次,通过保持数据集的可管理规模,我们能够手动验证提取的句子的准确性,同时保持评估的完整性。最后,选择来自不同领域的文章使我们能够评估每个模型在不同风格的科学写作中的泛化能力。
    构建的数据集作为基准,用于根据预定义的关系类别评估句子分类,从而实现GPT-4o和DeepSeek R1之间的结构化比较。
    4.2 文本预处理
    提取的文本经过预处理以去除公式、脚注和内联引用。主要目标是确保分类的干净、结构化的输入,同时保留原始段落结构。为了避免逐句处理带来的显著计算和成本(就标记而言)开销,我们一次处理一个段落以优化效率。
    每个段落的格式化如下:
  • 去除方程和数学符号 :过滤掉数学表达式、LaTeX样式内联公式和独立方程,以防止干扰文本分析。
  • 去除引用和脚注 :我们希望使用干净且语法完整的句子。因此,引用(如"[12]","(Smith et al., 2020)")和脚注被删除,以避免干扰分类过程。
  • 句子级结构化 :虽然分类是在句子级别进行的,但在使用结构化提示时,我们一次处理一个段落。段落内的句子保持完整。这是为了保持逻辑流程和上下文连贯性。
  • 空行分隔 :段落之间用空行分隔,以便于结构化输入处理。
    这种方法采用段落级预处理,旨在设计高效的提示结构。由于每个提示必须包含所有17个关系类别的完整列表及其示例,段落级处理显著减少了API调用总数,同时保持准确性。这种方法还有助于保留完整的上下文意义。
    4.3 分类和提示工程
    科学写作往往包含复杂的句子结构,这使得准备关系类别列表变得具有挑战性。我们开发了总共17个关系类别。在开发类别列表时遵循的原则如下:
  • 合并重叠类别 :通过合并和整合相似的类别,减少重叠的机会,简化分类,使关系更易于使用,并提高清晰度和准确性。
  • 消除过于具体的类别 :过于具体的类别被吸收进更广泛、更通用的类别中,以防止不必要的复杂性,鼓励泛化,使类别更具适用性,并防止与其他表达类似概念的关系纠缠。
  • 提高命名的清晰度和易用性 :简化类别名称,使其更容易理解,适用于不同领域,并更加直观。
  • 提高范围和适用性 :新类别旨在更广泛地适用于科学、技术和研究出版物,以减少在处理复杂文本时的模糊性。
  • 逻辑和概念简化 :改进逻辑结构,使每个类别在概念上与其他类别区分开来,最小化不同逻辑类别的混淆。
    分类过程将每个提取的句子分配到17个预定义的关系类别之一。这些类别包括部分-整体关系、因果关系、交互关系、比较关系和基于时间的关系。我们不是逐句处理,而是每次分类一个段落。这保留了上下文意义并减少了计算开销。处理完整段落允许结构化的方法,同时保持关系的完整性。
    4.3.1 关系类别
    17个关系类别定义了实体之间的不同类型连接。每个类别描述了两个实体(A和B)如何相互作用。以下是概述:
  • 部分-整体关系 :A是B的一部分或包含B。例如:"线粒体是细胞的一部分。"
  • 类别-类型关系 :A是类别B的具体实例。例如:"玫瑰是一种花。"
  • 因果关系 :A导致或引起B。例如:"吸烟会导致肺癌。"
  • 条件-规则关系 :如果A发生,则B随之发生。例如:"如果水达到100°C,它就会沸腾。"
  • 动作-变化关系 :A改变或转化B。例如:"加热金属会使其膨胀。"
  • 交互-影响关系 :A和B相互影响。例如:"肠道细菌影响人体代谢。"
  • 比较关系 :A与B相似或不同。例如:"电动汽车比汽油车更高效。"
  • 对立关系 :A阻止或矛盾于B。例如:"疫苗预防疾病。"
  • 基于时间的关系 :A发生在B之前或之后。例如:"文艺复兴发生在工业革命之前。"
  • 基于位置的关系 :A在B内部、附近或上方。例如:"细胞核位于细胞内部。"
  • 数量-测量关系 :A大于或与B成比例。例如:"速度与距离除以时间成正比。"
  • 所有权-控制关系 :A拥有或控制B。例如:"一家公司拥有专利。"
  • 限制-约束关系 :A限制或停止B。例如:"预算限制阻碍了研究进展。"
  • 代表-符号关系 :A代表或编码B。例如:"DNA编码遗传信息。"
  • 替换-替代关系 :A取代或相当于B。例如:"太阳能取代化石燃料。"
  • 形成-涌现关系 :A从B中出现或导致B的形成。例如:"行星由宇宙尘埃形成。"
  • 过程-随时间变化关系 :A转变为B。例如:"毛毛虫变成蝴蝶。"
    4.3.2 提示工程策略
    为了高效地分类句子,我们使用了一个结构化的提示,该提示一次处理一个段落。提示遵循固定的结构以确保一致性。段落级处理减少了冗余并提高了效率。
    提示包括:
  • 简短的任务说明。
  • 所有17个关系类别的列表,附带定义和示例。
  • 从数据集中提取的段落。
  • 要求模型对每个句子进行分类并提取主要实体A和B。
    以下是一个提示格式示例:
    您将获得一篇科学论文中的一个段落。您的任务是将段落中的每个句子分类为以下列出的17个预定义关系类别之一。对于每个句子,提取涉及关系的两个主要实体(A和B)。可能的关系类别如下:

    1. 部分-整体关系(A是B的一部分,A包含B)
    示例:“线粒体是细胞的一部分。”

    2. 类别-类型关系(A是B的一种,A属于类别B)
    示例:“引力是物理学中的基本力。”

    ...(剩余类别)...

    现在,请分类以下段落:
    <在此插入文章中的一个段落>

    请按以下格式提供输出:
    句子:<提取的句子>
    类别:<选定的类别>
    A:<实体A>
    B:<实体B>
    4.3.3 精炼和验证
    AI模型可能会错误分类关系。为了提高准确性,我们迭代地改进方法。我们采取了以下步骤:
  • 手动审查输出以查找误分类。
  • 识别错误模式并改进提示措辞。
  • 调整示例以澄清类别之间的区别。
  • 多次评估以检查一致性。
    4.4 评估标准
    OpenAI和DeepSeek的输出基于准确性、一致性和可解释性进行比较。关键评估指标包括:
  • 模型在句子分类上的一致性。
  • 识别实体A和B的一致性。
  • 人类验证分类的正确性。

5 结果与讨论

5.1 从提示输出中提取实体

在处理来自GPT-4o和DeepSeek R1的文本时,我们发现了许多额外的格式和不必要的文本问题。这些问题使得清理和对齐数据变得具有挑战性。

GPT-4o输出中的一个问题是频繁使用符号如***、—和**。这些符号没有实际用途且不一致,使得输出难以解析。DeepSeek R1经常保留内联引用和引文,包括括号中的作者姓名。这些添加并不总是必要的,尤其是在分类任务中。

多余的文本也是一个常见问题。GPT-4o经常添加诸如:“以下是基于预定义类别的句子分类。”这样的短语。这些短语无关紧要,需要移除。

两个模型之间的格式不一致带来了更多挑战。GPT-4o有时会编号其输出,而DeepSeek R1则提供紧凑格式的响应。两个模型呈现关键元素(如类别、属性(A和B)、句子)的方式也不同。这种不一致性使得直接比较它们的输出变得困难。

为了解决这些问题,我们创建了一个结构化的解析框架。该框架使用基于正则表达式的规则来识别和提取句子、类别和属性。框架去除了无关文本并规范化格式。从两个模型的原始输出中准备了结构化的JSON文件。

为了对齐,我们使用了模糊匹配技术。这些技术即使在措辞略有差异的情况下也能匹配GPT-4o和DeepSeek R1之间的句子。这种方法提高了映射的准确性,并确保了处理数据的一致性。结果是一个干净可靠的数据集,可用于分析。

5.2 总体分类覆盖率

我们分析了处理的总句子数以及GPT-4o和DeepSeek R1提供的分类情况。表 1 总结了所有分析句子的分类覆盖率。

两个模型都为大多数句子分配了关系类别。然而,GPT-4o未能分类169个句子,而DeepSeek R1未能分类85个句子。这表明它们在处理模糊或复杂句子结构方面存在差异。DeepSeek R1提供了更全面的覆盖,比GPT-4o多分类了84个句子。这表明DeepSeek R1尝试在GPT-4o不确定的情况下分配关系。手动调查表明,DeepSeek R1在处理包含数学符号的句子时更胜一筹。

5.3 实体一致性分析中的数据处理问题

我们分析了GPT-4o和DeepSeek R1在三个方面的一致性:关系类别分配、实体A提取和实体B提取。结果显示这两个模型之间存在较大不一致。

在这项分类任务中,两个模型在类别分类上的一致率为44.71%。这表明GPT-4o和DeepSeek R1对句子结构和语义关系的解释方式不同。这种不一致可能是由于每个模型应用类别定义的方式不同。某些类别可能存在重叠,导致分类选择不一致。

实体提取显示出不同的模式。两个模型在37.36%的案例中对实体A达成一致。这表明两个模型可以以中等一致性识别句子的主语。然而,对实体B的一致率较低,为22.44%。实体B提取的低准确性表明存在更多模糊性。模型可能在处理隐含实体、多子句句子或领域特定术语时遇到困难。

分类和实体提取之间的巨大差异表明这些模型在处理科学文本时存在根本性的差异。需要更深入的分析以找出最常发生错位的具体案例。这有助于改进提示设计,使实体提取更加可靠。

5.4 GPT-4o和DeepSeek R1之间的类别一致性

为了评估GPT-4o和DeepSeek R1在分类科学句子时的一致性,我们分析了它们在分配关系类别上的一致性。图 1 显示了每个类别的同意率。仅显示非零同意率的类别。

GPT-4o和DeepSeek R1分配的不同关系类别的同意率。

GPT-4o和DeepSeek R1的整体类别一致率为44.71%,各类别间存在显著差异。最高一致率出现在 代表与符号关系(85.71%) 和 限制与约束关系(85.11%) ,表明在这两个类别上高度一致。相反, 因果关系(35.20%) 、 所有权与控制关系(23.33%) 和 基于时间的关系(13.04%) 的一致率较低,表明分类方法不同。

在涉及因果和时间关系的案例中,错位现象较为常见。GPT-4o经常将 互动与影响关系 分类为 因果关系 ,而DeepSeek R1则倾向于将类似案例分类为 形成与涌现关系 。此外,包括 功能与目的关系 和 数学关系 在内的几个类别完全没有一致性,意味着至少有一个模型很少使用这些类别。结果表明,GPT-4o和DeepSeek R1在分类科学文本时采用了不同的策略,导致分类不一致。

GPT-4o和DeepSeek R1类别分配的成对一致率热图。热图显示了两个模型在同一句子上分配相同类别的频率。

5.5 不同关系类别中的实体一致性

如图 3 所示,实体A的一致率通常高于实体B。仅绘制非零一致率的类别。某些类别,如 功能与目的 和 目的与功能 ,在两个实体上都表现出完全一致性,而其他类别,如 形成与涌现 (实体A为46.88%,实体B为31.25%)和 动作与变化 (实体A为42.13%,实体B为19.47%),显示出混合的一致性。

实体B的一致率在大多数类别中较低,有些接近零。总体而言,实体A的一致率为37.83%,实体B的一致率为19.08%。这种差异表明模型在解释上下文依赖关系方面存在不同,从而影响其关系提取的一致性。

GPT-4o和DeepSeek R1在不同关系类别中的实体一致性率。

5.6 错分类模式和常见差异

GPT-4o和DeepSeek R1经常对同一句子分配不同的类别。表 2 显示了一个例子。

通过手动检查数据集,发现了一些模式。 因果关系 经常与 互动与影响关系 混淆。 动作与变化关系 有时与 条件与规则关系 或 形成与涌现关系 重叠。测量相关的句子在 动作与变化关系 和 数量与测量关系 之间出现不匹配。在某些情况下,GPT-4o将“N/A”分配给DeepSeek R1检测到关系的地方。这些不一致表明DeepSeek R1考虑了GPT-4o经常忽略的结构关系。

5.7 总体比较性能和观察

我们的手动检查表明, GPT-4o 缺乏一致性。它经常将 动作与变化关系 误分类为 互动与影响关系 。一些标签遗漏了关键细节,例如在讨论成本相关问题时忽略了性能限制。相同的关联在相似背景下有时被分配了不同的类别。 DeepSeek R1 生成结构化输出但有不清楚的句子边界。它经常应用宽泛的类别,如 类别与类型关系 而不是 部分-整体关系 。物理属性如带宽有时被误分类为 数量与测量关系 。

6 结论与未来工作

本研究提供了对GPT-4o和DeepSeek R1在分类科学文本句子方面的早期比较。鉴于DeepSeek R1仅发布几周,其在专门任务中的表现尚未得到充分探索。我们的分析基于有限的数据集,尽管提供了一些初步见解,但需要更大规模的研究以得出更明确的结论。

人类评估主要是在验证重大差异的情况下进行的。更全面的评估,涉及多位专家对模型响应打分,将有助于更深入地理解其优缺点。此外,用于分类的预定义关系类别可能需要进一步改进。某些类别频繁发生错分类,表明调整或层次化结构可能会提高一致性。

未来的工作将集中在改进评估方法。例如,扩大研究范围以涵盖更广泛的科学文本,并改进分类框架以增强模型一致性,可以作为未来研究的方向。

原论文:https://arxiv.org/pdf/2503.0203

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐