大模型论文 | 通义千问发布IOPO，提升LLM的复杂指令跟随能力

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

Android老皮

1510人浏览 · 2024-11-18 11:53:16

Android老皮 · 2024-11-18 11:53:16 发布

1. IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization

在大语言模型（LLMs）的领域中，模型准确遵循指令的能力至关重要，因为越来越多的智能Agent和应用程序依赖LLMs进行构建，而指令的复杂性正在迅速提升。然而，一方面，只有有限的数据用于评估复杂指令；另一方面，缺乏专门的算法来提升遵循复杂指令的能力。为此，本文提出了一个名为TRACE的基准，包含120,000个训练数据和1,000个评估数据。此外，我们提出了IOPO（输入-输出偏好优化）对齐方法，该方法同时考虑输入和输出偏好对，使得LLMs不仅能够迅速与响应偏好对齐，还能细致探索指令偏好。在领域内和领域外数据集上的广泛实验验证了IOPO的有效性，与SFT相比，在领域内数据上提高了8.15%，在领域外数据上提高了6.29%；与DPO相比，在领域内数据上提高了2.18%，在领域外数据上提高了3.13%。

论文: https://arxiv.org/pdf/2411.06208

2. Autoregressive Models in Vision: A Survey

自回归建模在自然语言处理（NLP）领域取得了巨大成功。近年来，自回归模型在计算机视觉领域崭露头角，尤其在生成高质量视觉内容方面表现出色。NLP中的自回归模型通常基于子词标记。然而，在计算机视觉中，表示策略可以在像素级、标记级或尺度级等多个层次上有所不同，反映了视觉数据的多样性和层次结构，不同于语言的序列结构。本文综述了自回归模型在视觉领域的应用。为了提高不同研究背景的学者的可读性，我们首先提出了视觉领域的初步序列表示和建模。接着，我们将视觉自回归模型的基本框架分为三大类模型，包括基于像素、标记和尺度的模型，反映了表示策略的差异。然后，我们探讨了自回归模型与其他生成模型之间的联系。此外，我们还从多方面对计算机视觉中的自回归模型进行了分类，包括图像生成、视频生成、3D生成和多模态生成。我们还详细提出了它们在不同领域的应用，包括新兴领域如具身AI和3D医疗AI，附有约250篇相关参考文献。最后，我们指出了视觉自回归模型当前面临的挑战，并提出了潜在的研究方向。我们还建立了一个Github仓库，以组织本文综述中包含的论文，网址为：https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey。

论文: https://arxiv.org/pdf/2411.05902

3. KMM: Key Frame Mask Mamba for Extended Motion Generation

人类运动生成是计算机视觉领域的前沿研究领域，在视频创作、游戏开发和机器人操作等领域应用具有广泛的前景。最近，Mamba架构在高效建模长且复杂的序列方面显示出有希望的结果，然而仍存在两个主要挑战：首先，直接将Mamba应用于扩展运动生成是无效的，因为隐式记忆容量有限，导致记忆衰减。其次，Mamba在多模态融合方面不如Transformer强大，并且在与文本查询对齐方面存在不足之处，经常混淆方向（左或右）或省略较长文本查询的部分。为了解决上述挑战，我们的论文提出了三个关键贡献：首先，我们提出了KMM，这是一种新颖的架构，具备关键帧掩码建模能力，旨在增强Mamba在运动片段中对关键动作的关注度。这种方法解决了记忆衰减的问题，并代表了一种在SSMs中定制战略性帧级掩码的创新方法。此外，我们设计了一种对比学习范式，以解决Mamba中的多模态融合问题并提高运动-文本对齐度。最后，我们在基准数据集BABEL上进行了广泛的实验，实现了最先进的性能，与以前最先进的方法相比，FID减少了超过57%，参数减少了70%。请参见项目网站：https://steve-zeyu-zhang.github.io/KMM

论文: https://arxiv.org/pdf/2411.06481

4. Game-theoretic LLM: Agent Workflow for Negotiation Games

本文探讨了大语言模型（LLMs）在战略决策中的理性性，特别是在博弈论框架下的具体情境。我们评估了几种最先进的LLMs在完全信息和不完全信息博弈中的表现。研究发现，LLMs经常偏离理性策略，尤其是在游戏复杂性增加、顺序树更深时更为明显。

为解决这些局限，我们设计了多种博弈论工作流，以指导LLMs的推理和决策过程。这些工作流旨在增强模型计算纳什均衡和做出理性选择的能力，即使在不确定性条件下也是如此。实验结果表明，采用这些工作流显著提高了LLMs在博弈论任务中的理性性和稳健性。具体而言，使用工作流后，LLMs在识别最优策略、在谈判场景中实现近最优分配以及减少谈判中的可利用性方面表现出明显的改进。

论文: https://arxiv.org/pdf/2411.05990

5. Counterfactual Generation from Language Models

理解并操控语言模型中的因果生成机制对于控制其行为至关重要。先前的工作主要依赖于诸如模型消融或与特定概念相关的线性子空间的操作等技术，来干预这些模型。为了精确理解干预的影响，检查反事实是有帮助的——例如，特定干预后给定句子原本会是如何出现的。我们强调反事实推理与干预在因果层级中的概念是不同的。基于这一观察，我们提出了一种框架，通过将语言模型重新表述为使用Gumbel-max技巧的广义结构方程模型来生成真实的字符串反事实。这使得我们可以建模原始字符串及其反事实的联合分布，这些反事实是由相同的采样噪声实例化产生的。我们开发了一种基于后知后觉Gumbel采样的算法，允许我们推断潜在噪声变量并生成观测字符串的反事实。我们的实验表明，该方法生成了有意义的反事实，同时也显示了常用干预技术有相当大的不可欲副作用。

论文: https://arxiv.org/pdf/2411.07180

最后分享

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

2026 国内大模型 API 中转选型笔记:从接入成本到长期维护的几个观察

国内团队接入大模型时，API中转站选型需综合考虑多个维度。首先关注接入兼容性和稳定性，确保支持OpenAI/Anthropic/Gemini协议；其次考察模型覆盖范围，包括GPT、Claude等主流模型及国产开源模型同步速度；企业级需求需评估子账号管理、对公发票等配套服务。价格策略分透传派、接近官方价派和折扣促销派，建议谨慎评估过低折扣的稳定性。测试时应重点验证长文本、流式输出等场景，并关注模型I