【AI论文】面向数据合成的大型语言模型

摘要：本研究提出LLMSynthor框架，利用大型语言模型（LLMs）作为非参数Copula模拟器生成统计对齐的合成数据。传统方法受限于参数假设和高维数据处理，而LLMSynthor通过迭代合成循环和LLMProposalSampling技术，有效捕捉高阶依赖关系并提升采样效率。实验表明，该框架在电子商务、人口统计和流动性分析等隐私敏感领域，生成的数据具有高度统计保真度和实用性。尽管存在行为偏差和

东临碣石82

1242人浏览 · 2025-06-06 07:00:00

东临碣石82 · 2025-06-06 07:00:00 发布

摘要：生成能够忠实地捕捉现实世界分布的统计结构的合成数据是数据建模的一个基本挑战。经典方法通常依赖于强参数假设或手动结构设计，在高维或异构领域中难以实现。大型语言模型（LLMs）的最新进展揭示了它们作为灵活的高维先验在现实世界分布中的潜力。然而，当应用于数据合成时，标准的基于LLM的采样效率低下，受到固定上下文限制的约束，并且无法确保统计对齐。鉴于此，我们引入了LLMSynthor，这是一个通用的数据合成框架，它将LLM转换为在分布反馈指导下具有结构意识的模拟器。 LLMSynthor将LLM视为非参数Copula模拟器，用于建模高阶依赖关系，并引入LLM Proposal Sampling来生成有根据的提案分布，从而提高采样效率，而无需拒绝。通过最小化汇总统计空间中的差异，迭代合成循环对齐真实和合成数据，同时逐渐发现和改进潜在的生成结构。我们在隐私敏感领域（如电子商务、人口和流动性）使用异构数据集在受控和现实环境中评估LLMSynthor，这些数据集包含结构化和非结构化格式。 LLMSynthor生成的合成数据具有高度的统计保真度、实用性和跨数据适应性，使其成为经济学、社会科学、城市研究等领域的有价值的工具。Huggingface链接：Paper page，论文链接：2505.14752

研究背景和目的

研究背景

在当今数字化时代，数据作为驱动科学研究、技术创新和政策制定的核心资源，其质量和可用性对于各个领域的发展至关重要。然而，在许多实际应用场景中，获取真实、高质量的数据往往面临诸多挑战，如数据隐私保护、数据获取成本高昂、数据稀缺性以及数据异构性等。特别是在涉及个人隐私、商业机密或国家安全的领域，直接使用真实数据进行研究和分析往往受到严格限制。因此，如何生成既能够忠实反映现实世界分布特性，又能够有效保护隐私的合成数据，成为了数据建模领域的一个关键挑战。

传统上，数据合成方法主要依赖于强参数假设或手动结构设计，这些方法在处理低维、同构数据时可能表现良好，但在面对高维、异构数据时则显得力不从心。近年来，随着大型语言模型（LLMs）在自然语言处理领域的显著成功，研究人员开始探索将LLMs应用于数据合成任务中，以期利用其强大的表示学习能力和泛化能力来生成高质量的合成数据。

研究目的

本研究旨在提出一种基于大型语言模型（LLMs）的通用数据合成框架——LLMSynthor，该框架旨在解决传统数据合成方法在高维、异构数据上的局限性，同时克服基于LLMs的标准采样方法在效率、上下文限制和统计对齐方面的不足。具体而言，本研究的目标包括：

开发一种高效的数据合成框架：通过利用LLMs的强大表示学习能力，将LLMs转化为结构感知的模拟器，以指导合成数据的生成过程，从而提高合成数据的质量和多样性。
确保统计对齐和隐私保护：通过迭代合成循环和分布反馈机制，最小化真实数据与合成数据在汇总统计空间中的差异，同时确保合成数据不泄露真实数据中的敏感信息。
验证框架的有效性和通用性：在受控环境和真实世界场景中，使用异构数据集评估LLMSynthor的性能，展示其在不同领域（如电子商务、人口统计、流动性分析等）中的广泛应用潜力。

研究方法

1. 框架设计

LLMSynthor框架的核心思想是将LLMs视为非参数Copula模拟器，用于建模高阶依赖关系，并通过LLM Proposal Sampling生成有根据的提案分布，以提高采样效率。具体而言，该框架包括以下关键组件：

统计汇总（Statistical Summarization）：对真实数据集和合成数据集进行统计汇总，提取汇总统计量（如边际统计量和联合统计量），以表示数据的结构信号。
依赖推断（Dependency Inference）：将LLMs建模为非参数Copula模拟器，根据汇总统计量推断变量之间的联合结构组件，以捕捉高阶依赖关系。
结构接地（Structure Grounding）：通过比较真实数据与合成数据在汇总统计空间中的差异，生成差异信号，用于指导LLMs调整生成过程，以减少统计差异。
LLM Proposal Sampling：根据推断的联合结构组件、真实数据的汇总统计量和差异信号，LLMs生成提案分布，从中抽取样本以形成新的合成数据集。

2. 迭代合成循环

LLMSynthor采用迭代合成循环来逐步改进合成数据的质量。在每次迭代中，框架根据当前合成数据集与真实数据集在汇总统计空间中的差异，调整LLMs的生成过程，生成新的提案分布，并从中抽取样本以更新合成数据集。通过多次迭代，合成数据集逐渐逼近真实数据集的分布特性。

3. 理论保证

本研究通过理论分析证明了，在温和条件下，所提出的迭代过程能够逐步减少合成数据与真实数据在局部结构上的差异。这一理论保证为LLMSynthor框架的有效性提供了坚实的数学基础。

研究结果

1. 电子商务交易合成

在电子商务交易合成任务中，LLMSynthor框架在边际和联合分布评估指标上均取得了显著优于基线方法的表现。具体而言，通过比较真实数据与合成数据在变量分布和结构依赖关系上的差异，发现LLMSynthor生成的合成数据在Wasserstein距离、总变异距离和分类器两样本测试间隙等方面均表现出更低的差异值。此外，通过下游任务评估（如逻辑回归、决策树和随机森林等分类任务），进一步验证了LLMSynthor合成数据在实用性方面的优势。

2. 人口统计合成

在人口统计合成任务中，LLMSynthor框架同样展现出了卓越的性能。通过比较真实人口数据与合成人口数据在多个政策相关查询上的结果，发现LLMSynthor在所有查询类别上的平均相对误差均显著低于基线方法。这一结果表明，LLMSynthor能够更准确地捕捉真实人口数据的复杂结构和依赖关系，生成具有更高实用价值的合成人口数据。

3. 流动性分析合成

在流动性分析合成任务中，LLMSynthor框架成功生成了与真实流动性数据在时空分布和行为模式上高度一致的合成数据。通过比较真实流动性数据与合成流动性数据在时间-活动热图、OD流强度热图等方面的差异，发现LLMSynthor生成的合成数据能够准确反映人们的日常出行模式和空间分布特征。此外，通过模拟特定事件（如音乐会）对流动性模式的影响，进一步验证了LLMSynthor在可控流动性合成方面的潜力。

研究局限

尽管LLMSynthor框架在多个数据合成任务中展现出了卓越的性能，但仍存在一些局限性：

行为先验的潜在偏差：LLMs编码了强大的行为先验，这些先验有时可能与真实世界数据不一致，从而引入偏差。这可以通过更严格的提示设计或在生成过程中移除语义线索来缓解。
高维设置下的可扩展性：目前，LLMSynthor框架在极高维设置（如包含数百或数千个变量的数据集）下的可扩展性有限，因为性能依赖于LLMs的上下文窗口和推理能力。然而，随着未来LLMs的发展，这一问题有望得到解决。
感知或顺序数据的适用性：虽然LLMSynthor框架在混合类型独立同分布数据上表现良好，但对于感知或顺序数据（如图像或时间序列）的适用性较差。然而，它可以作为高级控制器来指导特定领域的生成器处理这些模态的数据。
隐私保证：尽管LLMSynthor框架通过汇总统计对齐生成过程，而非记忆或复制单个记录，从而在一定程度上减少了直接重新识别和暴露敏感数据的风险，但它并未明确纳入差分隐私等正式隐私保证。

未来研究方向

基于LLMSynthor框架的研究结果和局限性，未来的研究可以沿着以下几个方向展开：

优化行为先验：探索如何通过更精细的提示工程或结合其他技术（如强化学习）来优化LLMs的行为先验，以减少与真实世界数据的偏差。
提升高维设置下的可扩展性：研究如何利用更先进的LLMs架构或算法改进来提升LLMSynthor框架在高维设置下的可扩展性，以满足更大规模数据合成任务的需求。
扩展至感知或顺序数据：开发针对感知或顺序数据的特定领域生成器，并与LLMSynthor框架相结合，以实现对这些类型数据的合成。这将有助于拓宽LLMSynthor框架的应用范围。
加强隐私保护：研究如何将差分隐私等正式隐私保证机制融入LLMSynthor框架中，以确保在生成合成数据的过程中充分保护原始数据的隐私性。
探索更多应用场景：将LLMSynthor框架应用于更多领域和场景中，如医疗健康、金融分析、智能交通等，以验证其广泛适用性和价值。通过不断拓展应用场景，可以进一步挖掘LLMSynthor框架的潜力，并推动数据合成技术的发展和应用。