大模型驱动的数据清洗与数据合规技术展望

李直旭老师，数据科学重点实验室主任助理

导读：近年来，大模型技术热潮中对数据质量的要求提升到了一个新的高度。与此同时，人们也在探索大模型本身能否助力于数据清洗与数据治理等工作。本文将从技术的角度展望大模型驱动的数据治理技术，并分享复旦大学在此领域的一些研究热点。

主要内容包括以下几个部分：

1.以数据为中心的人工智能2. 大模型预训练中的数据工程3. 大模型驱动的数据治理技术4. 总结与展望

01.以数据为中心的人工智能

以数据为中心的人工智能，这一理念在 2021年由吴恩达教授提出，强调了在构建 AI系统时，对数据的系统化工程处理的重要性。与过去以模型为中心的方法相比，以数据为中心的方法更加注重数据的质量、多样性和治理流程。在早期的机器学习和深度学习时代，我们主要关注特征工程、模型设计和参数制定等方面，但如今，数据的质量和治理已成为决定 AI系统性能的关键因素。在大模型时代，我们不再需要过多关注特征工程和模型层面的变动，而是将更多的精力投入到数据的治理上，即如何通过有效的数据管理和迭代，使数据发挥更大的价值。

数据是 AI的原油，AI系统的成功在很大程度上取决于数据的质量，这一点被广泛认同。一个 AI系统 80%的工作量集中在前期的预训练数据准备和后期的数据飞轮迭代上。

对于如何定义优质的数据，张博士的论文中提出了几个关键维度：覆盖范围广、维度多样、时效性强、精度高以及合规性好。这些维度不仅反映了小模型对数据的要求，在大模型预训练时代更是显得至关重要。我们需要的是具有多样性和泛化能力的数据，以确保AI模型在各种场景下都能表现出色。

在以数据为中心的 AI框架中，数据开发通常分为三个阶段：训练数据的开发、推理数据的开发和数据维护。训练数据的开发包括数据的收集、标注和预处理等步骤。推理数据的开发涉及训练样本评估与提示工程等。数据的维护则关注于当后续不断有新数据产生时，对于数据的理解与质量管控，以及数据的存储和检索等任务。以上是以数据为中心的人工智能的整体思路。

02大模型预训练中的数据工程

在大模型的预训练过程中，数据工程的工作量显著增加。以 GPT为例，实际训练中使用的数据涵盖了多个层面，我们需要收集大量的语料库，其原始大小为 45TB，清洗完之后剩下 175GB。此外还融合丰富的代码数据及上万个 Prompt任务参与训练。实际上，成本及创意主要在数据准备上，对于 Transformer技术的运用，大家的使用方法都大同小异。

对于某些特定领域的表达与通用领域存在差异时，如专业术语或符号，我们可能需要进行词表的扩充，以确保模型能够准确地理解这些表达。

纵观 GPT的发展历史，从 2018年到 2020年，我们不难发现，随着模型参数的逐步增加，数据规模也在同步扩大。例如，GPT-1虽然只有 1亿多参数，但它已经使用了 4.8GB的未过滤数据。到了 GPT-2，参数数量增至 15亿，数据规模扩大了 10倍，并且这些数据还经过了人工过滤，进一步提升了数据质量。到了 GPT-3，算力提升了近百倍，数据量也大幅增加，从 45TB的原始数据中过滤出了 570GB的数据。因此，尽管参数庞大和算力强大是 GPT模型的显著特点，但背后的核心在于海量的数据输入。没有足够的数据支持，再强大的算力也难以发挥作用，正所谓“巧妇难为无米之炊”。数据的丰富性和质量对于模型的训练至关重要。另一方面，我们观察到整个模型的架构其实并未发生显著变化。真正在起作用的是 scaling law（伸缩法则），即随着模型规模和数据量的增加，模型的性能也会相应提升。

当我们深入探究时，会发现数据来源的多样性和合适的数据配比同样至关重要，这些因素往往决定着模型的成败。我们所熟知的 GPT，以及其他大型模型如 LLaMA，它们的数据都是多维度的。除了高质量的百科、书籍、期刊等数据外，互联网上的各类数据，如 Common Crawl和 Reddit链接等，也是不可或缺的。我们不能仅仅依赖高质量的数据，而忽视互联网上更多样化的数据资源，这些数据共同构成了完整的人类语言体系和知识体系。此外，随着 Sora等技术的兴起，多模态数据也迎来了新的高潮。多模态数据，尽管主要是图文结合，但也来源于众多不同的渠道，是从各种地方精心收集的。

其实，Sora的强大也源于其预训练数据的精心准备，其训练数据包含了三个核心组成部分：首先是不同比例的视频图像，其次是帧级的画面文本描述，最后是视频内容的总结。这种三维度的数据结合，构成了 Sora独特的训练基础。

在构造这一训练数据时，有几个核心的数据工程策略发挥了关键作用。首先是数据来源的广泛收集，Sora团队不仅从 YouTube等大量视频网站上获取了丰富的视频资源，还涵盖了优酷等国内平台以及各类体育视频，确保了数据的多样性和广泛性。不仅如此，Sora的数据处理并非简单地拿来就用。原始视频和对应文本往往需要进一步完善，Sora利用其自身的 GPT 4v和 Dolly three等技术进行数据层面的深度加工，如为画面生成对应文字，再根据这些文字生成新的画面，形成了一个迭代的图文同步过程。此外，合成数据多也是当下预训练大模型一个显著的特点。据有关机构预测，到 2025-2030年现有的真实数据资源将基本耗尽。大型模型对数据的需求极其庞大，数据消耗速度惊人。此外，许多真实数据涉及隐私问题，不能随意使用，因此未来依赖合成数据不可避免。据猜测，Sora可能使用了 3D引擎或 UE 5合成大量视频进行训练，这从其生成画面中的某些特点可以得到佐证。

近期有文章指出，各大科技巨头都在为 AI大模型收集和生成合成数据而努力。这意味着，除了 Sora，其他公司也在积极寻求数据解决方案。因此，我们不应将数据层面的工作视为低级劳动，实际上，这是一项至关重要的任务，需要投入大量精力，甚至可以说，80%的工作量都应集中于此。以 OpenAI为例，他们进行了大量数据转录工作。由于部分数据存在合法性问题，他们不能直接使用，因此采取了转录的方式，包括转录视频平台和播客上的有声视频数据，并在转录过程中进行了敏感信息处理。此外，有一种观点认为，高质量数据是生成式 AI的“黄金”。大模型的创新能力主要来源于组合式创新，即在看过足够多的组合方式后，根据所见内容生成新的组合。这种创新方式，或许可以被看作是一种新式的“抄袭式创新”。然而，整体的框架叙述方式仍然以模仿为基石。因此，包括 Meta在内的其他公司为了追赶行业趋势，也在大量购买版权，并修改隐私保护条例，以确保数据的合法性。未来的合成数据必将成为主流。

在探讨大模型行业落地时，我们可以遵循一个整体的框架，这个框架依然是以 AI为中心的数据工程的三个核心步骤，训练数据开发阶段的数据准备、推理数据开发阶段的工作以及数据维护阶段的任务。在训练数据开发阶段，我们需要进行数据的收集、必要的标注、相关的数据清洗，以及对数据量的调整，比如缩减过多的数据或增强较少的数据。

进入推理数据开发阶段，我们关注的是与提示工程相关的数据。例如，对 prompt进行微调时，我们需要准备相应的微调数据以进行有效的评估。此外，后续的数据理解、数据质量保证等工作也是不可或缺的环节。

以我们实验室参与的招投标领域大模型项目为例，项目的核心目标是利用招投标数据训练一个大模型，以实现招投标文件关键点的识别、文件的编写、审核以及评估。尽管这些应用集中在招投标行业，但它们实际上代表了多个领域中的通用需求：信息抽取、文档编写、内容审核和质量评估。在数据准备阶段，我们面临了诸多挑战。首先，我们获得了大量混合图表的 PDF文件，对其进行了严格的质量筛选，包括语言层面、统计层面和关键词层面的考量，去除重复和不必要的文件，去除隐私保护数据，以及词元化处理。

综上所述，以数据为中心是大模型的特色。做好预训练数据的数据治理是预训练大模型成败的关键一环。大模型行业落地的预训练、微调等各个环节都需要数据治理。

03大模型驱动的数据治理技术

我们认识到大模型对数据治理的需求。然而，这种关系并非单向的。实际上，大模型凭借其强大的数据认知能力，也有潜力在数据治理方面发挥重要作用。因此，大模型不仅需要数据治理来优化其性能，而且它本身也能成为数据治理的重要工具。接下来介绍一下行业背景。

在当前数字化迅猛发展的时代，数据治理的场景变得日益复杂，其难度也随之急剧增加。我们面临的挑战主要体现在四个关键方面。首先，数据治理涉及多个行业和领域，每个领域都有其独特的数据标准、规范和要求，数据治理的策略和流程需根据每个行业的特性来定制，无法简单地复制粘贴。其次，随着技术的进步和应用的日益广泛，数据的形式也更加丰富多样。从传统的结构化数据到现在的非结构化数据、多模态数据等，数据治理的范围已经大大扩展。尤其对于训练行业大模型而言，处理各种模态的数据变得至关重要。再者，数据治理的规划变得复杂且琐碎。隐私保护、数据安全、数据清洗、合规性检查以及数据的存储、检索和使用等都是数据治理的重要组成部分，然而，这些工作不仅需要专业的技术和知识，还需要实时跟踪不断变化的政策和要求。在动态复杂的市场环境下，特别是在数据要素市场日益活跃的今天，数据治理的准确性和高效性更是关系到数据能否被有效利用和交易。

另一个研究背景为，小模型难以应对日益复杂的数据治理需求。以错误数据的发现和修复为例，现有的方法往往局限于数据库或数据仓库中的表格数据，依赖完整性约束发现数据间的矛盾，或与外部的数据源进行比对排查，或将其建模为有监督任务，如专门针对城市（city）或邮编（zip code）设计机器学习模型进行修正和二次判断，但整个流程的适用性仍然有限。

在多源数据融合和规范化方面，传统的小模型也面临类似挑战。早期的解决方案包括规则引擎或专家系统，通过定义规则或利用专家知识来进行数据融合，比如字符串的相似度达到多少，或者建立词表进行对应。此外，还有将问题建模为语义匹配任务，利用表示学习、度量学习和对比学习等方法来度量字段之间的相似度，并训练监督模型以进行匹配。然而，这些方法同样存在局限性，它们通常需要大量的标注数据或提供足够多的专家知识。

传统的合规性检查，如建筑行业的图纸审查，通常依赖于经验丰富的专家人工进行细致的检查，对照着厚厚的国家标准和行业标准，逐项核实是否符合要求。这种方法不仅费时费力，而且难以适应大规模和高效率的需求。

为了应对这些挑战，我们逐渐引入了基于规则、统计和机器学习的方法。这些方法虽然能够减轻人工负担，但同样需要建立全面的风险点模型并进行预判。例如，在隐私数据采集流程中，某网站开发了基于欧盟通用数据保护条例（GDPR）的数据合规检查系统。这个平台允许外部开发人员将 GDPR中的合规性规则写到这个系统内去进行对应的检查，对网站等在线平台的数据收集、使用和保护进行监管。然而，即使这样的平台已经实现了高度集成化，但仍然难以适应所有场景。

在这里，大模型的优势变得尤为明显。大模型之所以具有带来重大革新契机的潜力，主要源于其四大显著优势。

首先，大模型通过海量的数据训练，积累了丰富的知识储备，这使得它能够理解和认知各类形式的数据，并具备一定的数据模式理解能力。这种能力使得大模型在处理复杂和多样化的数据时表现出色。

其次，大模型能够基于领域语料进行预训练，快速掌握领域知识。通过少量的数据指令微调，大模型能够迅速适应不同的领域数据治理任务。这种预训练加微调的方式，已经成为大模型落地应用的常见策略，为数据治理提供了极大的便利。

第三，大模型能够应对模态丰富的数据。在如今多模态大数据盛行的时代，大模型展现出了卓越的性能。它能够处理包括文本、图像、音频等在内的多种模态数据，为数据治理提供了更广泛的可能性。

最后，大模型的 Agent（自治智能体）功能使得自动化数据操控和数据治理规划成为可能。Agent本身具备规划和策划的能力，结合大模型的海量数据和模式理解能力，可以实现复杂场景的决策和规划任务。尽管目前这一功能需要依赖真正的大规模大模型，但未来随着技术的不断进步，我们希望大模型能够适配或者胜任更多复杂场景的决策和规划任务。

目前大模型驱动的数据治理技术研究才刚刚起步。如上图中的两个例子，左侧为通过向大模型提供两个表格，并辅以简短的说明，大模型便能够识别出这两个表格中是否存在数据不一致或错误，并据此进行错误检测；右侧为大模型能够根据给定的示例，直接判断数据中是否存在潜在错误。可以看到，目前大模型在数据治理领域的应用还是相对基础的。

然而，要充分发挥大模型在数据治理中的作用，我们面临着诸多挑战。首先，我们需要构建一个安全可信的大模型，这涉及到训练语料的质量控制、价值对齐机制的建立以及结果校验方式的完善。为了确保大模型的有效性，我们需要提供高质量的训练数据，并设计合理的价值判断标准和结果验证方法。其次，我们需要研究如何使大模型更好地助力真实场景的数据清洗工作，这包括利用大模型对不同模态、不同形式的领域数据进行错误修正、补全和融合等处理。同时，我们还需要关注大模型在合规性检查方面的应用，让大模型高效地动态学习和对齐政策规定，并准确地完成合规检查。最后，我们需要探索如何提升大模型对数据治理的决策规划能力。

总体来说，安全可信、数据清洗、合规检查、方案规划是构建以大模型为驱动的数据治理的四个主要研究内容。然而，这些内容背后隐藏着诸多科学问题和挑战，需要我们深入探索。首先是大模型的安全治理，如何保障数据层面的科学有效；然后是持续对齐，数据治理的政策是不断变化的，怎么让大模型对齐到数据治理的机制上；第三是决策规划问题，大模型本身的决策规划能力是有待进一步提升的，尤其在数据治理的场景下，怎么样让它变得越来越好。

接下来，分享一下我们研究团队近期在几个关键领域的工作进展。

首先是基于大模型驱动的属性值规范化。在现有的知识图谱和数据库中，我们发现了各种属性的多样化表达，比如“gender”（性别）这一属性，尽管它本质上只分为男性和女性，但在我们的数据库中，我们发现了仅“男性”这一属性就有十几种不同的英文表述方式。手动由专家枚举所有这些别名是一项极为耗时且繁琐的任务，而大模型凭借其卓越的语言处理能力，能够轻松地识别出这些相似的词汇，可极大提高属性值规范化的效率。

第二个是地理数据清洗的工作。地址信息在现代社会中至关重要，无论是快递配送、外卖服务，还是公司注册地址、政府信息登记等，都依赖于准确和一致的地址数据。然而，由于个人的表述习惯和参照物不同，同一个地点可能有多种不同的描述方式。在这种情况下，大模型的语言理解能力为我们提供了有力的支持，帮助我们更有效地清洗和整合这些地理数据，在与地理信息相关的应用上具有较大的落地价值。然而，我们也意识到，仅仅依靠大模型是不够的，需要结合地理信息中的经纬度计算技术，以更精确地处理地理位置信息。毕竟，大模型本质上是一个语言模型，它无法完全胜任地理空间位置的计算任务，比如“某某路口向西 100米”这样的描述，仍需通过 GIS技术进行处理。

我们与科大讯飞合作开展了一项关于设计图纸合规性检查的项目。该项目旨在处理大量的国家规范和企业规范，确保图纸的设计符合这些标准。我们利用大模型作为离线引擎，迅速理解并解析这些规范，将它们转化为易于执行和审查的规则。通过与图谱技术的结合，更高效地执行合规性检查。这一技术的应用为设计师们带来了便利。如今，当设计师在设计楼宇时，他们可以即时询问特定部分（如窗台）是否符合国家标准，系统会迅速列出或检索到相关的标准信息。

我们还探索了大模型在视频流多模态实体链接方面的应用。以直播带货为例，各种商品和品牌的表达方式繁多且差异巨大。我们利用大模型的强大能力，将这些看似千差万别的数据有效地关联起来，准确识别出主播正在推销的具体商品。这项技术为观众带来了极大的便利，他们可以在直播中精准定位到自己感兴趣的商品，并在相应时刻获得提醒，从而节省了观看时间。

在跨模态图文检索方面，我们与阿里合作，共同构建了一个细粒度的图文检索数据集，通过大模型的加持，显著增强了检索效果。

此外，我们与华为合作开展多模态教育领域的知识图谱构建。华为拥有海量的教育资源，包括文本、图片、语音和视频等多种形式，这些资源中的信息表达方式千差万别。我们的任务是将这些丰富多样的内容整理并挂载到现有的知识图谱上，以实现教育资源的有效整合和利用。我们利用大模型的能力进行知识点的识别和挂载。

总结与展望

大模型预训练需要数据治理技术，数据治理技术也需要大模型加持。基于小模型的数据治理技术难以满足日益增长的海量数据治理需求。基于大模型的数据治理技术研究刚刚起步，方兴未艾。大模型可以首先在数据清洗和数据合规上发挥重要价值。大模型智能体技术有望解决复杂数据治理场景的决策规划问题。

以上就是本次分享的内容，谢谢大家。

分享嘉宾介绍：

李直旭，复旦大学计算机科学技术学院研究员、博士生导师，上海市数据科学重点实验室主任助理，复旦大学知识工场实验室执行副主任，曾兼任科大讯飞苏州研究院副院长，博士毕业于澳大利亚昆士兰大学，主要研究方向为认知智能与知识工程、多模态知识图谱、大数据分析与挖掘等。在领域主流期刊和国际会议上发表论文近200篇，主持十余项国家和省部级科研项目。

《大数据》期刊	华东师范大学数据科学与工程研究院	中国科学院虚拟经济与数据科学研究中心	上海世纪出版股份有限公司科学技术出版社
CCF大数据专家委员会	中关村大数据产业与创新联盟	农业大学数据产业技术创新战略联盟	上海市科学技术委员会