一、DG4AI到底在说什么?

我最近在反思AI对数据治理领域的影响。各类主流机构纷纷提出了“ DG4AI”(Data Governance for Artificial Intelligence)的理念,但这个理念似乎还并未形成规模化的影响,这可能源于数据治理体系的成熟以及AI技术本身作为技术融入到体系而已。AI技术本身的爆炸点在国内市场由于DeepSeeK的出现轰炸了一圈,但我还是想反思一下“DG4AI”到底在说什么?

我理解的“DG4AI”更像是在说在数据治理体系内融合AI这项技术和工具,让治理工作更加高效、自动化、智能化,更为了治理成果能有效服务于业务。CCSATC601大数据技术标准推进委员会《面向人工智能的数据治理(DG4AI)实践指南 (1.0)》对此的定义是“指在人工智能应用中管理和控制数据的过程与实践,用以确保数据的质量、可靠性、安全性与合规性,数据能够被准确地用于训练和部署AI模型,同时保护数据的隐私和安全。”从我个人理解,这与数据治理理念想去甚远。

我个人更加倾向于站在数据治理体系的视角上,看人工智能技术与数据治理过程、数据业务的融合;作为一门技术赋能业务,而不仅仅是关注人工智能本身。

二、AI技术对数据治理的体系影响有多大?

我们以DAMA体系为参考,看看AI技术对数据治理的体系影响有多大。在原有的DAMA数据管理框架图(车轮图)中,更强调数据治理一体化治理与愿景、规划体系的契合度,在数据生命周期(数据建模和设计、数据存储和操作、数据集成和互操作、大数据存储、参考数据与主数据、文档与内容管理等)以及数据保护方面(安全、隐私等)等采用开放的态度融合技术。我们看DAMA环境因素六边形图,可以窥到DAMA体系是一个相当开放的体系,技术作为六边形中关键因素,赋能数据治理业务,真正实践了“云大物移智”全方位数字化转型的理念。

图片

我们再看DCMM框架,8个能力域28个能力项,从制定之处就缺少对技术和运营体系的描述,这属于其本身架构上的确实。

图片

但我们在实际项目中,实施数据治理项目,根据EA框架的指引,结合DCMM,融入技术和运营等框架来做灵活的框架设计和实施,并不囿于哪一个标准、哪一个体系,这可能正是数据治理的魅力吧。截止到目前为止,若问一句:数据治理的边界在哪里?我想没有一个人能清晰地说出来数据治理到底是什么,做到哪里就可以了。这是一个没有边界、处处充满可能,又无限延伸的业务。

所以在实际项目中,凡是能提升效率、提高数据质量、优化流程、改进业务的工具,都是好的工具,AI无疑首当其冲。

通过AI能力,主要赋能数据治理过程中这些领域

图片

元数据管理与数据血缘:借助AI工具,自动提取元数据,并实现术语与资产之间的相关关联关系,增强数据资产元数据实体条目;进一步,识别元数据关系,构建数据血缘图谱,形成可视化的图形或图表,增强数据关联分析能力。

数据分类与标签化:通过AI能力自动分析数据特征、结构和语义,并进行归类整合形成数据资产;也可对数据资产生成业务元数据,如摘要、关键词等,提升数据的可发现性和可访问性,驱动数据应用。

数据清洗与质量提升:通过AI技术,对数据进行预处理等操作,并结合数据标准实时监测数据指标异常并报警,实现自动或人工干预,以免脏数据传递到下游。尤其是多模态场景下,非结构化数据的自动清洗和结构化处理,通过特征提取、模型训练,提升训练结果。

三、现在的DG4AI市场格局如何?

谈论DG4AI市场,有点太大了,很多中小型数据治理领域的公司,都已经集成了很好的AI工具,并在实战中应用自如,互联网信息报道相对较少。

那么在元数据管理与数据血缘、数据分类与标签化、数据清洗与质量提升这三个领域,普遍都有很出色的AI工具或技术在应用。从目前的互联网能搜集到的信息来看,包括国外的一流企业声称将AI融入到数据治理工具中,并指导数据治理的实施;国内的企业从互联网信息来看主要是在产品中融入了AI的工具。至于融合之后使用的效果,我们不做评价。

图片

四、DeepSeek如何影响了数据治理的市场?

DeepSeek的出现,由于其开源化以及性能等优势,加速了推动市场多元化的进程,也促进了行业洗牌。

市场多元化进程:传统数据治理主要由少数巨头主导,中小型服务企业处于生态圈的外围。由于DeepSeek的出现,通过自动化和智能化工具,显著降低了企业在数据治理中的时间和人力成本。这使得中小企业也能够轻松实现高效的数据治理,推动了数据治理技术的普及和应用,尤其是数据治理实施方面,将有不可多得的优势。

行业洗牌:DeepSeek的开放性和合作姿态以及其高性能和低使用门槛,使得一些依赖传统数据治理技术的企业面临挑战,促进行业内的优胜劣汰;更多的企业通过生态合作的方式,实现资源共享和技术互补,也进一步加速市场格局的调整。

五、DeepSeek之后,还有没有新的引领者?

DeepSeek凭借其技术优势、开源策略、开放的姿态以及其广泛的应用场景支持,已经在AI领域取得了显著的领先地位,但未来是否会有新的引领者出现仍存在不确定性。

目前,市场上一个新的引领者-Manus。Manus是由Monica.im团队开发的全球首款真正意义上的通用AI Agent。与DeepSeek相比,Manus不仅仅是回答问题的对话式AI工具,而是一个能够独立思考、规划并执行复杂任务的自主智能体。

Manus代表了AI领域的一个重要进步,它不仅展示了技术上的突破,还强调了实用性,即如何将AI真正应用于解决实际问题。这种类型的创新可能会推动整个行业朝着更加智能化和自动化的方向发展。

潜在的新引领者及挑战主要来源于几个方面:

现有竞争对手的追赶:国内大厂如阿里、腾讯、百度、字节跳动等,以及一些专注于垂直领域的公司,都在积极布局AI领域。这些企业凭借其强大的技术实力、丰富的行业经验和广泛的用户基础,可能会在未来对DeepSeek构成挑战。

技术变革带来的新机遇:随着AI技术的不断发展,新的技术路线和创新模式可能会出现。例如,多模态融合、量子计算、密码与AI的结合等,可能会催生新的技术巨头。如果DeepSeek不能及时跟进这些技术变革,可能会在未来的市场竞争中失去优势。

开源生态的不确定性:虽然DeepSeek的开源策略为其带来了强大的开发者生态,但也面临着开源生态可能被其他开源项目分流的风险。此外,开源模式也可能导致技术扩散,使得竞争对手能够快速跟进和模仿。

政策和监管的影响:随着AI技术的广泛应用,相关的政策和监管也在不断加强。如果DeepSeek不能满足日益严格的合规要求,可能会对其市场拓展和业务发展带来不利影响。

六、作为个人,该何去何从?

作为个人数据治理领域从业者,与AI共存涉及到理解、适应和利用AI技术来提升行业技能、领域认知等。建议我们保持开放心态、学会与AI并跑、提升核心竞争力、保持自我认知,通过持续的学习,保持行业竞争力。

结尾的话

AI作为一门不新但目前如此繁荣的技术,开始与我们周围能感受到的工作和生活发生关系,通过AI与数据治理领域的不断融合,未来的发展趋势将不可限量。

本文来自公众号:数据那些事

更多关于数据治理的内容访问数据治理博客园 | 巨人肩膀

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐