人工智能合成数据:伦理隐忧与风险治理

文 | 江苏省习近平新时代中国特色社会主义思想研究中心中国矿业大学基地研究员 刘培


数据是驱动人工智能发展的“燃料”,训练人工智能模型尤其是大模型需要海量数据,但互联网中公开可用的数据已越发不能满足所需,甚至面临数据短缺困境。同时,一系列实践又表明,人工智能合成数据具有一定的有效性。由此,人工智能合成数据甚至被视为未来取代现实数据训练人工智能模型的主力。然而,在产业界对人工智能合成数据给予充分关注并大力推进之初,更需要从理论上前瞻性地思考:当训练数据不是真实数据而是合成数据时会发生什么?当基于合成数据的算法模型被广泛应用于医疗、自动驾驶、金融、零售等各个领域时,会产生什么样的伦理问题与社会影响?


伦理隐忧

人工智能合成数据是由计算机模拟技术或机器学习算法生成的自标注信息。作为真实数据的人工替代品,合成数据既能呈现原始数据的统计属性,又能实现数据合规性与效用之间的平衡,可以有效助推机器学习的发展。但与此同时,人工智能合成数据也带来了一系列社会伦理隐忧。这既包含一些普遍性问题,也包含合成数据所带来的“无风险神话”“隐式隐私”等独特性问题。

一是合成数据制造算法“无风险神话”。

训练数据集的偏差与可识别性是导致算法产生诸多社会伦理风险的主要原因。更进一步而言,数据具有“属人性”,数据的产生与人类的在线活动是同时的,由此数据集才映射数据主体的个人信息、蕴含人类社会偏见并导致数据集偏差,造成各种类型的算法风险。但合成数据的生成方式决定了它摆脱“属人性”而具有“虚构性”:数据增强、生成模型和模拟环境是合成数据的三种方式,它们从对现实数据进行局部修改,到利用生成对抗网络等模型生成,再到从完全虚拟的环境中生成,“属人性”迅速减弱而“虚构性”持续增强,直至与数据主体无任何直接关联。由此,在认知上形成了数据与风险之间的二分法:真实数据等于有风险,合成数据等于无风险。可以说,合成数据被视为一项无风险技术,是有效解决算法风险的良方。然而,在全面、客观、中立、无归属面具下的合成数据技术,实际上是一种特定的风险技术:不仅片面地将数据偏差视为算法风险的主要甚至唯一原因,忽视算法设计本身的因素,而且在抹去数据主体身份、性别、种族等特征的同时,实际上已成为一种新型的权力模式,决定着在社会和不同群体之间如何分配风险,并进一步建构人们对什么是风险与非风险的认知。

二是隐私保护与“隐式隐私”泄露的悖论。

由于合成数据既能保持原始数据的统计属性,又不由任何数据主体直接产生、不属于任何特定主体,因此被视为一种隐私增强技术,能够在发挥数据效用的同时有效保护个人身份信息。然而,在保护隐私的初衷下,合成数据的生成过程暗藏着隐私泄露的风险。由于当前合成数据的生成主要采取应用生成模型,尤其是生成对抗网络,它们不是完全从零开始创建合成数据,而是仍需要借助真实数据来训练。因此,尽管生成过程复杂,但仍存在“再识别”风险。尤其是合成数据与源数据过度拟合、合成数据中异常值遭遇成员推理攻击、合成数据无法防止的属性泄露三种情况,会导致合成数据存在较大的隐私泄露风险。由此,造成了作为隐私增强技术的合成数据却不能有效保护隐私的悖论。更进一步而言,此悖论升级了数字时代的隐私困境——自决困境:合成数据生成之初合规性地使用源数据,但在其后的二次利用甚至数次利用中,返回源数据主体并保障他们的信息自决权,或过于严苛或不切实际。由此,数据主体对自身数据是否披露与使用的终极掌控权也无从实现。

三是计算式数据生产方式与监控资本主义的强化。

监控资本主义通过对物联网用户在线生活世界的“无框”监视获取大量数据,通过数据预测与调整用户行为,以此谋求暴利甚至进行剥削。此种剥削方式虽隐蔽,但近年来也引发社会各界的批判,并促成了有关数据收集与监控法规的制定。在此情况下,互联网平台在调整监控策略、推进监控合规性的同时也面临着数据获取的困境。合成数据则由于具有“人造”的独特属性,不仅能够作为监控的替代品存在,更在深层次推动了数字生产技术自动运行的独立性,尤其是数据生产方式由监控转向计算生成。合成数据将作为监控对象的数据主体从数据生产中退出,以自组织、独立、封闭的数据生产技术彻底改变数据获取方式,实现机器“能力全面化”。由此,作为生产资料的数据,其流动与增长的主体性障碍被最大限度清除,资本逐利的固有本性不仅得以充分满足,而且将监控推向极致。

四是合成数据之“合理性”与人类决策权的转移。

通过高性能人工智能模拟而获得的合成数据,不指向任何真实的人、物与事件,但却比真实数据更真实,因为它能够以均匀的方式极尽现实世界的可能性。由此,合成数据可被视为一种“超真实”。当合成数据被广泛用于训练机器学习算法并应用于医疗、教育等各领域时,真实世界中事物的特征与属性以新的方式呈现可识别性,机器学习算法的一系列阈值也被重新配置,进而产生新的判断、可操作性建议并最终影响现实世界及其未来。可以说,合成数据的普遍应用意味着:一方面,从数据生成与数据输入的角度,作为“原型”的现实世界下降到“质料”,甚至在虚拟模型中实现了表面上数据生产的“无中生有”,真实也由此不断地被取代;另一方面,由合成数据所建构的“合理性”,在人类的自主决策中站稳脚跟,人类则进一步放弃了理性的控制权,转而将合成数据作为参与世界重构与再生的“合理性”。


风险治理

一是制定和完善涉及合成数据的监管框架,并监测其对社会的影响。

在合成数据生成环节,应制定生成合成数据的算法模型的评估标准,不仅要涵盖保真度、隐私性、多样性、实用性等关键性指标,更要对它们进行排序与权衡,使算法模型与未来可能面向的用户和用途相协调。由此,也形成了评估合成数据质量的指标体系,如保真度—多样性和隐私—效用。在数据使用与共享阶段,应增强合成数据的透明度,使数据应用者、决策者与决策对象清楚了解并逐渐信任“合成数据世界中的理性”。比如,利用多种形式的数据水印技术,给合成数据适当地贴上标签,以区分合成数据与真实数据,明确数据来源。此外,可以在已有数据法规的基础上,统筹推进合成数据应用的法规建设,并针对医疗保健、自动驾驶、金融、教育等主要应用领域的特点进行调整。

二是建构合成世界数据伦理与算法伦理。

人工智能合成数据技术建构了一种去物化的数字物的虚拟世界,即合成世界。人工智能合成数据塑造了去主体的数字物,在超越主体控制和凝视之外,它已不再是拉图尔意义上的物—人共同体,是物—物的物体间性共同体。换言之,合成数据在超脱现实生活世界和社会关系之上深度伪造了一个合成世界,反过来,合成世界按照自身预设的逻辑、规则去侵占、影响现实世界。此种物之形而上学的伦理风险不再是认知层面,而是存在论意义层面的意义之虚无。由此,要在合成世界建构以“物体间性”为核心的“合成伦理”,使主体参与到“物体间性”之中,在物与物的数字关联中纠缠、使用与掌握合成数据。


(来源:中国社会科学网)
本文转自:中国信息安全,转载此文目的在于传递更多信息,版权归原作者所有。

最新文章