Page 32 - 金融科技视界2023-2期
P. 32
Technical Tracking
技术追踪
出问题是,传统的数据处理者过于强势,它们会利用技术优势和
场景优势垄断数据输入和输出,无法保证数据权益分配过程中
的公平性,对于监管机构来说也是一个黑盒子。
为了扭转上述困局,可以在数据活动中引入数据托管机构,
将数据的存储、使用、管理职责相分离,由专业的数据托管机构 数字经济高质量发展的关键是
承担数据存储,监督数据处理者的数据使用和服务,并收取和分 数据,抓住高质量数据这一“牛
配数据权益。数据权益主要分两块:一块是分配给数据主体的原 鼻子”,就能有效应对以数据为
始数据权益;另一块是分配给数据处理者的增值数据权益。数据 核心的科技创新和产业变革。
托管还可以支持监管机构、国家有权部门开展数据流动监管、执
法取证、数字税征收等方面工作。
为促进大模型训练数据的合规使用和高质量输出,需要加 一是重点发展基于AIGC技术
强对大模型训练数据的源头管控,特别是在国家层面对大模型训 的合成数据产业。以更高效率、更
练数据进行规范,而数据托管机制恰好可以成为大模型训练数 低成本、更高质量为数据要素市场
据监管的有力抓手。 “增量扩容”,助力打造面向人 工
可以考虑对大模型训练数据尤其是合成数据建立托管机 智能未来发展的数据优势。在强化
制。监管机构则通过对训练数据托管方的约束,进一步规范大模 数据要素优质供给方面,应统筹兼
型训练数据生产方和使用方的行为。数据托管方可按规定对大 顾自立自强和对外开放。可考虑对
模型训练数据来源、数据处理方的处理结果以及数据使用方的 Wikipedia、Reddit等特定数据源
数据流向和训练结果进行监测,确保大模型训练数据来源可靠, 建立过滤后的境内镜像站点,供国
在数据标准、数据质量、数据安全、隐私保护等方面依法合规, 内数据处理者使用。
以保障大模型输出结果的高质量并符合监管要求。 二是构建大模型训练数据的监
管体系。国家相关部门应对大模型训
练数据的处理和使用标准进行统一
05 规范;建立数据托管机制,对数据托
管方进行约束,要求数据托管方按照
大模型产业发展与合规监管思路 监管机构的规定对数据来源、处理
结果以及使用去向等进行监测,从而
数字经济高质量发展的关键是数据,抓住高质量数据这一 使得模型的输入、输出结果符合监管
“牛鼻子”,就能有效应对以数据为核心的科技创新和产业变 要求。
革。当前AIGC(AI Generated Content,人工智能自动生成内 三是探索基于可信机构或基于
容)和ChatGPT充分展现了高质量训练数据在产业价值创造中 可信技术的数据托管方式。数据托管
叠加倍增作用,大模型训练数据及其输出结果将会是未来社会 机构可以由相关机构组建数据托管
和生产中的一种重要的数据资产,其有序流转并合规使用也是发 行业联盟,以共建共享的方式建设;
展数字经济的应有之义。通过合理的机制理顺市场中各参与方 亦可利用区块链技术,基于联盟链或
的数据权益关系和分配格局,并加强训练数据的依法合规监管, 有管理的公链,完善源端数据治理
是促进大模型人工智能产业健康发展的关键。为此,笔者拟提出 机制,实现数据的链上托管、确权、
以下政策建议。 交易、流转与权益分配。
30 金融科技视界