Page 31 - 金融科技视界2023-2期
P. 31
Technical Tracking
技术追踪
址等个人身份信息,因为这些信息已经包含在GPT-2的训练数据
中。这无疑会对个人隐私保护产生不利影响。还有研究人员称,
ChatGPT经常在答案中重复和放大性别歧视及种族偏见,这是 04
因为它的训练文本是从互联网中截取出的,而这些文本往往包含
种族主义和性别歧视的语言,基于这种文本的概率分布训练出 利用数据托管机制构建大模型
的大模型会被同样的偏见所“感染”。此外,研究人员还发现,这 训练数据监管体系
类大模型在训练过程中还善于编造信息,包括杜撰历史日期和科
学规律,而且很容易掩人耳目。以上这些风险都会对大模型最终 通常来说,数据活动相关方主
的输出结果造成不良影响,有的甚至可能对社会经济造成巨大 要有六类—— 数据主体、数据处理
冲击,因此需要监管部门对大模型训练数据的来源进行必要的管 者、数据使用者、监管机构、国家政
控,保证大模型的输出结果符合公序良俗和法律法规要求,进而 府部门以及国际组织。数据主体产生
推动人工智能行业健康有序发展。 原始数据;数据处理者采集和控制
特别需要指出的是,大模型输入侧的训练数据来源如果不是 原始数据,并加工形成数据产品和服
互联网公开文本数据,通常需要数据主体的授权,否则会产生数 务;数据使用者从数据处理者获取
据隐私保护和数据合规方面的问题。如前述所言,随着可用于训 数据产品和服务,用于商业目的;监
练的互联网公开数据被逐步“耗尽”,发展大模型产业急需增加 管机构按职责对行业进行监管,比如
合成数据的产能,而合成数据和互联网公开文本数据最大的区 反洗钱、反垄断等;国家层面对数据
别是前者存在数据加工处理方。因此,对数据处理方的有效监管 进行立法,并对数据跨境流动等进行
和对合成数据的有效治理以及数据权益分配就成为发展大模型 管控;国际组织推动全球范围内的
产业的重中之重。 数据标准和规范。这一生态存在的突
2023.2 金融科技视界 29