Page 31 - 金融科技视界2023-2期

P. 31

Technical Tracking
技术追踪

址等个人身份信息，因为这些信息已经包含在GPT-2的训练数据
中。这无疑会对个人隐私保护产生不利影响。还有研究人员称，
ChatGPT经常在答案中重复和放大性别歧视及种族偏见，这是 04
因为它的训练文本是从互联网中截取出的，而这些文本往往包含

种族主义和性别歧视的语言，基于这种文本的概率分布训练出利用数据托管机制构建大模型
的大模型会被同样的偏见所“感染”。此外，研究人员还发现，这训练数据监管体系
类大模型在训练过程中还善于编造信息，包括杜撰历史日期和科

学规律，而且很容易掩人耳目。以上这些风险都会对大模型最终通常来说，数据活动相关方主
的输出结果造成不良影响，有的甚至可能对社会经济造成巨大要有六类—— 数据主体、数据处理
冲击，因此需要监管部门对大模型训练数据的来源进行必要的管者、数据使用者、监管机构、国家政
控，保证大模型的输出结果符合公序良俗和法律法规要求，进而府部门以及国际组织。数据主体产生
推动人工智能行业健康有序发展。原始数据；数据处理者采集和控制

特别需要指出的是，大模型输入侧的训练数据来源如果不是原始数据，并加工形成数据产品和服
互联网公开文本数据，通常需要数据主体的授权，否则会产生数务；数据使用者从数据处理者获取
据隐私保护和数据合规方面的问题。如前述所言，随着可用于训数据产品和服务，用于商业目的；监

练的互联网公开数据被逐步“耗尽”，发展大模型产业急需增加管机构按职责对行业进行监管，比如
合成数据的产能，而合成数据和互联网公开文本数据最大的区反洗钱、反垄断等；国家层面对数据
别是前者存在数据加工处理方。因此，对数据处理方的有效监管进行立法，并对数据跨境流动等进行
和对合成数据的有效治理以及数据权益分配就成为发展大模型管控；国际组织推动全球范围内的
产业的重中之重。数据标准和规范。这一生态存在的突

2023.2 金融科技视界 29

26 27 28 29 30 31 32 33 34 35 36