Page 31 - 金融科技视界2023-2期
P. 31

Technical Tracking
                                                                                                  技术追踪




            址等个人身份信息,因为这些信息已经包含在GPT-2的训练数据
            中。这无疑会对个人隐私保护产生不利影响。还有研究人员称,
            ChatGPT经常在答案中重复和放大性别歧视及种族偏见,这是                                                  04
            因为它的训练文本是从互联网中截取出的,而这些文本往往包含

            种族主义和性别歧视的语言,基于这种文本的概率分布训练出                                       利用数据托管机制构建大模型
            的大模型会被同样的偏见所“感染”。此外,研究人员还发现,这                                           训练数据监管体系
            类大模型在训练过程中还善于编造信息,包括杜撰历史日期和科

            学规律,而且很容易掩人耳目。以上这些风险都会对大模型最终                                          通常来说,数据活动相关方主
            的输出结果造成不良影响,有的甚至可能对社会经济造成巨大                                       要有六类—— 数据主体、数据处理
            冲击,因此需要监管部门对大模型训练数据的来源进行必要的管                                      者、数据使用者、监管机构、国家政
            控,保证大模型的输出结果符合公序良俗和法律法规要求,进而                                      府部门以及国际组织。数据主体产生
            推动人工智能行业健康有序发展。                                                   原始数据;数据处理者采集和控制

                特别需要指出的是,大模型输入侧的训练数据来源如果不是                                    原始数据,并加工形成数据产品和服
            互联网公开文本数据,通常需要数据主体的授权,否则会产生数                                      务;数据使用者从数据处理者获取
            据隐私保护和数据合规方面的问题。如前述所言,随着可用于训                                      数据产品和服务,用于商业目的;监

            练的互联网公开数据被逐步“耗尽”,发展大模型产业急需增加                                      管机构按职责对行业进行监管,比如
            合成数据的产能,而合成数据和互联网公开文本数据最大的区                                       反洗钱、反垄断等;国家层面对数据
            别是前者存在数据加工处理方。因此,对数据处理方的有效监管                                      进行立法,并对数据跨境流动等进行
            和对合成数据的有效治理以及数据权益分配就成为发展大模型                                       管控;国际组织推动全球范围内的
            产业的重中之重。                                                          数据标准和规范。这一生态存在的突








































                                                                                        2023.2  金融科技视界     29
   26   27   28   29   30   31   32   33   34   35   36