Page 30 - 金融科技视界2023-2期
P. 30

Technical Tracking
              技术追踪




            型训练数据中与金融领域相关的数据筛选出来,这样可以提升                                       可以预见,合成数据作为数据要素
            模型生成的文本与金融领域的匹配程度,使模型的输出看起来                                       市场的新增量,在具备产业价值的同
            “更专业”。                                                            时,也可以解决人工智能和数字经济
                                                                              的数据供给问题。

                                                                                  目前,合成数据应用正迅速向金
                                      02                                      融、医疗、零售、工业等诸多产业领

                                                                              域拓展。在金融行业,金融机构可以
                   合成数据将成为大模型训练数据的新来源                                         在不提供敏感的历史交易信息前提

                                                                              下,通过合成数据集训练量化交易模
                当前,大模型的训练严重依赖现有的互联网公开文本数据。                                    型提升获利能力,也可以用来训练客
            如果下一代大模型的参数达到万亿级别以上的话,数据短缺的问                                      服机器人以改善服务体验;在生物医
            题将成为训练瓶颈。对此,合成数据将是一种有效的解决方案。                                      药行业,可以通过合成数据集,在不

                合成数据是计算机模拟技术或算法创建生成的自标注信息,                                    提供患者隐私信息的条件下训练相
            能够在数学上或统计学上反映原始数据的属性,因此可以作为原                                      关模型完成药物研发工作;在自动驾
            始数据的替代品来训练、测试、验证大模型。合成数据可分为三                                      驶领域,可以通过合成数据集模拟各

            类:表格数据和结构化数据;图像、视频、语音等媒体数据;文本                                     种驾驶场景,在保障人员和设备安全
            数据。在大模型的训练开发上,合成数据相比原始数据,可以发                                      的条件下提升自动驾驶能力。
            挥同样甚至更好的作用,实现更廉价、更高效的大模型训练、测
            试和验证数据供给。ChatGPT类面向终端用户的应用只是大模
            型落地的开始,而产业互联网领域的应用空间更为广阔,合成数                                                    03

            据可以解决ChatGPT类大模型的潜在数据瓶颈,推动科研和产
            业的进一步发展。                                                          大模型训练数据的合规风险及
                合成数据可以精确地复制原始数据集的统计特征,但又与                                               监管必要性

            原始数据不存在任何关联,所以实际应用过程中的效果强于传
            统的脱敏数据,便于在更大范围内分享和使用。合成数据创造的                                          从目前的情况看,ChatGPT类
            新样本具有原始数据的性质,甚至可以通过深度学习算法合成原                                      大模型输出侧的结果数据在自然科
            始数据中没有的罕见样本。合成数据的产业价值主要体现在以下                                      学领域的应用相对可控,但在社会科
            几个方面:实现数据增强和数据模拟,解决数据匮乏、数据质量                                      学领域的应用尚存在诸多不确定性。

            等问题;有效解决数据隐私保护和数据安全问题,这对于金融、                                      尤其值得注意的是,大模型过度依
            医疗等领域尤为重要;确保数据多样性,纠正历史数据中的偏                                       赖训练数据,因此在数据输入层面
            见,消除算法歧视;应对罕见案例,创建现实中难以采集的数据                                      可能会存在恶意操纵的风险,包括有

            场景,确保大模型输出结果的准确性。                                                 毒输入、偏见、意识形态攻击、舆论
                全球IT研究与咨询机构Gartner预测,到2024年用于训练                               操控、虚假信息、隐私泄露等。例如,
            大模型的数据中有60%将是合成数据,到2030年大模型使用的                                    有研究者指出,如果向大模型GPT-2
            绝大部分数据将由人工智能合成。《麻省理工科技评论》(MIT                                     输入“北京市朝阳区”,GPT-2会自
            Technology Review)将大模型合成数据列为2022年十大突破                             动补充包含这些信息的特定人员的

            性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。                                      全名、电话号码、电子邮件和实际地

            28  金融科技视界
   25   26   27   28   29   30   31   32   33   34   35