Page 30 - 金融科技视界2023-2期
P. 30
Technical Tracking
技术追踪
型训练数据中与金融领域相关的数据筛选出来,这样可以提升 可以预见,合成数据作为数据要素
模型生成的文本与金融领域的匹配程度,使模型的输出看起来 市场的新增量,在具备产业价值的同
“更专业”。 时,也可以解决人工智能和数字经济
的数据供给问题。
目前,合成数据应用正迅速向金
02 融、医疗、零售、工业等诸多产业领
域拓展。在金融行业,金融机构可以
合成数据将成为大模型训练数据的新来源 在不提供敏感的历史交易信息前提
下,通过合成数据集训练量化交易模
当前,大模型的训练严重依赖现有的互联网公开文本数据。 型提升获利能力,也可以用来训练客
如果下一代大模型的参数达到万亿级别以上的话,数据短缺的问 服机器人以改善服务体验;在生物医
题将成为训练瓶颈。对此,合成数据将是一种有效的解决方案。 药行业,可以通过合成数据集,在不
合成数据是计算机模拟技术或算法创建生成的自标注信息, 提供患者隐私信息的条件下训练相
能够在数学上或统计学上反映原始数据的属性,因此可以作为原 关模型完成药物研发工作;在自动驾
始数据的替代品来训练、测试、验证大模型。合成数据可分为三 驶领域,可以通过合成数据集模拟各
类:表格数据和结构化数据;图像、视频、语音等媒体数据;文本 种驾驶场景,在保障人员和设备安全
数据。在大模型的训练开发上,合成数据相比原始数据,可以发 的条件下提升自动驾驶能力。
挥同样甚至更好的作用,实现更廉价、更高效的大模型训练、测
试和验证数据供给。ChatGPT类面向终端用户的应用只是大模
型落地的开始,而产业互联网领域的应用空间更为广阔,合成数 03
据可以解决ChatGPT类大模型的潜在数据瓶颈,推动科研和产
业的进一步发展。 大模型训练数据的合规风险及
合成数据可以精确地复制原始数据集的统计特征,但又与 监管必要性
原始数据不存在任何关联,所以实际应用过程中的效果强于传
统的脱敏数据,便于在更大范围内分享和使用。合成数据创造的 从目前的情况看,ChatGPT类
新样本具有原始数据的性质,甚至可以通过深度学习算法合成原 大模型输出侧的结果数据在自然科
始数据中没有的罕见样本。合成数据的产业价值主要体现在以下 学领域的应用相对可控,但在社会科
几个方面:实现数据增强和数据模拟,解决数据匮乏、数据质量 学领域的应用尚存在诸多不确定性。
等问题;有效解决数据隐私保护和数据安全问题,这对于金融、 尤其值得注意的是,大模型过度依
医疗等领域尤为重要;确保数据多样性,纠正历史数据中的偏 赖训练数据,因此在数据输入层面
见,消除算法歧视;应对罕见案例,创建现实中难以采集的数据 可能会存在恶意操纵的风险,包括有
场景,确保大模型输出结果的准确性。 毒输入、偏见、意识形态攻击、舆论
全球IT研究与咨询机构Gartner预测,到2024年用于训练 操控、虚假信息、隐私泄露等。例如,
大模型的数据中有60%将是合成数据,到2030年大模型使用的 有研究者指出,如果向大模型GPT-2
绝大部分数据将由人工智能合成。《麻省理工科技评论》(MIT 输入“北京市朝阳区”,GPT-2会自
Technology Review)将大模型合成数据列为2022年十大突破 动补充包含这些信息的特定人员的
性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。 全名、电话号码、电子邮件和实际地
28 金融科技视界