Page 28 - 金融科技视界2023-2期
P. 28
Technical Tracking
技术追踪
证监会姚前:ChatGPT类
大模型训练数据的托管与治理
来源 | 《中国金融》2023年第6期 作者 | 中国证监会科技监管局局长姚前
近日,中国证监会科技监管局局长姚前撰文指出,人工智
能产业的高质量发展离不开高质量的训练数据,训练数据的安
全合规使用是大模型人工智能长期健康发展的基础。文章以
ChatGPT为例,探讨大模型训练数据的来源以及未来使用合成
数据(Synthetic Data)的发展趋势,分析大模型训练数据的合
内容来源:中国金融杂志
规风险以及监管介入的必要性,最后提出利用数据托管机制探
索有效的大模型训练数据监管体系。文章将刊登于《中国金融》 量发展离不开高质量的训练数据,训
2023年第6期。 练数据的安全合规使用是大模型人
ChatGPT是美国人工智能研究实验室OpenAI于2022年11 工智能长期健康发展的基础。本文
月30日推出的一种人工智能应用工具。它能够通过学习人类的 将以ChatGPT为例,探讨大模型训
知识来进行交流,所以也被称为“聊天机器人”。ChatGPT甫一 练数据的来源以及未来使用合成数
问世便在人工智能应用领域掀起了一阵新的浪潮并引起了全球 据(Synthetic Data)的发展趋势,
轰动,仅仅两个月内其注册用户就突破1亿。ChatGPT既好玩又 分析大模型训练数据的合规风险以
实用,远超之前的自然语言处理应用,许多人认为这是一个划时 及监管介入的必要性,最后提出利用
代的产品,国际上主流商业公司、学术机构乃至政府部门都开始 数据托管机制探索有效的大模型训
高度重视和全面拥抱大语言模型(Large Language Models, 练数据监管体系。
LLM,下文简称大模型)应用。ChatGPT的主要魅力在于,它利
用从互联网获取的海量训练数据开展深度学习和强化学习,可以
给用户带来全新的“人机对话”体验。海量训练数据可谓是维系 01
ChatGPT进化的核心要素之一。有研究预测,按照目前的发展速
度,到2026年ChatGPT类大模型的训练将耗尽互联网上的可用 ChatGPT训练数据来源
文本数据,届时将没有新的训练数据可供使用。因此,算力瓶颈 与处理流程
之外,训练数据将成为大模型产业化的最大掣肘之一。从更深层
次考虑,大模型在训练数据方面还存在各种治理问题,比如数据 O p en A I 虽 没 有直 接 公 开
采集标注费时费力成本高、数据质量较难保障、数据多样化不足 ChatGPT的相关训练数据来源和细
难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存 节,但可以从近些年业界公布过的
在隐私保护、数据偏见等问题。由此可见,人工智能产业的高质 其他大模型(如DeepMind发布的
26 金融科技视界