Page 32 - 金融科技视界2023-1期
P. 32
Technical Tracking
技术追踪
合人类偏好。
第二阶段:训练奖励模型(Reward Mode,RM)
4
这个阶段的主要是通过人工标注训练数据(约33K个 数
据),来训练回报模型。在数据集中随机抽取问题,使用第一阶段 ChatGPT的局限
生成的模型,对于每个问题,生成多个不同的回答。人类标注者
对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师 只要用户输入问题,ChatGPT
辅导。 就能给予回答,是否意味着我们不用
接下来,使用这个排序结果数据来训练奖励模型。对多个排 再拿关键词去喂Google或百度,就
序结果,两两组合,形成多个训练数据对。RM模型接受一个输 能立即获得想要的答案呢?
入,给出评价回答质量的分数。这样,对于一对训练数据,调节参 尽管ChatGPT表现出出色的上
数使得高质量回答的打分比低质量的打分要高。 下文对话能力甚至编程能力,完成了
第三阶段:采用PPO(Proximal Policy Optimization,近 大众对人机对话机器人(ChatBot)从
端策略优化)强化学习来优化策略。 “人工智障”到“有趣”的印象改观,
PPO的核心思路在于将Policy Gradient中On-policy的训 我们也要看到,ChatGPT技术仍然
练过程转化为Off-policy,即将在线学习转化为离线学习,这个 有一些局限性,还在不断的进步。
转化过程被称之为Importance Sampling。这一阶段利用第二 1)ChatGPT在其未经大量语
阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在 料训练的领域缺乏“人类常识”和引
数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段 申能力,甚至会一本正经的“胡说八
训练好的RM模型给出质量分数。把回报分数依次传递,由此产 道”。ChatGPT在很多领域可以“创
生策略梯度,通过强化学习的方式以更新PPO模型参数。 造答案”,但当用户寻求正确 答案
如果我们不断重复第二和第三阶段,通过迭代,会训练出更 时,ChatGPT也有可能给出有误导
高质量的ChatGPT模型。 的回答。例如让ChatGPT做一道小
30 金融科技视界