Page 32 - 金融科技视界2023-1期
P. 32

Technical Tracking
              技术追踪






































            合人类偏好。
                第二阶段:训练奖励模型(Reward Mode,RM)
                                                                                             4
                这个阶段的主要是通过人工标注训练数据(约33K个 数
            据),来训练回报模型。在数据集中随机抽取问题,使用第一阶段                                            ChatGPT的局限
            生成的模型,对于每个问题,生成多个不同的回答。人类标注者

            对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师                                          只要用户输入问题,ChatGPT
            辅导。                                                               就能给予回答,是否意味着我们不用
                接下来,使用这个排序结果数据来训练奖励模型。对多个排                                    再拿关键词去喂Google或百度,就

            序结果,两两组合,形成多个训练数据对。RM模型接受一个输                                      能立即获得想要的答案呢?
            入,给出评价回答质量的分数。这样,对于一对训练数据,调节参                                         尽管ChatGPT表现出出色的上
            数使得高质量回答的打分比低质量的打分要高。                                             下文对话能力甚至编程能力,完成了
                第三阶段:采用PPO(Proximal Policy Optimization,近                     大众对人机对话机器人(ChatBot)从
            端策略优化)强化学习来优化策略。                                                  “人工智障”到“有趣”的印象改观,

                PPO的核心思路在于将Policy Gradient中On-policy的训                        我们也要看到,ChatGPT技术仍然
            练过程转化为Off-policy,即将在线学习转化为离线学习,这个                                 有一些局限性,还在不断的进步。
            转化过程被称之为Importance Sampling。这一阶段利用第二                                  1)ChatGPT在其未经大量语

            阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在                                      料训练的领域缺乏“人类常识”和引
            数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段                                     申能力,甚至会一本正经的“胡说八
            训练好的RM模型给出质量分数。把回报分数依次传递,由此产                                      道”。ChatGPT在很多领域可以“创
            生策略梯度,通过强化学习的方式以更新PPO模型参数。                                        造答案”,但当用户寻求正确 答案
                如果我们不断重复第二和第三阶段,通过迭代,会训练出更                                    时,ChatGPT也有可能给出有误导

            高质量的ChatGPT模型。                                                    的回答。例如让ChatGPT做一道小

            30  金融科技视界
   27   28   29   30   31   32   33   34   35   36   37