Page 31 - 金融科技视界2023-1期
P. 31

Technical Tracking
                                                                                                  技术追踪




                                                                                  在此基础上,ChatGPT可以比
                                                                              GPT-3更好的理解和完成人类语言
                                                                              或指令,模仿人类,提供连贯的有逻
                                                                              辑的文本信息的能力。

                                                                                  3.4 ChatGPT的训练
                                                                                  ChatGPT的训练过程分为以下
                                                                              三个阶段:
                                                                                  第一阶段:训练监督策略模型

                                                                                  GPT 3.5本身很难理解人类不同
                                                                              类型指令中蕴含的不同意图,也很难
                                                                              判断生成内容是否是高质量的结果。
                                                                              为了让GPT 3.5初步具备理解指令的

              TAMER架构在强化学习中的应用                                                意图,首先会在数据集中随机抽取问
                                                                              题,由人类标注人员,给出高质量答
                具体实现上,人类标记者扮演对话的用户和人工智能助手,                                    案,然后用这些人工标注好的数据来

            提供对话样本,让模型生成一些回复,然后标记者会对回复选项                                      微调GPT-3.5模型(获得SFT模型,
            打分排名,将更好的结果反馈回模型中,Agents同时从两种反馈                                   Supervised Fine-Tuning)。
            模式中学习——人类强化和马尔可夫决策过程奖励作为一个整                                           此时的SFT模型在遵循指令/对
            合的系统,通过奖励策略对模型进行微调并持续迭代。                                          话方面已经优于GPT-3,但不一定符







































              ChatGPT模型的训练过程

                                                                                        2023.1  金融科技视界     29
   26   27   28   29   30   31   32   33   34   35   36