Page 31 - 金融科技视界2023-1期

P. 31

Technical Tracking
技术追踪

在此基础上，ChatGPT可以比
GPT-3更好的理解和完成人类语言
或指令，模仿人类，提供连贯的有逻
辑的文本信息的能力。

3.4 ChatGPT的训练
ChatGPT的训练过程分为以下
三个阶段：
第一阶段：训练监督策略模型

GPT 3.5本身很难理解人类不同
类型指令中蕴含的不同意图，也很难
判断生成内容是否是高质量的结果。
为了让GPT 3.5初步具备理解指令的

TAMER架构在强化学习中的应用意图，首先会在数据集中随机抽取问
题，由人类标注人员，给出高质量答
具体实现上，人类标记者扮演对话的用户和人工智能助手，案，然后用这些人工标注好的数据来

提供对话样本，让模型生成一些回复，然后标记者会对回复选项微调GPT-3.5模型（获得SFT模型，
打分排名，将更好的结果反馈回模型中，Agents同时从两种反馈 Supervised Fine-Tuning）。
模式中学习——人类强化和马尔可夫决策过程奖励作为一个整此时的SFT模型在遵循指令/对
合的系统，通过奖励策略对模型进行微调并持续迭代。话方面已经优于GPT-3，但不一定符

ChatGPT模型的训练过程

2023.1 金融科技视界 29

26 27 28 29 30 31 32 33 34 35 36