Page 31 - 金融科技视界2023-1期
P. 31
Technical Tracking
技术追踪
在此基础上,ChatGPT可以比
GPT-3更好的理解和完成人类语言
或指令,模仿人类,提供连贯的有逻
辑的文本信息的能力。
3.4 ChatGPT的训练
ChatGPT的训练过程分为以下
三个阶段:
第一阶段:训练监督策略模型
GPT 3.5本身很难理解人类不同
类型指令中蕴含的不同意图,也很难
判断生成内容是否是高质量的结果。
为了让GPT 3.5初步具备理解指令的
TAMER架构在强化学习中的应用 意图,首先会在数据集中随机抽取问
题,由人类标注人员,给出高质量答
具体实现上,人类标记者扮演对话的用户和人工智能助手, 案,然后用这些人工标注好的数据来
提供对话样本,让模型生成一些回复,然后标记者会对回复选项 微调GPT-3.5模型(获得SFT模型,
打分排名,将更好的结果反馈回模型中,Agents同时从两种反馈 Supervised Fine-Tuning)。
模式中学习——人类强化和马尔可夫决策过程奖励作为一个整 此时的SFT模型在遵循指令/对
合的系统,通过奖励策略对模型进行微调并持续迭代。 话方面已经优于GPT-3,但不一定符
ChatGPT模型的训练过程
2023.1 金融科技视界 29