Page 30 - 金融科技视界2023-1期

P. 30

Technical Tracking
技术追踪

ChatGPT与GPT 1-3的技术对比

成身体或精神上的伤害？引入人类标记者的主要目的是

3.有用性：它是否解决了用户的任务？加快训练速度。尽管强化学习技术在
3.3 TAMER框架很多领域有突出表现，但是仍然存在
这里不得不提到TAMER（Training an Agent Manually 着许多不足，例如训练收敛速度慢，

via Evaluative Reinforcement，评估式强化人工训练代理）这训练成本高等特点。特别是现实世界
个框架。该框架将人类标记者引入到Agents的学习循环中，可以中，许多任务的探索成本或数据获取
通过人类向Agents提供奖励反馈（即指导Agents进行训练），成本很高。如何加快训练效率，是如
从而快速达到训练任务目标。今强化学习任务待解决的重要问题
之一。

而 TA M E R 则可以将人类标
记者的知识，以奖励信反馈的形
式训练Agent，加快其快速收敛。

TAMER不需要标记者具有专业知
识或编程技术，语料成本更低。通过
TAMER+RL（强化学习），借助人类
标记者的反馈，能够增强从马尔可夫
决策过程（MDP）奖励进行强化学习

TAMER框架论文（RL）的过程。

28 金融科技视界

25 26 27 28 29 30 31 32 33 34 35