Page 30 - 金融科技视界2023-1期
P. 30
Technical Tracking
技术追踪
ChatGPT与GPT 1-3的技术对比
成身体或精神上的伤害? 引入人类标记者的主要目的是
3.有用性:它是否解决了用户的任务? 加快训练速度。尽管强化学习技术在
3.3 TAMER框架 很多领域有突出表现,但是仍然存在
这里不得不提到TAMER(Training an Agent Manually 着许多不足,例如训练收敛速度慢,
via Evaluative Reinforcement,评估式强化人工训练代理)这 训练成本高等特点。特别是现实世界
个框架。该框架将人类标记者引入到Agents的学习循环中,可以 中,许多任务的探索成本或数据获取
通过人类向Agents提供奖励反馈(即指导Agents进行训练), 成本很高。如何加快训练效率,是如
从而快速达到训练任务目标。 今强化学习任务待解决的重要问题
之一。
而 TA M E R 则 可 以将人 类 标
记 者 的知 识,以 奖 励 信 反 馈 的形
式训练Agent,加快其快速收敛。
TAMER不需要标记者具有专业知
识或编程技术,语料成本更低。通过
TAMER+RL(强化学习),借助人类
标记者的反馈,能够增强从马尔可夫
决策过程(MDP)奖励进行强化学习
TAMER框架论文 (RL)的过程。
28 金融科技视界