Page 30 - 金融科技视界2023-1期
P. 30

Technical Tracking
              技术追踪








































              ChatGPT与GPT 1-3的技术对比




            成身体或精神上的伤害?                                                           引入人类标记者的主要目的是

                3.有用性:它是否解决了用户的任务?                                            加快训练速度。尽管强化学习技术在
                3.3 TAMER框架                                                   很多领域有突出表现,但是仍然存在
                这里不得不提到TAMER(Training an Agent Manually                       着许多不足,例如训练收敛速度慢,

            via Evaluative Reinforcement,评估式强化人工训练代理)这                        训练成本高等特点。特别是现实世界
            个框架。该框架将人类标记者引入到Agents的学习循环中,可以                                   中,许多任务的探索成本或数据获取
            通过人类向Agents提供奖励反馈(即指导Agents进行训练),                                 成本很高。如何加快训练效率,是如
            从而快速达到训练任务目标。                                                     今强化学习任务待解决的重要问题
                                                                              之一。

                                                                                  而 TA M E R 则 可 以将人 类 标
                                                                              记 者 的知 识,以 奖 励 信 反 馈 的形
                                                                              式训练Agent,加快其快速收敛。

                                                                              TAMER不需要标记者具有专业知
                                                                              识或编程技术,语料成本更低。通过
                                                                              TAMER+RL(强化学习),借助人类
                                                                              标记者的反馈,能够增强从马尔可夫
                                                                              决策过程(MDP)奖励进行强化学习

              TAMER框架论文                                                       (RL)的过程。

            28  金融科技视界
   25   26   27   28   29   30   31   32   33   34   35