Page 34 - 金融科技视界2023-1期
P. 34

Technical Tracking
              技术追踪




                                                                              非人类)对所有生成的输出结果提供
                                                                              一个初始排序结果。
                                                                                  CAI用人工智能反馈来代替人
                                                                              类对表达无害性的偏好,即RLAIF,

                                                                              人工智能根据一套constitution原
                                                                              则来评价回复内容。
                                                                                  5.2 补足数理短板

                                                                                  ChatGPT虽然对话能力强,但
                                                                              是在数理计算对话中容易出现一本
                                                                              正经胡说八道的情况。
                                                                                  计算机学家Stephen Wolfram为
                                                                              这一问题提出了解决方案。Stephen

            pdf/2212.0807)                                                    Wolfram创造了的Wolfram语言和计
                Claude和ChatGPT都依赖于强化学习(RL)来训练偏好                               算知识搜索引擎Wolfram | Alpha,
            (preference)模型。CAI(Constitutional AI)也是建立在                        其后台通过Mathematica实现。

            RLHF的基础之上,不同之处在于,CAI的排序过程使用模型(而                                       在这一结合体系中,ChatGPT













































              ChatGPT与Wolfram | Alpha结合处理梳理问题

            32  金融科技视界
   29   30   31   32   33   34   35   36   37   38   39