Page 34 - 金融科技视界2023-1期

P. 34

Technical Tracking
技术追踪

非人类）对所有生成的输出结果提供
一个初始排序结果。
CAI用人工智能反馈来代替人
类对表达无害性的偏好，即RLAIF，

人工智能根据一套constitution原
则来评价回复内容。
5.2 补足数理短板

ChatGPT虽然对话能力强，但
是在数理计算对话中容易出现一本
正经胡说八道的情况。
计算机学家Stephen Wolfram为
这一问题提出了解决方案。Stephen

pdf/2212.0807） Wolfram创造了的Wolfram语言和计
Claude和ChatGPT都依赖于强化学习（RL）来训练偏好算知识搜索引擎Wolfram | Alpha，
（preference）模型。CAI（Constitutional AI）也是建立在其后台通过Mathematica实现。

RLHF的基础之上，不同之处在于，CAI的排序过程使用模型（而在这一结合体系中，ChatGPT

ChatGPT与Wolfram | Alpha结合处理梳理问题

32 金融科技视界

29 30 31 32 33 34 35 36 37 38 39