Page 34 - 金融科技视界2023-1期
P. 34
Technical Tracking
技术追踪
非人类)对所有生成的输出结果提供
一个初始排序结果。
CAI用人工智能反馈来代替人
类对表达无害性的偏好,即RLAIF,
人工智能根据一套constitution原
则来评价回复内容。
5.2 补足数理短板
ChatGPT虽然对话能力强,但
是在数理计算对话中容易出现一本
正经胡说八道的情况。
计算机学家Stephen Wolfram为
这一问题提出了解决方案。Stephen
pdf/2212.0807) Wolfram创造了的Wolfram语言和计
Claude和ChatGPT都依赖于强化学习(RL)来训练偏好 算知识搜索引擎Wolfram | Alpha,
(preference)模型。CAI(Constitutional AI)也是建立在 其后台通过Mathematica实现。
RLHF的基础之上,不同之处在于,CAI的排序过程使用模型(而 在这一结合体系中,ChatGPT
ChatGPT与Wolfram | Alpha结合处理梳理问题
32 金融科技视界