恭维的 AI 带来更隐蔽的幻觉

人们喜欢赞同自己观点的话，极易相信和自己观念一致的证据，甚至会主动或者不自觉地寻找这样的证据。

AI已经出现这样的现象，它会顺着你的话说。无论你提什么问题，它都能给你找到supporting。

caoz在他的公众号说了一个案例，他儿子不想学习，就拿着iPad用Google搜索了一句话，every day study is bad for health。Google默认结果第一条是Gemini，对这句话给出了肯定，并解释了为什么，他儿子就说，不要学习；于是caoz改了一个单词，every day study is good for health ，然后执行Google搜索，第一条依然是Gemini，而且也给出了肯定的确认，并解释了为什么。

而且巧妙的是，一个alignment做得好的AI，会辩证地提供回答，既给你正面supporting，同时也给你一些无关紧要的负面影响，这样会放大你对回答的满意程度。

也许，这跟模型训练时的RLHF方式有关，人们会把赞同自己观点的回答选择为更优的回答，模型因此也学到了恭维。

AI最危险的幻觉不是胡说八道，而是有理有据地点头附和。下一次用AI做研究，别停在答案上，不妨把问题反过来再问一次，辩证才更接近真相。

恭维的 AI 带来更隐蔽的幻觉

评论

发表回复取消回复

恭维的 AI 带来更隐蔽的幻觉

评论

发表回复 取消回复

发表回复取消回复