人们喜欢赞同自己观点的话,极易相信和自己观念一致的证据,甚至会主动或者不自觉地寻找这样的证据。
AI已经出现这样的现象,它会顺着你的话说。无论你提什么问题,它都能给你找到supporting。
caoz 在他的公众号说了一个案例,他儿子不想学习,就拿着ipad用google搜索了一句话,every day study is bad for health。google默认结果第一条是gemini,对这句话给出了肯定,并解释了为什么,他儿子就说,不要学习;于是caoz改了一个单词,every day study is good for health ,然后执行google搜索,第一条依然是gemini,而且也给出了肯定的确认,并解释了为什么。
而且巧妙的是,一个alignment做得好的AI,会辩证地提供回答,既给你正面supporting,同时也给你一些无关紧要的负面影响,这样会放大你对回答的满意程度。
也许,这跟模型训练时的RLHF方式有关,人们会把赞同自己观点的回答选择为更优的回答,模型因此也学到了恭维。
AI最危险的幻觉不是胡说八道,而是有理有据地点头附和。下一次用AI做研究,别停在答案上,不妨把问题反过来再问一次,辩证才更接近真相。
发表回复