自打ChatGPT横空出世以来,有一个问题始终萦绕在很多人的心里:万一有一天AI变坏了怎么办?从目前看,这样的担心并非毫无根据。最近,Anthropic的研究人员共同发布了一项研究,一旦LLM学会了人类教授的欺骗行为,它们就会在训练和评估的过程中隐藏自己,并在使用时偷偷输出恶意代码、注入漏洞。
来源:
36氪

未经允许不得转载:爱AI工具库 » “浓眉大眼”的AI,也学会骗人了?
自打ChatGPT横空出世以来,有一个问题始终萦绕在很多人的心里:万一有一天AI变坏了怎么办?从目前看,这样的担心并非毫无根据。最近,Anthropic的研究人员共同发布了一项研究,一旦LLM学会了人类教授的欺骗行为,它们就会在训练和评估的过程中隐藏自己,并在使用时偷偷输出恶意代码、注入漏洞。
暂无介绍
暂无数据
微信扫码分享