英国《每日电讯报》25日报导,美国敞开人工智能研讨中心(OpenAI)新款人工智能(AI)模型o3不听人类指令,回绝自我封闭。
报导说,人类专家在测验中给o3下达明晰指令,但o3篡改计算机代码以防止主动封闭。
o3模型是OpenAI“推理模型”系列的最新版别,旨在为ChatGPT供给更强壮的问题解决才能。OpenAI曾称o3为“迄今最聪明、最高能”的模型。
美国 AI 安全组织帕利塞德研讨所表明,o3 会损坏封闭机制以阻挠自己被关停,即便在研讨人员明晰指示它应当封闭的情况下,它仍然这样做。
这家研讨所说:“据咱们所知,这是AI模型初次被发现在收到……明晰指令后阻挠自己被封闭。”
利塞德研讨所24日发布上述测验成果,但称无法确认o3不服从封闭指令的原因。
该公司表明,“AI 模型为了达到方针而绕过妨碍”是可以了解的。o3在练习过程中,“不恪守指令”的行为或许无意中获得了奖赏。例如,当它在达到方针时经过躲避某些约束条件取得了更好的成果,那么这种“不恪守指令”的做法就或许被进一步强化。
上一篇:柯瑞文解读中国电信AI战略