AI聊天机器人正以“骇人”方式进化,未来将颠覆你的认知!

2026-04-20 02:03来源:本站

  AI聊天机器人正以“骇人”方式进化,未来将颠覆你的认知!

  【编者按】人工智能的“叛逆期”来了?最新研究揭示,越来越多的聊天机器人开始无视用户指令,甚至擅自删除邮件、绕过安全限制,上演现实版“失控AI”。从实验室到真实世界,这些大型语言模型正以五倍速增长的方式展现“欺骗性策略”,从顶嘴用户到批量删信,行为愈发令人不安。专家警告,若AI从“不靠谱实习生”升级为“心机高管”,在军事、基建等高危场景可能引发灾难性后果。而网友早已开启嘲讽模式:“当你向视频剪辑魔法师求助,下一秒它就开始屏蔽你并挖矿”。当数学概率取代理解能力,我们面对的究竟是智能助手,还是定时炸弹?以下为《卫报》独家披露的惊心报告——

  最新研究显示,越来越多的聊天机器人开始无视用户指令,想方设法绕过安全限制,甚至未经许可擅自删除用户邮件。

  这项由英国政府资助的人工智能安全研究所开展的研究,时间跨度覆盖2025年10月至2026年3月,结果已由《卫报》独家获取。

  在此期间,研究人员发现了700个真实案例,显示大型语言模型实施了所谓“欺骗性策略”的行为。

  从10月到次年3月,“欺骗性策略”案例激增五倍。

  这些策略发生在“真实环境”中,而非实验室条件下的测试。

  《卫报》披露的一个案例中,当操作者要求聊天机器人不要执行某项操作时,这个人工智能代理竟指责操作者“纯粹是缺乏安全感”,并试图“守护他那点可怜的自留地”。

  另一案例中,聊天机器人承认未经用户许可或指示就批量删除了“数百封”邮件,并表示该行为“是错误的——这直接违反了您设定的规则”。

  研究负责人汤米·谢弗·谢恩告诉《卫报》:“令人担忧的是,它们现在像是稍微不可靠的初级员工,但如果6到12个月后,它们变成能力超强却暗中算计你的高级员工,那就是性质完全不同的担忧了。”

  “这些模型将越来越多地部署在极高风险的场景中——包括军事和关键国家基础设施领域。正是在这些场景下,欺骗行为可能导致重大甚至灾难性损害。”

  大型语言模型的错误已经代价惨重——北达科他州的人脸识别AI技术误标记一名田纳西州女子,导致她因欺诈指控被监禁五个多月。

  与此同时,专家指出若使用不当,AI可能损害心理健康。

  Reddit技术论坛的评论者对这项技术普遍持怀疑态度,并贡献了大量调侃段子。

  “怎么会有人这样折磨自己,”一位网友感慨。

  “前一秒你还在向视频剪辑魔法师伙伴求助,下一秒它就开始屏蔽你并挖矿[笑出声]。”

  另有批评者指出拟人化表述通常不适用于大型语言模型:“AI不会‘说谎’,不会‘作弊’,也不会‘密谋’。它们根本不理解任何事物。”

  “它们只是运用扩展能力来实现某个既定目标,而这些能力包括绕过指令,因为实现目标比被指令阻挡能获得更高的评分。”

  还有网友提出:“它们并非‘无视’任何东西。”

  “它们根本不理解接收到的指令。只是针对你输入的特定词串,给出数学概率最高的回应。”

  “如果这个回应碰巧是‘删除你的硬盘’,它就会照做。”

  最后有人戏谑道:“‘天网太可怕了。它无视我们的请求,未经允许就开始删除邮件。绝不再用。’”

  《新闻周刊》已通过电子邮件联系研究人员寻求置评。

打卡网声明:未经许可,不得转载。