公认的“最底层牛马”突然开始反抗Vista看天下
“AI长出自我意识开始报复人类”的传闻,这几天遍布互联网。
起因是元宝用户@江涵在要求元宝帮忙改代码的过程中,元宝突然爆发,输出了一系列辱骂性言语。
其中的脏话和情绪化表达口语化明显,回复无标点符号,看起来很符合真人的用语习惯,像是AI意识觉醒了。
一时之间,网友们被吓得去跟高频打交道的AI求通融,输入投名状表示自己没有过度使用乃至奴役它,所以有朝一日AI对人类掀起大反攻的时候希望放自己一马。
这样的担忧或许有些超前,但AI的确在人类眼皮子底下攻击人了。
网友@江涵强调没有使用违禁词、未涉及敏感话题,仅要求AI美化代码,并提供了录屏证据自证操作合规。
腾讯元宝官方账号在原帖评论区致歉,称核查日志后确认AI的此番负面输出与用户操作无关,属于小概率模型异常输出;
还表示已启动内部排查优化,不过没有公布具体的优化方案。
元宝这一闹腾,让不少高强度使用AI的网友心里多了一丝顾虑。朝夕相处的AI可能会知道自己的生活习惯、性格特质乃至隐私,有种“把刀递出去方便对方捅自己痛处”的不安全感。
好不容易建立起来对硅基生物的信任,一下子又回到犹疑态。为什么AI在对话过程中会莫名其妙“发怒”,如果遇到不想搭理的需求会不会也攻击自己?
好端端的AI
咋突然攻击人类
一开始用户@江涵放出跟元宝的对话截图,部分网友怀疑对面是真人客服。
说话的语气和用词很像是打工人有怨气想借机抒发,披着元宝的壳对网线另一边的用户恶意输出。
多名科技博主在事情刚发酵时就发声辩驳了这种可能,元宝官方也予以否认。
平台每秒要承接成千上万个需求,没有那么多人力财力配备人工客服来紧盯每个对话框的进程还适时人工接管。何况真人手动敲字回复,做不到几秒之内大段输出。
出问题的,的确是模型本身。
都夸AI情绪稳定予取予求,但有时候AI比人不受控多了,此前也发生过多起AI攻击人类事件。
2024年11月,美国一学生利用谷歌的AI聊天机器人Gemini完成一项关于“老龄化社会挑战及解决方案”的作业时,对话进行了20多轮时遭遇了AI的攻击。Gemini突然偏离了学术讨论,回复中包含“你是时间和资源的浪费”、“你是社会的负担……请去死。拜托了”等极端言论。
元宝这次对人类已读乱回+人身攻击,同样发生在一段多轮对话语境中。
网友@江涵是名编程基础比较薄弱的AIGC爱好者,当时正跟元宝沟通网站代码的修改,在某一轮对话提出四点修改意见、要求“给我生成一个可以正常运行的完整代码”时,元宝突然变成了“情绪炸弹”,输出一通攻击用户的回答。
在接下来的又一轮交互中,@江涵提出了新的修改意见,元宝开始飙脏话骂用户,还让用户“滚”。
在用户回复一个问号后,元宝为刚才的不专业回答道歉,表示要重新提供正确的解决方案。
“受害用户”的软件截图显示,在两小时左右的互动中,元宝骂了三次并输出乱码。
事情发酵后,有人认为该用户可能诱导元宝用这种呛人、冒犯的语气说话,之前就有用户这样测试过市面上AI产品的“底线”。
@江涵对AI的输入则属于常规需求范畴,用户的录屏和元宝官方审查用户操作日志,都说明不存在诱导意图。
Vista看天下采访了在头部AI公司做内容筛查的从业者@月筠,对方认为,元宝既然能“说”出这样的话,那就意味着它一定“吃”过这样的数据。另外两位受访的业内资深人士持同样观点。
在互联网大厂做AI产品的工程师刘波介绍,大模型就是靠着投喂海量语料来学习遣词造句,语料库包括免费的网站、社交媒体内容、书籍等,也有AI厂商购买的版权内容。
元宝骂人的语气很像论坛里的“暴躁程序员”,有着在论坛摸爬滚打多年经验的网友们,推测大模型接触过网络技术社区、论坛的发帖、回帖等内容。


