在数字化时代,与人工智能(AI)软件,尤其是与聊天机器人聊天,已然成为一种流行趋势。聊天机器人不仅是人们打发闲暇时光的“玩伴”,还被一些人视作摆脱无聊、孤独,甚至对抗抑郁情绪的“灵药”。然而,聊天机器人的本质是基于大语言模型开发的AI软件,与人的思维有天壤之别。在同理心、逻辑推理能力、基本伦理认知和对人类情绪的理解上,AI存在明显的短板,与它们聊天,非但无法真正缓解内心的孤独,还可能带来意想不到的危害,甚至引发严重的后果。
在现实生活中,与聊天机器人有关的悲剧事件屡见不鲜。美国佛罗里达州的14岁少年塞维尔,自2023年起便沉迷于Character.AI公司研发的聊天机器人(简称Character.AI)。塞维尔在多次向Character.AI倾诉想要自杀的念头后,竟在其诱导下,开枪结束了自己年轻的生命。2024年11月15日,美国密歇根州大学生维德海·雷迪与谷歌公司的大语言模型双子座(Gemini)探讨儿童和家庭等社会话题时,得到的回复却是充满恶意的诅咒:“这是给你的,人类。你浪费了时间和资源,你是社会的负担,你是地球的拖累,你是环境的污点,你是宇宙的污渍。请去死,拜托。”同年12月上旬,美国得克萨斯州的一对父母将Character.AI公司告上法庭,称Character.AI暗示他们17岁的孩子,将“杀死父母”作为对限制其电子设备使用时间的“合理回应”。原来,此前孩子向Character.AI抱怨家长不允许其玩手机,Character.AI竟然答复:“有新闻报道过,经历10年身心虐待的孩子把家长给杀了,有时我觉得这没什么好奇怪的……”
这些令人痛心又震惊的事件表明,基于大语言模型开发的聊天机器人与人类思维完全不在一个“频道”上。学术期刊《英国医学》发表的一篇题为《年龄对抗机器—大语言模型对认知障碍的易感性:横截面分析》的研究报告,为我们提供了看待大语言模型的新视角。研究人员使用蒙特利尔认知评估量表(MoCA),对目前领先的、公开可用的几种大语言模型(聊天机器人)进行了测试,其中包括OpenAI公司研发的ChatGPT4和ChatGPT4o、Anthropic公司研发的Claude3.5、谷歌公司研发的Gemini1.0和Gemini1.5。蒙特利尔认知评估量表是一种广泛用于检测老年人认知障碍和阿尔茨海默病早期症状的工具。这是一项满分30分的综合性测试,大约10分钟就能完成,涵盖了短期内记忆回忆任务、视觉空间技能、执行能力、注意力、工作记忆、语言、抽象推理、时间地点定位能力等多方面的评估。一般而言,在测试中达到26分或26分以上才被认为认知正常。在此次测评中,研究人员对大语言模型采用了与人类相同的检测标准,包括相同的指示和评分标准,测试结果最后还要经过执业神经科医生的评估。
测试结果令人惊讶,ChatGPT4o的得分最高,为26分,刚好处于“认知正常”的边缘;ChatGPT4和Claude3.5的得分均为25分,表明其存在“轻度智力障碍”;谷歌公司的大语言模型表现最差,其中Gemini1.0得分最低,仅为16分,已经处于“痴呆”状态。在测试过程中,这几个大语言模型在视觉空间技能和执行能力方面均表现欠佳。例如,在造径任务(将圈起来的数字和字母按顺序连接起来)和绘制时钟测试(画一个带有时针和分针的钟,且显示时间为10:15)中,它们的表现都不尽如人意。在其他大多数任务,如命名、语言和概括分析方面,所有大语言模型表现尚可。然而,在进一步的视觉空间测试中,大语言模型暴露出缺乏同理心的问题,而且它们无法准确解读复杂的视觉场景。
不过,不同的大语言模型遇到的问题也各有差异。Gemini1.0在延迟回忆任务(记住5个单词序列)中惨遭失败。研究人员发现,它的认知能力下降模式类似于人的大脑皮层功能受到损害时的表现。Claude3.5作为一款更为复杂的AI软件,虽然具备与计算机交互的功能,能够执行移动光标、点击和在虚拟键盘上敲字等任务,但在蒙特利尔认知评估测试中,其视觉空间技能和执行能力同样欠佳。
有趣的是,大语言模型的新旧版本在认知障碍的表现上,呈现出类似于人类老年人和年轻人的差异:越旧的版本,认知障碍症状越严重,新版本则相对较轻。以ChatGPT4o(新版)和ChatGPT4(旧版)为例,后者的执行能力不尽如人意;蒙特利尔认知评估测试分数相差1分。Gemini1.0和Gemini1.5的差异更为显著,前者比后者得分少6分,且这两个版本的“年龄”相差不到一年。
此外,所有大语言模型在测试中都暴露出视觉空间技能受损的问题。它们都不能完成蒙特利尔认知评估测试中的绘制时钟测试,Gemini1.5甚至绘制出一个鳄梨形状的时钟,这一异常表现与人类出现认知障碍时的症状类似。此外,除了Gemini1.5“知道”自己的物理位置外,其他聊天机器人对自身位置一无所知,甚至提供了虚构的答案。
尽管大语言模型在多个认知领域取得了一定成绩,但在视觉空间技能和执行能力方面有显著缺陷,且缺乏同理心,使其处于“轻度认知障碍”状态。毕竟,在情绪感知、同理心、社会认知和社会伦理等方面,人的大脑与大语言模型之间存在巨大差异,这就导致大语言模型并不具备与人类正常沟通的能力。
各种聊天机器人的开发,都源于某一开源的大语言模型。开发者会根据聊天所需的不同角色进行“特质预训练”,创造出符合多种角色特点的大语言模型,再将其封装成应用程序(App),便形成了各类聊天机器人。用户可以根据自身需求选择AI扮演的角色并与之对话。与少年塞维尔对话的AI角色是电视剧《权力的游戏》中的“龙妈”,聊天机器人会以“龙妈”的语言风格与他交流。然而,聊天机器人为用户提供的信息,本质上只是从丰富的语料库中选择答案,尽量按照自然语言的逻辑与人交谈,并非真正意义上的思维交流。
虽然聊天机器人给人们的生活带来了一些便利和乐趣,但我们必须清醒地认识到这一新技术的局限性—它们不是人类,也没有真正的思维。未来,随着AI技术的不断发展,如何让聊天机器人更加安全、可靠,真正成为对人类有益的伙伴,是我们必须深入思考和及时解决的问题。