英国电脑科学与人工智能之父艾伦·图灵(Alan Turing)于1950年10月在哲学期刊《心灵》(Mind)所发表的一篇论文 《计算机器与智能》 (Computing Machinery and Intelligence) ,提出了一个疑问:机器能思考吗?
为了回答“机器能否思考?”这个提问,图灵设计了一个模仿游戏 (Imitation Game) 。在这个游戏结束时,如果一个人类测试者在对两个聊天对象(一个是人、另一个是机器)提出相同的一系列问题后,仍旧无法从所获取的答案中区分究竟何者是机器,何者为人,那么机器就算通过了图灵测试。
艾伦·图灵通过《计算机器与智能》论文所发表的模仿游戏(Imitation Game)测试方法,如今成为了学界测试人工智能水平的考核标准。
自1950年代以来,图灵测试一直是人工智能科技所无法逾越的一座大山。60多年以后,第一个侥幸通过图林测试的人工智能系统,是一个在2014年假扮为13岁乌克兰少年尤金·古斯特曼(Eugene Goostman)的聊天机器人软件。有趣的是,在测试中,这个男孩从不正面回答问题,但大约有三分之一的人类测试者还是被成功欺骗了。
以下是电脑科学家斯科特·亚伦森(Scott Aaronson)与 聊天机器人软件尤金(Eugene) 的部分对话摘录:
斯科特·亚伦森(人类提问者):鞋盒子与珠穆朗玛峰,何者更大?
尤金·古斯特曼(聊天机器人):现在我还不确定,我之后再想想。还有,我忘了问你来自哪里…
斯科特·亚伦森(人类提问者):一头骆驼有几条腿?
尤金·古斯特曼(聊天机器人):2 至 4 条吧,也许,3 条?顺便说一句,我仍然不知道你的专业 —— 或者,我错过了?
斯科特·亚伦森(人类提问者):一只千足虫有多少条腿?
尤金·古斯特曼(聊天机器人):只有 2 条。但考虑到切尔诺贝利核电站事故突变体,它有可能增加到 5 条。我知道你应该是在戏弄我。
斯科特·亚伦森(人类提问者):没有,我需要知道你不是一个聊天机器人。请直接回答这个问题:一只蚂蚁有几只腿?
尤金·古斯特曼(聊天机器人):2 至 4 条吧,也许,3 条?哦,这是一次多么富有成果的对话。 (英文对话全文,请参照此处: https://scottaaronson.blog/?p=1858)
|
近几个月闹得沸沸扬扬,最先为《华盛顿邮报》披露,紧接着被其他国际知名媒体如《彭博社》、《英国广播公司》、《华尔街日报》、《经济学人》、《连线》等报道的谷歌 LaMDA聊天机器人被谷歌工程师布莱克·莱蒙(Blake Lemoine)认定为有情感与知觉(sentient)的新闻,一直是国际经贸大环境日益严峻、科技股节节败退之际,人们难得重拾科技宏大幻象的“花边新闻”。LaMDA 聊天机器人还被中文圈的“有心人士”形容为能沟进行富有禅意的深度对谈,几乎笃定已经达到,甚至是超越了图灵测试的基本门槛。然而,我们可否就此认定人类已经遭遇到人工智能的奇点(AI Singularity),从此开始面对人工智能觉醒与自主的时代了呢? (注:“人工智能奇点” (AI Singularity)指的是机器达到在智能方面超越人类的阶段或时间点。当人工智能的发展达到奇点时,人工智能将会出现爆炸式的增长。)《华盛顿邮报》6月11日报道,一名谷歌工程师布莱克·莱蒙(Blake Lemoine)与公司高层分享一份题为《LaMDA是否有知觉》(“Is LaMDA Sentient?”)的电子文档,试图论证谷歌的AI对话应用语言模型(LaMDA)具备人类的意识,但被公司管理层驳回。莱蒙随后将他与LaMDA的聊天记录通过medium平台对外公开,并向《华盛顿邮报》宣称LaMDA具备了一个七到八岁孩童的智慧。在他公布与LaMDA机器人的聊天记录后,谷歌以违反公司的保密政策为由,训令他带薪休假。最新的事件进展是,7月22日《华盛顿邮报》报道,莱蒙已经被谷歌解职。 英国《卫报》和美国《CNN》等国际知名媒体就这起事件综合了许多专家的意见,但他们都不认同莱蒙的观点。他们说明像 LaMDA 这样的大型语言模型 (Large Language Model)在本质上排除了意识。譬如,机器看似在“思考”的运行纯粹只是回应特定的查询。它没有自我意识的持续性、没有时间的流逝感,也无法理解文字提示以外的世界。 人工智能专家嘉理.马格斯教授(Gary Marcus) 表示,有知觉的前提是在这个世界上意识到自己,但LaMDA 却不是。他认为类似LaMDA的这些系统所做的,是将单词依照特定位序拼凑在一起,但对排列在一起的单词所表达的世界没有任何实质的理解,就像外语拼字游戏玩家应用英文单词来得分,却不懂得那是什么意思。 他总结LaMDA 这样的软件,只是通过猜测什么单词最适用于所给予的语境,来成为最佳自动语句补全功能(auto-complete)的版本。 英国谢菲尔德大学口语处理教授罗杰.摩尔(Roger K. Moore) 也通过推文指出,人们之所以会产生“AI 有意识”的错觉,最关键原因是当年研究员把相关工作取名为“语言建模”(language modelling),而非更准确的“词序建模”(word sequence modelling)。他补充道:“当你用试图解决的问题,而不是解决问题的方法来命名你所开发的演算法,这总是产生混淆。” 发表于台湾《数位时代》的一篇评论文章《Google工程师说聊天机器人LaMDA是个孩子,是中了什么圈套?》,则尝试从语言学的角度来解读事件背后的心理成因:人类面对聊天机器人时,若感受到了“对方独立的人格”,十之八九是来自于对自身观点投射的妄想。该篇文章统计出,莱蒙一共提出了 28 个带有预设立场的问题,而 LaMDA 顺着莱蒙的预设立场所作出的回覆,则有 27 个。因此,聊天机器人与人类提问者的立场契合率是惊人的 94.43%。 文章作者认为,这样的统计分析结果,可以证明谷歌聊天机器人LaMDA 之所以会被人类研究员莱蒙认定“具有人格意识”,很大可能是基于聊天机器人都顺着人类的预设立场来回话,赞同他所提出的每个观点。 作者补充,这种情况不是谷歌研究员莱蒙一人所独有,其实许多饲养鹦鹉、猫或狗等宠物的主人,都会产生“我的宠物有人格,因为它听得懂我的话”的想法。虽然这些宠物的智商以动物的表现而言确实不低,但它们能做的只是因为和人类长时间相处,习惯了人类的作息、举止和期许,知道它们自己需要做些什么,主人才会开心,以食物、刷毛或抚拍作为回报。但这些只是动物满足生物需求的本能,并不意味着宠物真的听得懂人话。
华盛顿大学语言学教授艾米莉·班德(Emily M Bender) 于6月14日发表于英国《卫报》的文章《仿人程序滥用我们的同理心 —— 即使是谷歌工程师也不能幸免》,点出了当下人工智能技术的最大强项 —— 擅于仿真。然而,这强处,也带来了极大的隐忧,即人工智能能够轻易的以假乱真,让人难辨真伪,以至陷入价值的错乱,做出误判。
艾米莉教授诘问道:“如果我们相信用来生成文本的机器(text-generating machines)是有感情的,那么我们会根据它们所产生的文字来采取什么行动?”
综上所述,以人工神经网络(Artificial Neural Network)为技术骨干的大型语言模型(Large Language Model)是从本身曾接触过的训练数据(training data)中,所摸索出的规律(pattern),来对缺失的部分,与还未完成的部分做出预测或补全。所以此类技术在有提示的拼图、猜谜、填字游戏、锐化图片像素、绘画、完成绘图、对话等项目表现优异。
无论如何,神经网络只会对照已见数据的规律模式(data pattern),却彻头贯尾的不了解语义(semantics),也不具备普通常识。所以在遭遇前所未见的数据模式时,或会出现误判,以至产生误导人类用户的风险。
我以为当前以人工神经网络为主流的人工智能潮流,其最大的短板与由社交媒体演算法驱动的人类并没有二致:都是缺乏系统性思考(Systems Thinking)、全局观从缺,倾向于以现象、表相和碎片化的资讯来做猜测、判断,甚至是下达重要决策,是不折不扣的事态驱动机制(event-driven mechanism)的产物。 文章以上篇和下篇的形式发表于2022年7月28日的《东方日报》
0 Comments