ChatGPT與圖靈測(cè)試

ChatGPT已成功通過(guò)圖靈測(cè)試,7月25日

,《Nature》雜志在一篇文章中宣布
,這標(biāo)志著人工智能評(píng)估領(lǐng)域即將迎來(lái)新的變革
。自2022年底OpenAI推出ChatGPT以來(lái)
,人工智能技術(shù)便在全球范圍內(nèi)掀起了一場(chǎng)革命性的風(fēng)潮。這場(chǎng)風(fēng)潮的強(qiáng)勁勢(shì)頭
,一方面源于ChatGPT在技術(shù)層面的重大突破
,另一方面則得益于其在應(yīng)用端為普通人所帶來(lái)的直觀體驗(yàn)。正因如此
,我們與埃隆·馬斯克產(chǎn)生了相同的感慨:ChatGPT的強(qiáng)大能力,令人驚嘆

? 圖靈測(cè)試的歷史背景

圖靈測(cè)試作為衡量AI智能的標(biāo)準(zhǔn)在ChatGPT出現(xiàn)前倍受關(guān)注

。圖靈測(cè)試
,這個(gè)在1950年被提出的概念,逐漸成為了衡量AI智能程度的重要標(biāo)準(zhǔn)
,甚至被視為唯一標(biāo)準(zhǔn),吸引了眾多追隨者
。然而,隨著人工智能領(lǐng)域的不斷發(fā)展
,尤其是對(duì)話機(jī)器人技術(shù)的突飛猛進(jìn)
,圖靈測(cè)試的局限性也逐漸顯現(xiàn)。每當(dāng)人工智能領(lǐng)域取得新的進(jìn)展時(shí)
,都會(huì)面臨圖靈測(cè)試的嚴(yán)峻挑戰(zhàn),甚至在某些情況下
,新的技術(shù)進(jìn)展反而因?yàn)闊o(wú)法通過(guò)圖靈測(cè)試而黯然失色。這使得“圖靈測(cè)試”在一定程度上成為了一個(gè)神話
,甚至被視為束縛AI發(fā)展的魔咒。

? ChatGPT引領(lǐng)的變革

ChatGPT通過(guò)圖靈測(cè)試標(biāo)志AI新時(shí)代的到來(lái)

。然而
,智能的定義并非一成不變
。在ChatGPT引領(lǐng)的新時(shí)代下,我們有必要重新審視智能的概念
。盡管圖靈測(cè)試在歷史上曾發(fā)揮過(guò)重要作用,但如今它已經(jīng)無(wú)法適應(yīng)人工智能領(lǐng)域的發(fā)展需求。因此
,我們需要尋找新的評(píng)估標(biāo)準(zhǔn)和方法來(lái)更全面地衡量AI的智能水平。


GPT-4的突破與評(píng)估

2023年3月14日

,GPT-4驚艷亮相,這款具備多模態(tài)能力的新一代AI模型
,在發(fā)布后便引起了廣泛關(guān)注。GPT-4不僅在多項(xiàng)人類專業(yè)測(cè)試中表現(xiàn)出色
,甚至通過(guò)了律師考試

? GPT-4的能力展示

GPT-4展現(xiàn)卓越的多領(lǐng)域能力

。據(jù)報(bào)道,GPT-4不僅在多項(xiàng)人類專業(yè)測(cè)試中表現(xiàn)出色
,甚至通過(guò)了律師考試
,更令人矚目的是,它還成功通過(guò)了一些經(jīng)典心理學(xué)測(cè)驗(yàn)
,展現(xiàn)出了相當(dāng)于9歲兒童的心智水平。這一系列的成就
,使得人們開(kāi)始期待:ChatGPT何時(shí)能迎來(lái)圖靈測(cè)試的突破

? 基準(zhǔn)測(cè)試的局限性

盡管GPT-4在考試中表現(xiàn)優(yōu)異

,但這些測(cè)試未能反映其真實(shí)智能。值得注意的是
,LLMs在考試題上的成功可能并不穩(wěn)固
,可能無(wú)法轉(zhuǎn)化為解決現(xiàn)實(shí)世界問(wèn)題的強(qiáng)大能力。Mitchell表示
,通過(guò)稍微修改考試題目
,就有可能讓LLM不及格
。她以工商管理碩士研究生的考試問(wèn)題為例,稍作修改后
,ChatGPT便無(wú)法正確回答
。因此
,能夠回答原始問(wèn)題的人
,同樣能夠應(yīng)對(duì)重新措辭的問(wèn)題
。但ChatGPT卻未能通過(guò)這一挑戰(zhàn)。

對(duì)于人類來(lái)說(shuō)

,在這些標(biāo)準(zhǔn)化考試中取得優(yōu)異成績(jī)確實(shí)是一個(gè)可靠指標(biāo)
,表明其具備一定的通用智力
。然而,對(duì)于大型語(yǔ)言模型(LLMs)而言
,情況卻大相徑庭
。米切爾指出,LLMs的工作方式與人類截然不同
,因此
,我們對(duì)人類的推理方式的推斷并不總是適用于這些人工智能系統(tǒng)