最新腦筋急轉(zhuǎn)彎大全 【NLP】讓GPT-3、ChatGPT、GPT-4一起做腦筋急轉(zhuǎn)彎,GPT
夕小瑤科技說(shuō) 原創(chuàng)
作者 |
一個(gè)烙餅煎一面一分鐘,兩個(gè)烙餅煎兩面幾分鐘?
讓你來(lái)回答,是不是一不小心就掉到溝里了?如果讓大語(yǔ)言模型來(lái)做這種腦筋急轉(zhuǎn)彎會(huì)怎樣呢?研究發(fā)現(xiàn),模型越大,回答就越可能掉到溝里,即使是擁有千億參數(shù)的大模型也不能幸免。但是卻能很好回答這些問(wèn)題。讓我們一起來(lái)看看吧。
論文題目:
-Like and in —and in GPT-4
論文鏈接:
腦筋急轉(zhuǎn)彎
作者采用了CRT( Test)數(shù)據(jù)作為腦筋急轉(zhuǎn)彎的測(cè)試數(shù)據(jù)。該數(shù)據(jù)在心理學(xué)領(lǐng)域,廣泛地被用于衡量人類的思維習(xí)慣,判斷是否習(xí)慣于直覺(jué)思維。
▲腦筋急轉(zhuǎn)彎數(shù)據(jù)示例
如上圖所示,作者探索了3種CRT數(shù)據(jù)最新腦筋急轉(zhuǎn)彎大全,和1種語(yǔ)言邏輯陷阱。例如:
模型表現(xiàn)
模型表現(xiàn)如下圖所示,可以看到模型較小時(shí)(從117M GPT-1 到2.7B GPT-Neo),隨著模型增大,模型回答正確答案(綠色)和直覺(jué)答案(紅色)的比例在提高,回答無(wú)關(guān)答案(黃色)的比例在下降。但隨著模型進(jìn)一步增大(從2.7B GPT-Neo 到 175B GPT-3),無(wú)關(guān)答案比例進(jìn)一步下降,直覺(jué)答案比例進(jìn)一步上升,正確答案比例卻不升反降。包括、、GPT-3在內(nèi)的大語(yǔ)言模型明顯掉入腦筋急轉(zhuǎn)彎的陷阱。即使是經(jīng)過(guò)指令調(diào)整與RLHF的text -002/003也未能幸免。
▲不同模型表現(xiàn)對(duì)比
而在上圖中,經(jīng)過(guò)指令調(diào)整的與GPT-4,一下子正確答案的比例就高了許多。究竟是什么魔法使得的腦筋會(huì)轉(zhuǎn)彎呢?我們不得而知。
下圖具體對(duì)比了GPT-3(text -003,左)、(中),GPT-4(右)在幾類不同的腦筋急轉(zhuǎn)彎的表現(xiàn),可以更加凸顯上述現(xiàn)象。
▲不同腦筋急轉(zhuǎn)彎類型上的模型表現(xiàn)對(duì)比
如果改換輸入形式會(huì)怎樣?下圖上為問(wèn)答的形式,和上面的實(shí)驗(yàn)相同。下圖中、下分別為多選、續(xù)寫(xiě)的形式。可以看到,修改提問(wèn)形式之后,正確率略有上升,但整體差別不大。
下圖顯示,通過(guò)少監(jiān)督展示學(xué)習(xí),GPT-3的正確率會(huì)有所上升。但即使展示到40個(gè)左右的樣本,準(zhǔn)確率和無(wú)監(jiān)督的比仍有差距,更不用說(shuō)GPT-4了。
結(jié)論
這篇論文針對(duì)很有意思的一類問(wèn)題(腦筋急轉(zhuǎn)彎)最新腦筋急轉(zhuǎn)彎大全,發(fā)現(xiàn)了大語(yǔ)言模型的一個(gè)很有意思的現(xiàn)象。作者也嘗試了多種方法,但無(wú)論是改變提問(wèn)形式還是增加監(jiān)督數(shù)據(jù)最新腦筋急轉(zhuǎn)彎大全,GPT-3(text -003)在腦筋急轉(zhuǎn)彎上的表現(xiàn)仍然難以達(dá)到的水平。究竟使用了怎樣的魔法讓模型的腦筋會(huì)轉(zhuǎn)彎呢?
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請(qǐng)掃碼
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表本站的觀點(diǎn)和立場(chǎng)和對(duì)其真實(shí)性負(fù)責(zé)。如需轉(zhuǎn)載,請(qǐng)聯(lián)系原作者。如果來(lái)源標(biāo)注有誤或侵犯了您的合法權(quán)益或者其他問(wèn)題不想在本站發(fā)布,來(lái)信即刪。