,,

速看：AI做題家：高數(shù)考試正確率81% 競賽題成績超過計算機博士

2022-07-05 05:26:16 來源：量子位

高數(shù)考不好，不知道是多少人的噩夢。如果說你高數(shù)考得還不如AI好，是不是就更難以接受了？沒錯，來自OpenAI的Codex已經(jīng)在MIT的7門高數(shù)課程題目中正確率達到81.1%，妥妥的MIT本科生水平。

訪問：

阿里云“無影云電腦” 支持企業(yè)快速實現(xiàn)居家辦公

(資料圖片僅供參考)

課程范圍從初級微積分到微分方程、概率論、線性代數(shù)都有，題目形式除了計算、甚至還有畫圖。

這件事最近還登上了微博熱搜。

“僅”得81分，對AI的期待也太高了吧

現(xiàn)在，Google那邊又傳來了最新大消息：

不止數(shù)學，我們的AI甚至在整個理工科上，都已經(jīng)拿到最高分啦！

看來在培養(yǎng)“AI做題家”這件事上，科技巨頭們已經(jīng)卷出了新高度。

Google這個最新AI做題家，參加了四門考試。

數(shù)學競賽考試MATH，以往只有三屆IMO金牌得主才拿過90分，普通的計算機博士甚至只能拿到40分左右。

至于別的AI做題家們，以前最好成績只有6.9分……

但這一次，Google新AI卻刷到了50分，比計算機博士還高。

綜合考試MMLU-STEM，內(nèi)含數(shù)理化生、電子工程和計算機科學，題目難度達到高中甚至大學水平。

這一次，GoogleAI“滿血版”，也都拿到了做題家中的最高分，直接將分數(shù)拉高了20分左右。

小學數(shù)學題GSM8k，直接將成績拉升到78分，相比之下GPT-3還沒及格（僅55分）。

就連MIT本科和研究生學的固體化學、天文學、微分方程和狹義相對論等課程，Google新AI也能在200多道題中，答出將近三分之一。

最重要的是，與OpenAI憑借“編程技巧”取得數(shù)學高分的方法不同，GoogleAI這一次，走的可是“像人一樣思考”的路子——

它像一個文科生一樣只背書不做題，卻掌握了更好的理工科解題技巧。

值得一提的是，論文一作Lewkowycz還分享了一個論文中沒寫到的亮點：

我們的模型參加了今年的波蘭數(shù)學高考，成績比全國平均分還要高。

看到這里，有的家長已經(jīng)坐不住了。

如果告訴我女兒這件事，我怕她用AI做作業(yè)。但如果不告訴她，就沒有讓她對未來做好準備！

在業(yè)內(nèi)人士看來，只靠語言模型，不對算數(shù)、邏輯和代數(shù)做硬編碼達到這種水平，是這項研究最驚艷的地方。

那么，這是怎么做到的？

AI狂讀arXiv上200萬篇論文

新模型Minerva，基于Pathway架構(gòu)下的通用語言模型PaLM改造而來。

分別在80億、600億和5400億參數(shù)PaLM模型的基礎上做進一步訓練。

Minerva做題與Codex的思路完全不同。

Codex的方法是把每道數(shù)學題改寫成編程題，再靠寫代碼來解決。

而Minerva則是狂讀論文，硬生生按理解自然語言的方式去理解數(shù)學符號。

在PaLM的基礎上繼續(xù)訓練，新增的數(shù)據(jù)集有三部分：

主要有arXiv上收集的200萬篇學術(shù)論文，60GB帶LaTeX公式的網(wǎng)頁，以及一小部分在PaLM訓練階段就用到過的文本。

通常的NLP數(shù)據(jù)清洗過程會把符號都刪掉只保留純文字，導致公式不完整，比如愛因斯坦著名的質(zhì)能方程只剩下了Emc2。

但Google這次把公式都保留，和純文本一樣走一遍Transformer的訓練程序，讓AI像理解語言一樣去理解符號。

與之前的語言模型相比，這是Minerva在數(shù)理問題上表現(xiàn)更好的原因之一。

但與專門做數(shù)學題的AI相比，Minerva的訓練中沒有顯式的底層數(shù)學結(jié)構(gòu)，這帶來一個缺點和一個優(yōu)點。

缺點，是可能出現(xiàn)AI用錯誤的步驟得到正確答案的情況。

優(yōu)點，是可以適應不同學科，即使有些問題無法用正規(guī)的數(shù)學語言表達出來，也可以結(jié)合自然語言理解能力解出來。

到了AI的推理階段，Minerva還結(jié)合了多個最近Google開發(fā)的新技術(shù)。

先是Chain of Thought思維鏈路提示，今年一月由Google大腦團隊提出。

具體來說就是在提問的同時給一個分步驟回答的示例來引導。AI在做題時就可以采用類似的思考過程，正確回答本來會答錯的題目。

再有是Google和MIT合作開發(fā)的Scrathpad草稿紙方法，讓AI把分步計算的中間結(jié)果臨時存儲起來。

最后還有Majority Voting多數(shù)表決方法，也是今年3月才發(fā)表的。

讓AI多次回答同一個題目，選擇答案中出現(xiàn)頻率最高的。

所有這些技巧全用上以后，5400億參數(shù)的Minerva在各種測試集中達到SOTA。

甚至80億參數(shù)版的Minerva，在競賽級數(shù)學題和MIT公開課問題中，也能達到GPT-3最新更新的davinci-002版本水平。

說了這么多，Minerva具體都能做出哪些題目？

對此Google也開放出了樣例集，一起來看一下。

數(shù)理化生全能，連機器學習都會

數(shù)學上，Minerva可以像人類一樣按步驟計算數(shù)值，而不是直接暴力求解。

對于應用題，可以自己列出方程式并做簡化。

甚至還可以推導證明。

物理上，Minerva可以求中性氮基態(tài)（Z = 7）電子的總自旋量子數(shù)這樣的大學水平題目。

生物和化學上，Minerva憑借語言理解能力也可以做各種選擇題。

以下哪種點突變形式對DNA序列形成的蛋白質(zhì)沒有負面影響？

以下哪種是放射性元素？

以及天文學：為什么地球擁有很強的磁場？

在機器學習方面，它通過解釋“分布外樣本檢測”的具體含義，從而正確了給出這個名詞的另一種說法。

……

不過，Minerva有時也會犯一些低級錯誤，比如把等式兩邊的√給消了。

除此之外，Minerva會出現(xiàn)的推理過程錯誤但結(jié)果對的“假陽性”情況，比如下面這種，有8%的可能性。

經(jīng)過分析之后，團隊發(fā)現(xiàn)主要的錯誤形式來自計算錯誤和推理錯誤，只有小部分來自題意理解錯誤和在步驟中使用了錯誤的事實等其他情況。

其中計算錯誤可以輕易通過訪問外部計算器或Python解釋器解決，但其他種類的錯誤因為神經(jīng)網(wǎng)絡規(guī)模太大就不太好調(diào)整了。

總的來看，Minerva的表現(xiàn)讓很多人感到驚艷，紛紛在評論區(qū)求API（可惜Google目前并沒有公開計劃）。

有的網(wǎng)友想到，加上前幾日讓GPT-3解題正確率暴漲61%的“哄一哄”大法，它的準確率或許還可以再提高？

不過作者的回應是，哄一哄方法屬于零樣本學習，再強恐怕也比不上帶4個例子的少樣本學習。

還有網(wǎng)友提出，既然它可以做題，那么能不能反過來出題？

事實上用AI給大學生出題這件事，MIT已經(jīng)聯(lián)合OpenAI在做了。

他們把人類出的題和AI出的題混在一起，找學生來做問卷調(diào)查，大家也很難分清一道題是不是AI出的。

總之現(xiàn)在的情況，除了搞AI的在忙著讀這篇論文以外。

學生們盼著有一天能用AI做作業(yè)。

老師們也盼著有一天能用AI出卷子。

關(guān)鍵詞：人工智能 AI做題家高數(shù)考試正確率81% 競賽題成績

直播更多》

什么是海洋環(huán)境預報如何精準預報海洋災害？

海洋災害是指海洋自然環(huán)境發(fā)生異常或激...
什么是海洋環(huán)境預報如何精準預報海洋災害？

海洋災害是指海洋自然環(huán)境發(fā)生異常或激...
長沙地鐵6號線何時通車長沙地鐵6號線最新消息

6月28日，長沙地鐵6號線啟動初期運營載...
我國農(nóng)業(yè)科技進步貢獻率是多少我國組建了多少個國家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系？

農(nóng)業(yè)科技進步貢獻率達到61%，組建了50個...
第一部雙卡雙待手機是哪個最早的雙卡雙待手機什么樣？

世界上第一臺雙卡手機，誕生于 2004 ...
恐怖谷效應是什么意思恐怖谷效應每個人都有嗎?

恐怖谷假說在20世紀70年代由日本機器人...

關(guān)閉

免费黄色网址在线播放-免费黄色网址中-免费黄色无码-免费黄色在线-免费黄网站在线观看-免费黃色三級片国产片

速看：AI做題家：高數(shù)考試正確率81% 競賽題成績超過計算機博士

推薦

花未全開月未圓究竟是誰寫的花未全開月未圓和曾國藩有什么淵源？

數(shù)據(jù)經(jīng)紀人是干什么的數(shù)據(jù)經(jīng)紀人是什么意思？

第二十四屆中國科協(xié)年會在哪舉辦我國科技領(lǐng)域重大問題難題有哪些？

液晶面板價格持續(xù)下降第二季度部分面板價格已遭腰斬

元宇宙造型師是干嘛的元宇宙造型師掙錢嗎？

安徽省新興產(chǎn)業(yè)發(fā)展基金有限公司舉行創(chuàng)立大會注冊規(guī)模100億元

寧德時代定增落地實際募集資金凈額約448.7億

英特爾在封裝設計中開發(fā)嵌入式電感全集成穩(wěn)壓器用于穩(wěn)定3D堆疊系統(tǒng)功率

生產(chǎn)面積擴大7500平方米意法半導體開啟新電動汽車碳化硅功率器件封裝生產(chǎn)線

獵鷹9號一次能發(fā)射多少顆衛(wèi)星獵鷹9號能重復使用多少次？

直播更多》

什么是海洋環(huán)境預報如何精準預報海洋災害？

什么是海洋環(huán)境預報如何精準預報海洋災害？

長沙地鐵6號線何時通車長沙地鐵6號線最新消息

我國農(nóng)業(yè)科技進步貢獻率是多少我國組建了多少個國家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系？

第一部雙卡雙待手機是哪個最早的雙卡雙待手機什么樣？

恐怖谷效應是什么意思恐怖谷效應每個人都有嗎?

資訊更多》

焦點