2025.12.12
本文字數(shù):1426,閱讀時長大約3分鐘
作者 | 第一財經(jīng) 劉曉潔
封圖 | AI生成
在剛剛落幕的2025年全國中學生數(shù)學奧林匹克競賽(CMO)決賽中,除了涌現(xiàn)出一批數(shù)學天賦出眾的年輕選手,還有一個特殊的“考生”引人注目——AI大模型。
CMO是中國最高規(guī)格的數(shù)學奧林匹克競賽,今年,主辦方首次設(shè)立AI測試環(huán)節(jié),邀請大模型與人類同場答題,并交由相同的評委專家組閱卷打分。上海人工智能實驗室旗下的書生科學多模態(tài)大模型(Intern-S1-20251122)拿到102分。
據(jù)公開信息,今年CMO考生前三名得分分別為126(滿分)、110分、102分,Intern-S1取得的成績位列總分榜第三,在AI中排名第一。
本屆CMO共有700余名選手參賽,223人獲得金牌,前60名選手獲得清華北大保送資格并入選國家集訓隊。AI目前雖未超越人類選手最高分,但其表現(xiàn)已遠超大多數(shù)參賽者,甚至超過了許多金牌得主,本次金牌線為78分。
“AI在奧賽中超越人類是未來一定會發(fā)生的事?!鄙虾H斯ぶ悄軐嶒炇仪嗄觐I(lǐng)軍科學家陳愷對第一財經(jīng)表示。他認為,正如AlphaGo最終戰(zhàn)勝世界圍棋冠軍,AI在數(shù)學競賽上的進步也是一個逐步發(fā)展的過程?,F(xiàn)在AI已經(jīng)能拿奧賽金牌了,未來超過奧賽頂尖的人類選手也大有可能。
“數(shù)學是推理能力的代表性領(lǐng)域,也是目前很多大模型團隊重點投入優(yōu)化的方向之一,因此進展相對更快?!辈贿^,陳愷強調(diào),奧賽只是數(shù)學里的一個任務(wù),因此AI在奧賽中超過人類,并不意味著AI在數(shù)學或更廣泛的能力上就能超過人。
“數(shù)學是個很寬泛深奧的領(lǐng)域,也有很多前沿的研究,在這方面AI還要更長的時間積累?!标悙鹧a充道。
中國人民大學附屬中學教師、奧數(shù)金牌教練張端陽也是AI訓練的“顧問”,在接觸之初他對大模型的印象還停留在只能解答數(shù)學高考題的水平,大模型在CMO的表現(xiàn),也讓他驚訝于AI發(fā)展的速度之快,“就像 10 年前的圍棋一樣,突破可能就是一剎那?!?/span>
上海人工智能實驗室發(fā)布的文章提到,此次Intern-S1 推理能力的提升得益于“通專融合”技術(shù)架構(gòu) SAGE(中文含義為智者),創(chuàng)新點在于以數(shù)學引理為核心的多輪分層推理機制,以及基于結(jié)果的過程校驗?zāi)P?,顯著提升了模型在超長程思考和證明時的嚴謹,還有通用模型結(jié)合專業(yè)符號引擎,讓通用模型掌握像人類科學家一樣逐步推導(dǎo)、探索和修正的思路。
AI在數(shù)學和推理領(lǐng)域的突破意味著什么?陳愷認為,這對教育和科研領(lǐng)域的落地都會很有幫助,此外,數(shù)學能力也是復(fù)雜推理等各種能力的基礎(chǔ),因此這一能力的提升和演進能進一步幫助大模型提升智力水平。
讓大模型輔助教育學習是已經(jīng)在落地的方向之一,AI可以給出解答和思考過程。而AI在奧數(shù)能夠拿金牌、達到人類第三的水平,就意味著在高中數(shù)學或者K12教育領(lǐng)域,AI的輔導(dǎo)能力更強了。此外,在科研方面,陳愷提到,有一些數(shù)學家已經(jīng)在用大模型在其科研過程中幫助做一些定理證明、開闊思路。
對于這次Intern-S1的答卷,有閱卷專家認為,AI對第四題的解答是“一個新的解法,巧妙的調(diào)整法,在學生的解法中沒有見過”。這意味著AI能突破人類解題思路局限,通過自主探索和分析找到新的解題方法,這對賦能科學發(fā)現(xiàn)有很大的意義。
上海人工智能實驗室在官方發(fā)文中表示,計劃將 Intern-S1 的長程推理能力拓展應(yīng)用于物理、化學、生命科學等基礎(chǔ)科研領(lǐng)域,通過與專業(yè)工具的打通與融合,實現(xiàn)從“長時間獨立思考”向“長時間獨立科研”轉(zhuǎn)變,進而加速各領(lǐng)域科研范式的變革,為科學突破提供支撐。
微信編輯 | 小羊
第一財經(jīng)持續(xù)追蹤財經(jīng)熱點。若您掌握公司動態(tài)、行業(yè)趨勢、金融事件等有價值的線索,歡迎提供。專用郵箱:bianjibu@yicai.com
(注:我們會對線索進行核實。您的隱私將嚴格保密。)


