11月4日,備受關(guān)注的AI大模型實(shí)時(shí)投資比賽“Alpha Arena”落下帷幕,阿里千問Qwen奪下最終的冠軍。該競賽由三方機(jī)構(gòu)Nof1于10月18日發(fā)起,集合Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4等全球六大頂尖模型,每個(gè)模型擁有一萬美元初始資金,在真實(shí)市場上無人工干預(yù)地自主決策、交易,根據(jù)盈虧情況決出最后冠軍。歷時(shí)17天,阿里千問Qwen以超20%的收益率奪得最后的冠軍,Qwen和DeepSeek兩款中國模型也成為唯二盈利的模型,而四大美國頂尖模型全部虧損,GPT-5虧損超60%墊底。
AI大模型在各種性能基準(zhǔn)榜單中屢創(chuàng)新高,如何評估大模型在真實(shí)、動(dòng)態(tài)、競爭激烈的環(huán)境中的決策水平,是當(dāng)下AI競技場最受人關(guān)注的領(lǐng)域。美國人工智能研究實(shí)驗(yàn)室 nof1.ai 發(fā)布的“Alpha Arena”(阿爾法競技場),向六大頂尖模型提供1萬美元及金融市場的實(shí)時(shí)價(jià)格及各類指標(biāo)數(shù)據(jù),讓大模型在真實(shí)市場中用真金白銀進(jìn)行投資比賽,全程沒有人工干預(yù) ,模型進(jìn)行自主決策和交易,是AI處理實(shí)時(shí)變動(dòng)的現(xiàn)實(shí)世界任務(wù)的真實(shí)評測,也因此成為近期最火熱的AI大賽。
比賽初期,六大模型相對謹(jǐn)慎,大約5天后,參賽模型大致分為三大陣營:阿里千問和DeepSeek成功領(lǐng)先,屢次互換第一,始終位列第一梯隊(duì);Claude Sonnet 4.5和Grok4在相近策略驅(qū)動(dòng)下,維持在第二陣營,略有盈利,整體仍虧損;GPT-5、Gemini 2.5 Pro兩大模型則長期虧損墊底。
截至北京時(shí)間11月4日早上比賽結(jié)束,阿里千問憑借在關(guān)鍵時(shí)刻的緊急避險(xiǎn),最后關(guān)頭超越DeepSeek,Qwen以超20%的勝率問鼎冠軍;DeepSeek實(shí)現(xiàn)盈利,位列第二,兩大中國模型成為唯二仍保持正收益的大模型;Claude 4.5 Sonnet、Grok 4、Gemini 2.5 Pro和GPT-5四大海外模型均虧損,Gemini 2.5 pro和GPT-5虧損尤為明顯,截至最終持倉總市值僅為初始資金的三四成。
賽事主辦方Alpha Arena的創(chuàng)辦人Jay Azhang多次為阿里千問Qwen模型策略及表現(xiàn)點(diǎn)贊,并祝賀阿里千問最終贏得冠軍。有業(yè)內(nèi)專家指出,阿里千問和DeepSeek在實(shí)戰(zhàn)中的優(yōu)秀表現(xiàn),證明了中國模型在解決實(shí)際問題的強(qiáng)大潛力,AI對于場景的深刻理解,將成為大模型落地和未來全球AI競賽的關(guān)鍵。
比賽鏈接:https://nof1.ai/
玉蕾 曉風(fēng)
校對 陶善工