近期,360集團(tuán)低調(diào)開源的視覺語言對齊模型FG-CLIP2,在全球科技圈掀起熱議。這款模型在涵蓋長短文本圖文檢索、目標(biāo)檢測等在內(nèi)的29項權(quán)威公開基準(zhǔn)測試中,全面超越了科技巨頭Google的SigLIP 2與Meta的MetaCLIP2,標(biāo)志著中國在AI基礎(chǔ)模型領(lǐng)域取得了又一突破性進(jìn)展。
FG-CLIP 2性能雷達(dá)圖
從“看得見”到“看得清”:攻克AI視覺“細(xì)粒度”難題
如果說OpenAI在2021年提出的CLIP模型,為AI配上了一副能“看清世界”的普通眼鏡;那么FG-CLIP2,則是為AI裝備了一臺“高精度光學(xué)顯微鏡”,使其能夠“洞察入微”。它成功攻克了CLIP模型長期存在的“細(xì)粒度識別”痛點。
傳統(tǒng)CLIP模型善于理解圖像的全局概念,但在區(qū)分細(xì)微的物體屬性、復(fù)雜的空間關(guān)系以及精準(zhǔn)的語言表達(dá)時,往往力不從心。FG-CLIP2則實現(xiàn)了質(zhì)的飛躍:它不僅能辨別出貓的具體品種,還能在遮擋情況下精準(zhǔn)判斷其狀態(tài);面對包含多個物體的復(fù)雜場景,其細(xì)節(jié)識別置信度仍高達(dá)96%。這種從“宏觀”到“微觀”的能力躍遷,是AI真正理解物理世界的關(guān)鍵一步。
FG-CLIP2效果案例
三大根本性創(chuàng)新,構(gòu)筑技術(shù)護(hù)城河
在模型核心上,它實現(xiàn)了三大根本創(chuàng)新:第一,層次化對齊架構(gòu),讓模型能像人眼一樣,同時把握宏觀場景與微觀細(xì)節(jié),實現(xiàn)從“看得見”到“看得清”的跨越。第二,動態(tài)注意力機(jī)制,使模型可以智能聚焦于圖像關(guān)鍵區(qū)域,以最小算力代價換取精準(zhǔn)的細(xì)節(jié)捕捉能力。第三,雙語協(xié)同優(yōu)化策略,從底層解決了中英文理解不平衡的難題,實現(xiàn)了真正的雙語原生支持。
卓越的性能離不開強(qiáng)大的底層支撐。FG-CLIP2依托于自研的超大規(guī)模高質(zhì)量數(shù)據(jù)集FineHARD。該數(shù)據(jù)集不僅包含詳盡的全局描述和千萬級的局部區(qū)域標(biāo)注,還創(chuàng)新性地引入了由大模型生成的“難負(fù)樣本”,極大地錘煉了模型的辨別能力。
通過一系列緊密結(jié)合的技術(shù)創(chuàng)新,F(xiàn)G-CLIP2成功攻克了長期困擾行業(yè)的“細(xì)粒度識別”難題,并將其領(lǐng)先能力通過API等形式開放,賦能千行百業(yè)的智能化升級。
告別“差不多”AI:細(xì)粒度視覺撬動產(chǎn)業(yè)新支點
專家介紹說,F(xiàn)G-CLIP2的價值不僅在于實驗室指標(biāo)的領(lǐng)先,更在于其廣泛而深遠(yuǎn)的行業(yè)應(yīng)用潛力,推動AI從“感知”走向“認(rèn)知”,從“可用”走向“好用”。
在電商領(lǐng)域,它能精準(zhǔn)理解“白色蕾絲邊、袖口有珍珠裝飾的連衣裙”等復(fù)雜描述,實現(xiàn)“所想即所得”的精準(zhǔn)搜索,徹底革新商品檢索與推薦體驗,減少退貨率,直接提升商業(yè)轉(zhuǎn)化。
在具身智能領(lǐng)域,它是機(jī)器人的“慧眼”,能精準(zhǔn)執(zhí)行“拿餐桌上的紅色水杯”或“把玩具放進(jìn)綠色收納箱”等指令,通過精準(zhǔn)識別物體屬性與空間關(guān)系,讓機(jī)器人在家庭、倉儲等復(fù)雜場景中的操作成為可能。
此外,其能力同樣賦能于AIGC內(nèi)容生成、內(nèi)容審核及安防監(jiān)控等多個關(guān)鍵場景,通過洞察細(xì)節(jié),確保生成內(nèi)容的精準(zhǔn)性、審核的可靠性以及安防檢索的高效性,為各行各業(yè)的智能化升級奠定了堅實的視覺理解基石。
FG-CLIP2的技術(shù)突破并非偶然,而是360對AI底層能力的長期堅持。此次開源FG-CLIP2,是360在AI基礎(chǔ)模型領(lǐng)域的一次關(guān)鍵落子,更為中國構(gòu)建自主可控的AI技術(shù)體系,添上一塊重要基石。
小涵 曉風(fēng)