計(jì)算機(jī)視覺技術(shù)作為AI的“眼睛”,是當(dāng)前人工智能領(lǐng)域的重要研究方向。近期,計(jì)算機(jī)視覺領(lǐng)域三大頂級學(xué)術(shù)會議之一的國際計(jì)算機(jī)視覺大會(ICCV 2025)順利舉行。會議期間,合合信息聯(lián)合上海交通大學(xué)等機(jī)構(gòu)主辦了首屆VQualA視覺質(zhì)量評估研討會,同時,為了推動建立智能文檔圖像處理技術(shù)的標(biāo)準(zhǔn)化評估體系,研討會設(shè)置了文檔圖像質(zhì)量評估競賽,競賽吸引了來自全球知名高校和研究機(jī)構(gòu)的上百名選手參與。
文檔圖像質(zhì)量評估競賽旨在推動開發(fā)與人類判斷一致的質(zhì)量評估模型。經(jīng)過多輪評審,參賽隊(duì)伍DeQA-Doc提交的技術(shù)方案成功將多模態(tài)大模型在圖像質(zhì)量評估上的卓越性能延伸應(yīng)用至文檔圖像領(lǐng)域,模型評分位居賽道榜首。
在數(shù)字化趨勢下,文檔圖像已成為信息傳播的核心載體。然而,經(jīng)過手機(jī)、相機(jī)等設(shè)備采集的文檔圖像往往會受外部環(huán)境影響,出現(xiàn)陰影、紙張彎曲等問題,智能文檔圖像處理技術(shù)可通過去模糊、幾何校正等技術(shù)提升圖像質(zhì)量,但如何科學(xué)地評估這些算法的優(yōu)化效果仍然是業(yè)界面臨的挑戰(zhàn)。傳統(tǒng)的評估指標(biāo)與人眼實(shí)際的感知效果脫節(jié),主觀評估效率低,不適合大規(guī)模算法評估。本次競賽上,來自全球的上百名選手為解決這一問題提出多種技術(shù)解決方案,助力優(yōu)化文檔處理系統(tǒng)。
AI行業(yè)的發(fā)展既需要從長期實(shí)踐中洞察真實(shí)痛點(diǎn),也需要前沿技術(shù)破解特定難題,這也是此次競賽的目的。合合信息專注于多模態(tài)文本智能技術(shù)的研發(fā),此前,在智能圖像處理等領(lǐng)域,合合信息已與上海交通大學(xué)圍繞“企業(yè)出題、高校攻關(guān)”的課題研究模式展開持續(xù)合作,旨在打通從學(xué)術(shù)創(chuàng)新到產(chǎn)業(yè)應(yīng)用的轉(zhuǎn)化路徑。
揚(yáng)子晚報(bào)/紫牛新聞記者 徐曉風(fēng)
校對 胡妍璐