揚(yáng)子晚報(bào)網(wǎng)1月7日訊 (記者 薄云峰)1月5日,由南京大學(xué)歷史學(xué)院數(shù)智史學(xué)實(shí)驗(yàn)室主辦的南京大學(xué)數(shù)智文獻(xiàn)處理平臺(tái)暨近代紅色資源庫(kù)發(fā)布會(huì)在南京舉行。
![]()
會(huì)議現(xiàn)場(chǎng)。 薄云峰 攝
在浩瀚的書籍等史料中,利用數(shù)智文獻(xiàn)技術(shù)可實(shí)現(xiàn)有效信息的快速檢索,同時(shí)也可實(shí)現(xiàn)高效的數(shù)據(jù)拼圖。記者打開(kāi)南京大學(xué)數(shù)智文獻(xiàn)處理平臺(tái),首頁(yè)上的“史冊(cè)新生·萬(wàn)卷可及”特別形象描繪出該平臺(tái)的使用特點(diǎn)。
該平臺(tái)采用高度友好的交互設(shè)計(jì),用戶無(wú)需任何編程基礎(chǔ),通過(guò)文獻(xiàn)一鍵導(dǎo)入即可輕松上手。支持批量文獻(xiàn)一鍵導(dǎo)入,將復(fù)雜的技術(shù)環(huán)節(jié)封裝于后臺(tái)。上傳文獻(xiàn)后即收入“個(gè)人圖書館”,打造智能時(shí)代專屬藏書庫(kù)。
平臺(tái)介紹。 薄云峰 攝
平臺(tái)集成了前沿的多模態(tài)大語(yǔ)言模型,在OCR文字識(shí)別與跨語(yǔ)言翻譯兩大關(guān)鍵環(huán)節(jié)實(shí)現(xiàn)突破。 不僅能高精度識(shí)別印刷體、手寫體、豎排及多語(yǔ)種文本,更能結(jié)合歷史語(yǔ)境進(jìn)行語(yǔ)義化翻譯,顯著提升原始文獻(xiàn)的數(shù)據(jù)化質(zhì)量與效率。
![]()
平臺(tái)介紹。 薄云峰 攝
數(shù)智史學(xué)實(shí)驗(yàn)室負(fù)責(zé)人、南京大學(xué)歷史學(xué)院助理教授金伯文介紹,該平臺(tái)是基于生成式大語(yǔ)言模型打造的資源庫(kù),通過(guò)ORC增強(qiáng)和智能優(yōu)化,將非結(jié)構(gòu)化內(nèi)容數(shù)字化,進(jìn)行語(yǔ)義校正與漏識(shí)補(bǔ)全,能快速準(zhǔn)確地進(jìn)行多語(yǔ)種翻譯,依靠強(qiáng)大的翻譯能力和自然語(yǔ)言能力,支持跨語(yǔ)種檢索和語(yǔ)義檢索,實(shí)現(xiàn)了史學(xué)文獻(xiàn)識(shí)別、編目、檢索以及人機(jī)交互、寫作的高度智能化。
以“明清海洋史研究多語(yǔ)種文獻(xiàn)數(shù)據(jù)庫(kù)”為例,共計(jì)收錄1000余冊(cè)文獻(xiàn),共計(jì)7億字,多為 15、16世紀(jì)西班牙語(yǔ)、葡萄牙語(yǔ)等文獻(xiàn),實(shí)現(xiàn)全文識(shí)別與翻譯。龐大的工作量通過(guò)數(shù)智技術(shù)極大提高效率,南京大學(xué)歷史學(xué)院明史研究中心1名青年教師帶領(lǐng)3位碩士生,僅耗時(shí)1-2月完成。
談及人工智能時(shí)代的史學(xué)研究,南京大學(xué)歷史學(xué)院院長(zhǎng)梁晨認(rèn)為,人工智能可以高效處理規(guī)范性的基礎(chǔ)性研究任務(wù),從而解放人腦,使人們?cè)趯W(xué)術(shù)研究中有更多精力思考更為復(fù)雜、更具有深刻價(jià)值的學(xué)術(shù)問(wèn)題。
校對(duì) 陶善工