亚洲综合一区国产系列|国产无码精品一区二区|日韩久久久久久无码精品|国产在线911福利免费|国产超碰人人做人人爽AV|亚洲欧洲闷骚AⅤ妇女影院|91精品久久久久久久久无码|亚洲精品ty久久久久久久久久

    <td id="bknjv"><ins id="bknjv"><th id="bknjv"></th></ins></td>
    <i id="bknjv"><ins id="bknjv"></ins></i>
    <td id="bknjv"><ins id="bknjv"><label id="bknjv"></label></ins></td>
    <small id="bknjv"><dl id="bknjv"></dl></small>
    <td id="bknjv"><ins id="bknjv"><label id="bknjv"></label></ins></td>
    <p id="bknjv"><tr id="bknjv"></tr></p>

    深瞳丨AI出手,破解“整理國故”百年難題

    2025-05-08 07:52:19 來源: 科技日報 點擊數(shù):

    深瞳工作室出品

    科技日報記者 楊雪 策劃 劉恕 李坤

    1919年,胡適在《新青年》雜志上發(fā)起了著名的“整理國故”運動,旨在“研究問題、輸入學理、整理國故、再造文明”。一個世紀過去了,整理古籍任務仍然艱巨。書卷浩如煙海,人才門檻高筑,無不令專家感嘆:“想完成全部古書的整理,可能得300年?!?/p>

    而當古老的文化載體遇見最年輕的技術手段,偉大的奇跡或許就會顯現(xiàn)。在機器學習和成千上萬志愿者助力下,一本本塵封的古書被一一翻開。

    近日,“我用AI校古籍——我是‘校書官’古籍大眾智能整理計劃(2025年)”(以下簡稱“我是‘校書官’”項目)在武漢大學啟動。該項目吸納了上萬名志愿者,預計將在一年內整理數(shù)千萬字的古籍,并將整理結果在“識典古籍”平臺上向大眾免費呈現(xiàn)。

    如果說修復和整理古籍是與時間賽跑,AI就好比戴宗的“神行甲馬”,實現(xiàn)了整理速度的幾何級提升。

    從小作坊到流水線,整理速度提升20倍

    華東師范大學古典文獻學在讀博士生劉帥曾經懷疑過AI。2017年他用過古籍整理軟件,感覺其頗為雞肋。然而,2024年9月,當聽到“我是‘校書官’”項目借助“識典古籍”平臺,一個月整理了5000多萬字的古籍時,他震驚了:“我一年能整理幾十萬字就很了不起了?!?/p>

    “識典古籍”整合了國內頂尖AI研發(fā)團隊的開發(fā)能力和北京大學深厚的學術積淀。古籍整理被拆分成許多環(huán)節(jié),主要包括文字識別、文字校對、結構整理、標點校對等。這些環(huán)節(jié)借助AI,大大節(jié)省了人力。

    打開“識典古籍”平臺,上傳一張古籍圖片后,光學字符識別(OCR)技術將對圖片中的人名、地名、書名、時間和職官,平臺可以自動標記。對于OCR不確定的字,會用不同顏色標記出來,便于定位這些文字,然后參照底本修改。在文字精校環(huán)節(jié),可以匹配兩套不同的文本,在文字??杯h(huán)節(jié),可以比較差異、撰寫數(shù)字??庇洝?/p>

    北京大學數(shù)字人文中心副主任楊浩做過測試,AI自動標點準確率超90%,翻譯古文也達到專家水平?!肮偶畼它c是一大難點?!眲浾f,如今他遇到疑問,就會去對照“識典古籍”的自動標點——有點像圍棋愛好者向AlphaGo學棋。

    楊浩說,傳統(tǒng)的古籍整理以出版為目的,正確率要求極高,相應門檻也高,即便古籍專業(yè)的學生也經常出錯,難以獨立承擔項目。大部分項目都是一個專家負責一種書,從頭做到尾,因此效率很低。

    現(xiàn)在有了機器學習,AI在閱讀大量人類成果后,對古文具備了相當?shù)摹罢Z感”。在“我是‘校書官’”項目中,AI先初步整理古籍,逐字校對,再由大眾志愿者來校對,最后把難點提交給專家。“AI改變了工作流程,分包制度降低了門檻,傳統(tǒng)的手工作坊變成流水線工廠了。”劉帥說。

    AI的應用讓對古籍感興趣的人都可以參與進來?!拔沂恰佟表椖恳劳小白R典古籍”平臺,由全國22所高校承辦,現(xiàn)已有數(shù)以萬計的學生報名,許多人的專業(yè)可能與古籍無關。在去年的“我是‘校書官’”項目中,志愿者按水平被分為大眾組和進階組,前者負責粗校,后者負責精校。大眾組已粗校整理了1643部古籍,進階組精校整理了共計2451萬字。

    2024年9月,劉帥也參加了“我是‘校書官’”項目,頭一個月初步整理出200萬字的古籍,這是過去速度的20倍。接下來他每天抽出兩三個小時,一個月就整理完一部49萬字難度頗大的古籍,而且整理質量很高。整個項目3個月,劉帥校點、標注、排版、審閱的書一共191種,總字數(shù)達500萬以上。

    辨識“廬山真面目”,正確率節(jié)節(jié)攀升

    把古籍從圖書館庫房搬到電子資源平臺,實現(xiàn)整理速度幾何級提升,主要歸功于AI“識古”的智慧——它能讀出黯淡缺損的古書,或解讀晦澀難辨的符號。

    以前,古書很難數(shù)字化。傳統(tǒng)的文字識別軟件是為打印材料設計的。對于識別古書,機器經?!吧笛邸保阂粋€字往往有不同寫法,字體風格不一樣,書中還有并非漢字的筆畫符號。另外,古書經常有折痕和破損缺字,墨跡黯淡,這也是為什么各大圖書館的古籍數(shù)字化多年來進度緩慢、嚴重依賴人工的重要原因。

    培育專業(yè)“識字匠”往往需要多年時間,但有了機器學習,一些有難度的辨識工作,可由AI代勞。

    國際上,AI復原龐貝古卷的成就,讓人們對其潛力充滿信心。公元79年被火山灰掩埋的赫庫蘭尼姆莎草卷軸已經碳化,無法展開。通過CT影像,人們得到了卷軸上微弱的墨水痕跡圖像,但仍然無法識別。3位年輕人通過機器學習技術,從圖像里推斷出超2000個字符,連起來是一段與伊壁鳩魯哲學有關的文字。這一消息2024年發(fā)布后,讓國際古典學界非常興奮。

    AI辨識那些塵封已久的破舊古籍,有點像AI修復老照片。2024年,“我是‘校書官’”項目采用AI技術修復上千年前的敦煌古卷《漢書·刑法志》。AI學習了原版古籍的文字、筆畫風格和頁面紋理,把缺損文字按原來的字體、色彩、背景修復還原,最大程度確保與原古卷一致。另一個AI項目則補全了殘缺的《蘭亭序》清晰樣貌,其筆畫細節(jié)遵照王羲之的技巧風格。

    “我們設置了‘追溯原本’功能,有疑問的話可以一鍵找到原文進行人工比對、校準?!倍兑艏瘓F企業(yè)社會責任部古籍項目產品負責人王宇介紹,他們正在針對識別手寫字、異體字、復雜版式、插圖等精進算法,力求不斷提升正確率。

    全國高等院校古籍整理研究工作委員會副秘書長吳國武說,提高AI水平還需要更優(yōu)質的訓練數(shù)據(jù)。比如,一些已有的整理本,版權在整理者、出版社?!耙胩嵘鼳I辨識力,需進一步建立共享合作機制,促進數(shù)據(jù)的開發(fā)與利用。”

    目前,國內已有針對甲骨文整理識別的AI項目:通過閱讀現(xiàn)存的海量甲骨文圖像,AI整理出幾千個甲骨文字符,并在不同甲骨文材料之間找到聯(lián)系,為解讀工作提供基礎。

    實際上,越是鮮有人問津的生僻符號,越適合AI展露身手。我國少數(shù)民族先后創(chuàng)制和使用過30多種古文字,國務院公布的六批《國家珍貴古籍名錄》中,收錄了少數(shù)民族古籍1133部,國家圖書館收藏的民族古文獻就有18個文種,共34000多冊件。這些古籍的數(shù)字化和整理工作更缺專業(yè)人才,也更需要AI的加持?!斑@些材料的數(shù)字化與整理,今后有望大量依靠AI來完成?!蓖跤钫f。

    加快人才培養(yǎng),讓古籍走出“高閣”

    國家古籍保護中心調查結果顯示,我國現(xiàn)存20多萬種古籍,存世50萬個版本,古籍數(shù)量達3200多萬冊。我國從20世紀80年代就開始嘗試古籍數(shù)字化,但受技術、資金、版權等因素限制,海量文獻中實現(xiàn)數(shù)字化的不超過八萬種,而且許多書只是完成了初步的影像掃描,真正實現(xiàn)文本數(shù)字化的不足四萬種。

    吳國武告訴記者,目前全國范圍內專業(yè)從事古籍整理的人員僅有一萬人左右。

    海量古籍面前,現(xiàn)有的整理方式如同愚公移山。古籍整理專業(yè)人才匱乏,生產力低下,一直是阻礙“整理國故”進程的世紀難題。

    百年前胡適痛感,古籍缺乏系統(tǒng)性導致“一般青年,對于中國本來的文化和學術,都缺乏研究的興趣”,這一問題至今未得到很好解決。古籍研究仍是冷僻的學問,許多古籍從未向大眾開放。

    2022年,中共中央辦公廳、國務院辦公廳印發(fā)的《關于推進新時代古籍工作的意見》明確提出,推進古籍數(shù)字化。全國古籍整理出版規(guī)劃領導小組印發(fā)的《2021—2035年國家古籍工作規(guī)劃》則將“國家古籍數(shù)字化工程”列為四項重大工程之一,對相關工作進行詳細規(guī)劃。

    “使用AI完成古籍整理的前期基礎工作,效果很好?!眳菄浒袮I視為合作者,而不是簡單的工具。在他看來,AI的加盟讓全民得以了解甚至參與古籍整理這件事,可以說是廣植“整理國故”的沃土。

    例如,“識典古籍”平臺已免費上線超16000部古籍資源,累計吸引上億人次了解和閱讀古籍,為1300余個外部團隊的古籍整理工作提供幫助。這已成為文獻學界近年來最矚目的大事。

    2024年底,著名的古籍整理工程《儒藏》與“識典古籍”平臺展開合作。《儒藏》是新中國成立以來最大規(guī)模的儒學典籍整理工程,旨在收錄自先秦至清末的所有儒學文獻,預計總體達到10億字。它沒有采取相對容易的影印方式,而是志在整理出便于現(xiàn)代人閱讀的文本,這給參與項目的學者帶來了難以想象的工作量。引入AI后,影印文獻的整理標注將大大加速,相關整理成果也會公布在“識典古籍”平臺上,實現(xiàn)全民共享。

    “AI可以幫學者快速定位到需要的材料,還支持同時比對10個以內的校本,讓專家把寶貴時間都用來干技術含量高的活兒?!蓖跤罱榻B。同時,“我是‘校書官’”項目的進階組志愿者,也有機會與《儒藏》工程的專家團隊交流。這個以在校生為主的項目,或許能使他們中的一些人未來走上“整理國故”的專業(yè)道路。

    AI的加盟也創(chuàng)新了古籍整理人才培養(yǎng)模式。吳國武介紹,目前高校里古典文獻專業(yè)大多開設了數(shù)字人文相關的交叉培養(yǎng)課程;有7所高校已經申請了數(shù)字人文的本科專業(yè),古籍整理也是重要方向。“交叉融合專業(yè)培養(yǎng)出來的人才,未來有望填補古籍專業(yè)大模型的人才缺口?!?/p>

    去年以來,國內許多著名圖書館、博物館也積極引入AI技術,保護和挖掘自己的館藏古典資源。國家圖書館藏現(xiàn)存最早版本的元大德三山郡庠刻本《通志》、首都圖書館藏《皇朝禮器圖》、浙江圖書館藏文瀾閣《四庫全書》……一系列珍貴典籍,將通過AI的修復,重光臨世。

    面對這一波熱潮,劉帥很興奮。他希望AI吸引更多的愛好者嘗試整理古籍。“公眾對古籍的關注、熱愛和參與程度,決定了古籍整理的天花板有多高。我覺得自己站在一個時代改變的前夜?!彼f。

    AI的速度,人類無法企及,劉帥也曾擔憂過自己會不會失業(yè)。但如今他認為,AI的“識古”基礎是人工整理的高質量數(shù)據(jù),無論技術如何發(fā)展,仍需要人去參透古書的秘密,使文化遺產薪火相傳。

    “降低古籍的閱讀和整理門檻,始終是文獻學的核心目的。”劉帥說。

    【記者手記】

    AI激活古籍,也激活了慕古之心

    楊雪

    盡管高中語文不算差,古文閱讀仍然讓我頭疼。閱讀試卷上的古文節(jié)選都頗為吃力,更不敢研究繁難古奧的原本了。

    古籍傳播受困于“三重門”:古字難認,古文難懂,古書難尋??上驳氖?,AI正在拆除這“三重門”,讓沉睡在藏書閣的古書,轉化成人人可享用的文化盛宴。

    機器的嘀嗒聲中,一卷卷斑駁的文卷正被掃描成像,蟲蛀嚴重的刻本被逐幀修復,墨跡深淺與刻本刀痕高度還原……一個古籍修整的黃金時代已經來臨。未來幾年,將有成千上萬冊古籍被納入大眾的知識圖譜,這必將提升普通人對古老文明的認知與感情。

    目前全國古籍修復從業(yè)者僅千人。去年,國家圖書館聯(lián)合抖音集團等推出微短劇《重回永樂大典》,講述了塵封在古籍中的“書靈”輔助初入行“小白”一路成長為優(yōu)秀古籍修復師的故事。借微短劇的熱度,古籍修復師這個冷門職業(yè)被呈現(xiàn)在大眾特別是年輕人面前。

    古籍修復一般需經過10年以上的專業(yè)訓練,用毛筆、糨糊、鑷子等工具完成“一頁一策”的修復,工作很精細,過程很慢。如今,AI的加持打開了古籍整理事業(yè)新局面,也希望能夠由此讓更多人看見古籍修復師“擇一事終一生”的匠人精神,給這個人才稀缺的“冷板凳”一些照拂。

    AI修復和整理古籍帶來的社會效應,讓古籍真正走向大眾,降低了普通人摩挲中華文脈的門檻。不論是用AI修復敦煌壁畫,還是拼接文書殘片,不論是機器學習理解甲骨文的占卜邏輯,還是用知識圖譜重現(xiàn)《山海經》的地理脈絡,抑或是化典籍為視頻,這些工作讓我們看到《齊民要術》的勞動細節(jié),大宋汴梁城的日常生活……就像錢鐘書先生曾說過:“古典誠然是過去的東西,但是我們的興趣和研究是現(xiàn)代的。”

    AI激活了古籍,也種下熱愛古老文化的種子。這些種子不再休眠于古老的地層之下,而是長成我們精神家園里的常青藤。

    責任編輯:孫瑩

    抱歉,您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式,這會影響您正常瀏覽本網(wǎng)頁

    您可以進行以下操作:

    1.將瀏覽器切換回極速模式

    2.點擊下面圖標升級或更換您的瀏覽器

    3.暫不升級,繼續(xù)瀏覽

    繼續(xù)瀏覽
    洱源县| 马龙县| 长沙市| 彭山县| 哈尔滨市| 石河子市| 封开县| 沾益县| 陵川县| 哈尔滨市| 富阳市| 洪江市| 钟祥市| 安陆市| 九寨沟县| 西安市| 通化市| 宣化县| 柳江县| 百色市| 绍兴县| 涪陵区| 南和县| 石家庄市| 冷水江市| 得荣县| 淮滨县| 宝山区| 海伦市| 天津市| 武宁县| 英吉沙县| 荥经县| 宜兰市| 维西| 迁西县| 锦州市| 弋阳县| 蓬莱市| 马边| 尼玛县|