喚醒古籍
中華古籍浩如煙海,凝結著先人智慧,記錄著綿延不絕的中華文明。
隨著歲月流逝,古籍正在慢慢“老去”,蟲蛀、絮化、粘連、缺損、霉蝕……稍不留神,極易受到損害。對珍貴古籍進行保護、修復和活用,關乎中華文脈的延續(xù)和傳承。我國從2007年起實施“中華古籍保護計劃”,對全國古籍開展普查、登記入庫,保住了一大批珍貴的古籍。但由于總量多、各地能力參差不齊,古籍保護依然面臨很大壓力。古籍不能束之高閣,卻又太過嬌貴,很難滿足公眾查閱的需要。隨著科技快速發(fā)展,這些困擾人們已久的難題有了突破性進展。
由北京大學數(shù)字人文研究中心主任、北京大學人工智能研究院副院長王軍帶領的古籍數(shù)字化團隊聯(lián)合企業(yè)開發(fā)的“識典古籍”平臺,將古籍從紙頁“搬”到了網頁。目前已經匯集1萬多部古籍,面向海內外讀者免費開放。
在科技的加持下,古籍不再遙遠。先人智慧與現(xiàn)代科技交融碰撞于泛黃的書頁,一冊冊古書典籍“活”起來。
北京大學數(shù)字人文研究中心主任王軍
從紙到指端
登錄“識典古籍”平臺,在網頁上點擊“進入大典”按鈕,《永樂大典》的前世今生、編纂方法、歷史價值等信息,伴隨著書頁翻開的動畫特效,緩緩地呈現(xiàn)在讀者眼前。
《永樂大典》被譽為世界有史以來最大的百科全書,匯集了先秦至明初各類典籍。但隨著時間的流逝,典籍幾經散佚,副本存世不及原書的4%。對學者而言,它是學術研究的重要資料;對普通讀者來說,很難有機會閱讀到古籍文本。
如今,《永樂大典》高清影像數(shù)據(jù)庫(第一輯)已經在“識典古籍”平臺上線,免費向公眾開放。借助現(xiàn)代數(shù)字技術,經典古籍濃縮在方寸之間,只需動動手指,塵封已久的歷史畫卷就會徐徐展開,成為觸手可及的文化資源。
一本古籍,是如何從紙頁“搬”到網頁的?
走進北京大學數(shù)字人文研究中心的古籍數(shù)字化實驗室,王軍師生團隊正在忙碌著——
平臺設計者、北京大學人工智能研究院副研究員楊浩正通過“識典古籍”平臺,在線整理書庫資源。他面前電腦的屏幕左側,顯示的是古籍書頁的高清圖片,右側為對照文字,“與平臺資源呈現(xiàn)形式相同,古籍的數(shù)字化也分圖像化和文本化兩步走?!彼毤毥庾x,古籍影像掃描是古籍數(shù)字化的基礎,但影像無法檢索,只有將圖像轉化成可以檢索的文字,才便于研究、閱讀和傳播。
首先就要對古籍進行圖像化處理,這一步類似日常工作中的掃描文件,不過為了保護脆弱的古籍,細節(jié)需要格外考究。比如,古籍掃描要使用專用的非接觸式掃描儀,通過高像素照相機,在盡量不按壓古籍頁面的前提下拍照;采用的光源也得是防紫外線的LED冷光源,減少對古籍的損害。
緊接著就是文本化階段——對古籍文字、排序、結構等內容進行精細化處理,這需要十足的專業(yè)功底。
人才領域有個“1萬小時定律”,說的是要成為某個領域的專家,需要累計達到1萬小時的學習和實踐,但是在古文字人才培養(yǎng)領域,這個定律不太靈。“1萬個小時恐怕都培養(yǎng)不出來一個熟手,兩萬個小時也未必能造就一個大師啊?!蓖踯娭毖裕瑩?jù)統(tǒng)計,全國各高校以及社會層面研究古典文獻專業(yè)的學者,一共也不到1萬人。
王軍給記者算了筆賬:我國現(xiàn)存古籍約有20萬種,從1949年到2019年,共修復整理出版了近3.8萬種。按照這個速度修復整理現(xiàn)存的全部古籍,可能需要300多年,“古籍修復速度趕不上老化速度?!?/p>
僅靠專業(yè)人才一字一句地翻譯、校對,難以完成如此重任。古籍的數(shù)字化亟須一場生產效率的變革。團隊請來了人工智能助手——
楊浩在平臺上演示:他上傳了一頁古籍圖像,由于時間久遠,有些文字已經模糊不清。大約10秒后,每個文字周圍都出現(xiàn)了一個不同顏色的小方框,并顯示出系統(tǒng)認為“可能的文字”?!昂谏硭惴ㄗR別的可信度比較高的字,一般不需要人工再去核對;藍色代表疑難字,需要工作人員重點關注;粉色方框代表已經經過人工校對,審核者可以核對是否正確?!睏詈普f。
話音剛落,古籍圖像中的全文清晰呈現(xiàn),句與句之間已經加注了標點,單擊文字即可修改調整。
“系統(tǒng)內剛剛經歷了一次飛速的運算,主要使用了文字識別、自動標點和命名實體識別等人工智能技術?!睏詈埔来谓忉?,文字識別技術,是對古籍數(shù)字圖像中的文字進行單個切分,再進行文字識別和順序讀出;自動標點技術,是通過序列標注的方式對古籍進行自動斷句,標出標點;命名實體識別技術,則是通過序列標注方法識別出文本中的人名、地名、書名、時間、官職等信息。
僅僅幾秒過后,一個個文字就“飛”出了古籍圖像,變成了可以檢索的文本內容。讀者不僅可以了解古籍的前世今生、編纂方法、歷史價值等信息,還可以實現(xiàn)繁簡體文字隨時切換。此外,閱讀時如果遇到生僻詞句,讀者也可選中文本,點擊“查看引用”,出處清晰可考。
工作人員只需復查部分結果,就能進一步提升準確率。
目前,“識典古籍”平臺文字識別的準確率達到96%以上,自動句讀的準確率達到94%,命名實體識別在中古史料上的準確率接近98%。
“識典古籍”平臺已匯集1萬多部古籍
再“聰明”一點
“天將降大任于是人”還是“天將降大任于斯人”?類似的對古文原文的討論,近年來頻頻受到關注。有網友說,記憶中,語文教材里是“斯人”,卻發(fā)現(xiàn)現(xiàn)在課本改成了“是人”。
到底是“斯人”還是“是人”?可以在“識典古籍”平臺直接搜索查看古籍原文。在平臺首頁搜索框中輸入該句出處《孟子》和相關字句,系統(tǒng)立即關聯(lián)出了孟子卷第十二“告子章句下”冊的原文和對應書頁圖像,正確答案——“是人”,一目了然。
目前,全國累計發(fā)布古籍及特藏文獻影像資源已達13.9萬部(件),其中由國家圖書館建設的“中華古籍資源庫”是全國古籍資源類型和品種最多、體量最大的綜合性資源共享發(fā)布平臺,發(fā)布的古籍影像資源超過了10.5萬部(件)。
隨著越來越多的古籍收藏單位對外開放古籍數(shù)字資源,古籍數(shù)字化不斷提速。
2020年5月,北京大學數(shù)字人文研究中心成立,計算機技術、歷史、古典文學、算法開發(fā)等多領域的人才聚集在一起,目標只有一個,為古籍保護和傳承做點力所能及的事情。
2022年4月,中共中央辦公廳、國務院辦公廳印發(fā)《關于推進新時代古籍工作的意見》,明確提出“推進古籍數(shù)字化”,強調“支持古籍數(shù)字化重點單位做強做優(yōu),加強古籍數(shù)字化資源管理和開放共享”。
王軍說,重磅文件推出后,團隊建設“識典古籍”平臺就此提速。
不過,平臺研發(fā)并非一帆風順??焖侔l(fā)展的同時,古籍數(shù)字化還存在薄弱之處,一些“壁壘”亟待打破。
以“搜索”功能為例,一次簡單的搜索動作,背后就有分詞、召回、排序3大步驟。
“讓AI(人工智能)去閱讀古文,需要有足夠多的語料去訓練算法?!蓖踯娬f,就像教小孩說話一樣,算法也需要從易到難的成長過程。
對于白話文,團隊可以依據(jù)積累的充足數(shù)據(jù)做分詞模型,然而涉及古文語料的內容,所有平臺的數(shù)據(jù)都十分匱乏。最終,大家通過已經公開的、少量的古籍分詞語料,利用半監(jiān)督學習和預訓練的技術,形成了現(xiàn)在的古籍分詞模型,以提高搜索精確率。
為了幫助讀者讀懂古籍,平臺上線了一個“古籍智能助手”的選項——選中讀不懂的古文原文點擊“問AI”,就可以看到這句話的解釋。讀者還可以和智能助手對話,讓它總結文本內容,提出可供參考的研究問題。
然而,“古籍智能助手”并非一直聰明,有時候可能還會說“胡話”。比如,古籍中常出現(xiàn)的“鹿鳴”一詞,在不同語境中有不同含義,有的就指鹿鳴叫,有的則代表古代宴群臣嘉賓所用的樂歌,還有的借指科舉考試。
“古籍智能助手”偶爾會生成張冠李戴的錯誤結果。
楊浩解釋,這是人工智能產生的“幻覺”。這個問題幾乎是大語言模型的“通病”。簡單來說,“幻覺”是指人工智能會生成貌似合理連貫,但同輸入問題意圖不一致、同人類知識不一致、與現(xiàn)實或已知數(shù)據(jù)不符合或無法驗證的內容。
“一本正經地說胡話?!彼f,在古籍領域,基于文言文本身就可能出現(xiàn)的閱讀障礙,由大模型產生的錯誤和“幻覺”會讓讀者更加難以分辨真假。
為了讓人工智能再“聰明”一點,團隊對“古籍智能助手”開展了一系列升級工作。例如,開發(fā)檢索增強生成技術,要求大模型根據(jù)從數(shù)據(jù)庫和字典中檢索到的、有一定可靠性的資料作答,在一定程度上限制了“幻覺”的產生。他們還嘗試在生成的答案后附加原文鏈接,讀者可以方便地去查證原文,并做出自己的判斷。
“‘古籍智能助手’的作用是提升查閱古籍的效率。它代替不了專業(yè)的學術判斷和閱讀積累,但我們希望它能為使用古籍的人節(jié)約時間、開拓新的思路。”王軍說。
在團隊的共同努力下,人工智能正在變得越來越“聰明”,對眉批、行間批注、表格等不規(guī)則的古籍版面,不僅能準確識別文字,還能通過針對性訓練優(yōu)化分區(qū)效果,從而避免出現(xiàn)單字識別正確但閱讀順序顛倒錯亂的情況。
“如果人工智能不介入,完全依靠人力,古籍數(shù)字化全部完成可能還需要上百年的時間。有了人工智能,完成全部古籍的數(shù)字化也許只要二三十年?!蓖踯娦判氖?。
“識典古籍”平臺的古籍文字校對頁面
涓流匯江海
集納和展示古籍數(shù)字版本,并非“識典古籍”平臺的全部功能。團隊師生還有個宏偉的目標——在平臺上匯集識別、排序、校對、結構整理、標點、實體識別等功能,實現(xiàn)古籍整理全流程的智能化處理。
“平臺由兩部分組成,前端是閱讀平臺,后端是古籍整理平臺。”王軍常常這樣比喻,“就像是餐廳的前廳和后廚。團隊師生作為后廚,整理上線古籍資源,把數(shù)字化資源端上閱讀平臺,與全世界的讀者共享饕餮盛宴。”
目前,作為“后廚”的古籍整理平臺,已經設定了團隊管理員、書目管理員、審訂員、整理員等各種用戶角色,以推進古籍整理項目和數(shù)據(jù)庫建設。平臺不僅面向專業(yè)人員開放權限,來自各行各業(yè)的古籍愛好者、歷史研究者也可以化身編校人員,參與古籍整理。
今年7月,北京大學數(shù)字人文研究中心以“識典古籍”平臺為依托,發(fā)起了“我是校書官”——古籍大眾智能整理計劃,邀請全國近千所高校的上萬名師生志愿者,在智能手段的輔助下,將傳統(tǒng)古籍加工成易于理解的文本。
這種“眾包模式”,在古籍保護和整理領域是首次嘗試。王軍說,目的是打造一個集合“古籍圖像上傳—文本校對整理—高質量標記—文本輸出”功能的全流程系統(tǒng),讓古籍與中華優(yōu)秀傳統(tǒng)文化潛移默化地走入更多人心中。
團隊先將經過人工智能處理的古籍文本,通過互聯(lián)網分發(fā)給在線編校人員。志愿者在電腦上對照古籍底本高清圖像逐字逐句審閱,并在古籍整理平臺上修改。管理員借助平臺的版本比對功能審閱修改記錄,判斷是否合格。
一群人,一條心,身體力行讓古典文獻重獲新生。
該中心工作人員傘紅雷一直參與“識典古籍”平臺的建設工作,在“我是校書官”項目中負責古籍選目、課程策劃、審核等工作。“我們著重挑選了一些海外館藏的珍貴善本,所選古籍內容都與大眾生活緊密相關,期待大家能挖掘出古籍與現(xiàn)代生活相契合的內涵。”他說,團隊還精心設計了古籍通識課程,邀請領域資深學者擔任主講嘉賓,廣泛普及古典文獻的基礎專業(yè)知識和古籍智能整理實操方法。
“我是校書官”項目一經啟動,便如同一顆文化磁石,迅速吸引了大批高校師生的踴躍參與?!拔覀?yōu)橹驹刚叽罱艘粋€交流互動的聊天群,隨著參與的人越來越多,又新建了二群、三群……點開群聊,仿佛置身于一場場學術研討會中,大家不斷圍繞各種異體字以及古籍內容等展開熱烈討論,相互協(xié)作攻克‘認字’難關。”
年輕人與古老的典籍相遇,激發(fā)出了更多的火花。
志愿者袁玲來自四川師范大學,從老師轉發(fā)的活動推送中看到大眾古籍整理計劃,抱著豐富實習實踐經驗的心態(tài),加入了參與古籍整理的隊伍?!拔乙娮C了志愿者從幾百人壯大到幾千人的過程,發(fā)現(xiàn)自己在古典文獻專業(yè)學習上并不孤單。大家互相請教、討論古籍整理中的疑難,素未謀面的人在一次次文字的推敲中相互溫暖?!彼f,不同于以往科研中“孤軍奮戰(zhàn)”的體驗,與這么多對古籍領域感興趣的愛好者相聚,讓她找到了歸屬感。
來自天津師范大學的志愿者鄧嘉儀是“古籍整理之星”,曾在一個月內累計完成了66項整理任務,成為當月完成任務最多的志愿者。在參與項目的那段日子里,她白天在博物館做志愿者,守護著陳列在展柜里的古籍,晚上坐在電腦前,在一字一句地識別、校對中,喚醒沉睡的古籍?!爱斂吹轿艺淼墓偶霞?,名字被列在古籍整理人的名單里時,我特別有成就感?!?/p>
文脈綿延,歷史接續(xù)。項目啟動5個月內,大家就整理了近2億字、超1500種古籍。
“希望通過‘識典古籍’平臺和‘我是校書官’等活動,推動中華文明傳承發(fā)展,向世界展示和傳播我們的文化之美?!迸R近年末,王軍許下新年愿望:2025年,希望能收集更多古籍、提升整理質量,更好守護古籍這個文明之根。
古籍數(shù)字化只是開始。
王軍暢想,未來可以利用人工智能進行古籍的輯佚、匯編、注解、翻譯、檢索、索引甚至考證和摘要工作。更重要的是,利用人工智能開發(fā)古籍,用古籍蘊含的浩瀚素材創(chuàng)作生成內容,“我們離這個目標越來越近了。”