1. 核心基礎:《大正藏》與《卍續藏》
CBETA 以「佛典集成」為目標,前期作業以「大藏出版株式會社」授與協會使用之《大正新脩大藏經》(以下簡稱《大正藏》)為底本(圖一),擇其中與漢傳佛教較為相關之第一冊至第五十五冊以及第八十五冊,主要內容有歷代漢譯之〈印度撰述部〉與中國祖師著述之〈中國撰述部〉,共五十六冊,進行藏經電子化工作。

圖一、《大正新脩大藏經》
在大正藏之後進行數位化之藏經為《卍續藏》(圖二),選定《大正藏》乃因其為國際上佛學研究之權威版本,現成電子檔與相關資源較多;《卍續藏》有極為豐富的中國祖師大德著述,深具價值;加以《大正》與《卍續》兩藏皆為鉛字排版,較適合輸入作業的進行;若集兩藏,重要的漢文佛典幾乎囊括大部份(圖三),此乃 CBETA 選定材料之優先原則。

圖二、《卍續藏》

圖三、《大正藏》與《卍續藏》之關係圖
2. 擴大收錄:藏經補輯與重要文獻
在核心基礎上,CBETA 持續擴大收錄,補足《大正藏》與《卍續藏》未收的典籍。
歷代藏經補輯:為持續進行的重點項目,收錄《大正藏》與《卍續藏》中的未收之佛典。內容包括房山石經、趙城金藏、高麗藏、永樂北藏等,其中以《嘉興藏》的內容最為豐富。
藏外佛教文獻與史料:收錄傳統藏經以外的重要文獻,例如《藏外佛教文獻》、《正史佛教資料類編》及《北朝佛教石刻拓片百品》等。
重要佛典集成:收錄其他具有重要版本或文獻價值的佛典,如《國家圖書館善本佛典》與《漢譯南傳大藏經》。
3. 當前重點:近現代佛教文獻
為使佛典集成更具時代延續性,CBETA 將近現代的重要佛教著作納入選材重點。
近代新編文獻:收錄如《大藏經補編》、《中國佛寺志》等。
近現代大德著作:收錄如《印順法師佛學著作集》、《呂澂佛學著作集》、《太虛大師全書》等對近現代佛教影響深遠的完整著作集。
整體而言,CBETA 選定材料從《大正藏》、《卍續藏》兩大核心出發,逐步擴及歷代藏經、南傳典籍、重要文獻與史料、近現代大德著作,朝向「漢傳佛教文獻完整收錄」的目標持續推進。
為確保數位化前後環節銜接順暢,各項流程需制定作業規範以利工作遵循。這些規範來自經驗累積,且以最終目標——「XML 標記」為考量。 CBETA 針對幾項數位化重要作業:輸入、校對、缺字、簡單標記、 XML 標記等,皆制定詳盡之作業規範。
(一)輸入
輸入規範包括對本文、本文以外之符號標誌,以及圖片、表格等等狀況提出規定,例如一般本文、夾注小字、段落,本文以外之頁碼、欄位、校勘符號,或是空白字元、空白行、表格、圖形、缺字……等。
(二)校對
採用「檔案比對」程式進行校驗,因此校對規範著重於比對前之格式化準備,以及程式之使用方式與程序。
(三)缺字
經文中常可見非現行使用之古漢字、異體字或特殊符號等,不論是過去採用的 BIG5(大五碼)系統,或是現今通用的 Unicode 編碼系統,都仍可能出現無法收錄的字元。因此需建立一套缺字處理辦法,例如制定組字式規範,並以缺字資料表記錄與管理缺字。
(四)簡單標記
簡單標記規範經文之經號、經名、作者、標題、段落…等之文字屬性。以簡單符號記錄,較 XML 標記容易上手。
(五) XML 標記
使用 XML 做為佛典電子檔的標記語言,並採用國際規範 TEI(Text Encoding and Interchange)做為基礎標籤集,再依實務標記作業經驗,修訂或新增標籤,建立適用於漢文電子佛典的標籤集。
掃描需將藏經原書或原書之影本拆卷,裁切騎縫邊,以散裝方式進行掃描。掃描要點如下:
早期使用具備「自動送紙功能」與「自動編號存檔」之掃描器,可一次自動掃存五十頁,程式能依冊、號編名存檔,之後再以圖形處理軟體快速瀏覽圖檔以檢查掃描狀況。現因人員及成本效益考量,委託外部廠商執行。
掃描產生之圖檔(圖四)需先設為較高階影像:解析度 300dpi 以上,色彩模式灰階或黑白,以供日後依不同目的降階應用。圖檔除提供「 OCR 辨識」使用,並備為「看圖校對」查看,故再將圖檔由灰階轉成 TIFF-g4 黑白格式,檔案既小,畫質又清晰。

圖四、原書掃描之圖檔
對於大量佛典經文的輸入,應針對不同內容,選擇採用人工輸入或是掃描圖檔辨識的方法來產生文字檔。
輸入方法有三種,分別為收集現成電子檔、人工輸入,以及 OCR 圖檔辨識。決策方式為:如一佛典已有現成電子檔,則該電子檔可供日後檔案比對使用;無電子檔又難以透過 OCR 辨識之文字,如手抄本與刻版經文,則採用人工輸入。
不論使用何種輸入方式,一部經文至少需產生兩份電子檔。
(一)收集現成電子檔:
早在 CBETA 成立之前 ,網路上已流傳許多對佛典有興趣之志工團體的輸入電子檔,或是其他佛教機構、學術單位研發之電子佛經。
現成電子檔之收集大都以流通較廣的經文為主,這些電子佛經(圖五)通常不符合 CBETA 之規定格式(如需加註頁、欄資訊);故收集得來之檔案在檔案比對前,還需經過格式化之後續處理。

圖五、《大正藏》之現成電子經文
(二)人工輸入:
無法使用 OCR 辨識軟體辨識之佛經,委外交由專業承包公司進行人工繕打。
委外之前,必須事先制定輸入規範,將之交與廠商人員比照辦理。人工輸入產生之純文字電子檔,需包含頁、欄資訊(圖六),以及依冊號順序命名之檔案名稱。人工輸入成本約每千字五十元。

圖六、委外人工輸入產出之電子檔
(三) OCR 圖檔辨識:
1. 去除雜點
經文書上常有異於文字之讀音符號與注釋標記(圖七),嚴重影響 OCR 辨識之判讀結果;故掃描後之經文圖檔,須先以程式去除雜點,產生一新 TIFF 圖檔。

圖七、含讀音符號與雜點之原始掃描圖檔
2. OCR 圖檔辨識
將去除雜點後之新圖檔,匯入丹青公司特別為本協會量身訂作之 OCR 程式進行辨識(圖八),產出一份經文之「純文字檔」。

圖八、丹青 OCR 操作介面
該程式與一般辨識程式不同處在於「丹青 for CBETA 」可判讀經文特有之雙排小字(圖八)。
隨著人工智慧(AI)技術的進步,現今的 OCR 工具在辨識準確度與自動化程度上已大幅提升。特別是搭配深度學習模型的 AI OCR 系統,能更靈活地處理多樣化的字體、排版與舊版印刷體,使經文數位化作業更為高效、方便,亦可減少後續人工校對的工作量。目前 CBETA 亦已導入並持續評估多種 AI OCR 技術,以配合不同版本與格式的數位化需求,逐步提升整體作業效率與品質。
3. 字串取代
使用「常錯字串取代程式」,以正確字串快速批次取代 OCR 後可能之常錯字串(圖九),免除逐字校對之不便,約可提升純文字檔文字精確度至 90% 。

圖九、 OCR 常錯字串取代表
進行至此,輸入步驟可能產生三種皆未格式化(未加行首資訊)之電子檔:
校對程序包括「加行首資訊」、「網路人工校對」、「檔案比對」、「看圖校對」、「常錯字檢查」五項。前二項為第三項「檔案比對」之前置作業,須先妥善執行,後續之比對工作才能順利完成。
(一)加行首資訊
加行首資訊屬於格式化作業。行首資訊用於記錄每行電子經文在紙本經書上之相對位置,此舉不僅幫助後續之標記處理,也嘉惠學術引用之便。
將含有「頁欄資訊」之未格式化經文純文字檔匯入「加行首資訊程式」,執行後稍加編輯即可產生包括冊數、經號、頁、欄、行等資訊之新純文字檔。 內容格式如下:
例: T10n0279_p 0070a 04 ║ 菩薩在家 當願眾生 知家性空
T10n0279_p 0070a 05 ║ 免其逼迫 孝事父母 當願眾生
T10n0279_p 0070a 06 ║ 善事於佛 護養一切 妻子集會
T:大正藏 10 :冊數 n0279 :經號
p007:頁 a04 : a 欄(第一欄)第 4 行 ║ :分隔符號
經此步驟,所有純文字電子經文皆已格式化成 CBETA 所需格式,即可進行下階段之數位化工作。
(二) 網路人工校對
OCR 產出之電子經文純文字檔經字串取代後,正確率僅達 90% 。若將之與另一電子檔(如人工輸入檔)比對,勢必差異數量龐大,需動用大量人力方能完成校對程序。
CBETA 過去也有「網路校對」機制,即於網路上徵集志工約九百人,投入線上一人一頁分工校對行列。線上校對程序為:
看圖校對程式係本協會之程式設計師開發設計,校對者可同時閱覽純文字檔與其相對之圖檔,達成看圖替代翻書之快速校閱。
網路校對後之 OCR 經文,正確率可提升為 98% 。
(三)檔案比對
傳統人工校對,即使四校或十校,總有無法避免的死角。 CBETA 利用電腦檔案比對,即同一份經文內容,由兩個版本予以輸入,然後以檔案比對程式找出兩者差異,再以看圖校對方式進行訂正,產生一份超越一般人工校對水準之經文檔。
首先,收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁 的小檔,可利用「檔案合併程式」,將兩檔各自所含小檔之純文字檔案合併成大檔,以利文書編輯處理及後續比對作業的進行。
將合併成大檔之兩檔匯入「檔案比對程式」(圖十),執行第一次兩檔比對。比對後產生一個主要差異檔。以《大正藏》而言,平均每冊約產生兩萬個差異。

圖十、檔案比對程式
(四)看圖校對
比對後之差異檔,交由兩位熟識經文之經驗人員各自利用 SeeCheck「看圖校對程式」(圖十一),以差異檔比照原書掃描圖檔予以訂正。

圖十一、看圖校對程式介面
此兩位人員訂正後交回的兩份校對完成檔,再以程式執行第二次檔案比對,比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關,方法也是以差異檔比照原書掃描圖檔看圖校對。
(五)常錯字檢查
校對最後的工作重點是對於任何值得疑慮的字元,我們將之列入「常錯字參考表」 (圖十二),並透過程式對檔案進行取代,形成差異以利用看圖方式來校對。這個概念是我們對看圖校對程式的充分應用,可以發揮事半功倍的效果。

圖十二、常錯字參考表
(一)簡單標記 I
標記,是針對已完成校對文件之進一步編輯作業。在進入正式 XML 標記之前,輸校組需對經文段落加上適當標記,成為「簡單標記版」的經文電子檔。
這一套簡單標記,目的是把經文當中「經號 N」、「經卷 Jj」、「品 D」、「著者 A」、「譯者 Y」、「序 X」、「偈頌 Ss」、「咒語 Z」、「附文 W」、「段落 P」、「其它標題 Q」、「行中小段落 P」…等,以簡單符號標示區分出來,方便電腦認識經文各段落之不同屬性,並能加以進一步運用。簡單標記主要是在行首資訊後的三欄「_##」標記欄位置中標示出來(圖十三),或標記於經文中的「行首」、「行中」、「行尾」。

圖十三、第一 階段簡單標記產出之純文字檔
(二)簡單標記 II
第二階段簡單標記之重點工作為「架構經文標題層次」(圖十四)。此自訂標記可讓電腦認識整篇經文之章節架構,如:

圖十四、經文之標題層次架構
CBETA 早期以「BIG5(大五碼)」為主要編碼系統,現今已採用「Unicode」,並且搭配「組字式」作為記錄與處理缺字的方式。
使用一般組字式來表達佛典缺字的方法,是考量使用者能在純文字環境下閱讀,不需另外安裝造字檔或圖檔而設計的,這種方式提供了閱覽、散播上的便利性,也不會佔用使用者對造字檔自行運用的空間。
該組字法含「*」、「/」、「@」、「-」、「+」、「?」六個半形基本符號,及「(…)」、「[…]」兩組半形分隔符號。
舉例說明如下:
|
符號 |
說明 |
範例 |
|
* |
表橫向連接 |
明=日*月 |
|
/ |
表縱向連接 |
音=立/日 |
|
@ |
表包含 |
因=囗@大 或 閒=門@月 |
|
- |
表去掉某部分 |
青=請-言 |
|
-+ |
若前後配合,表示去掉某部分, |
閒=間-日+月 |
|
? |
表字根特別,尚未找到足以表示者 |
背=(?* 匕)/月 |
|
( ) |
為運算分隔符號 |
繞=組-且+((土/(土*土))/兀) |
|
[ ] |
為文字分隔符號 |
羅[目*侯]羅母耶輸陀羅比丘尼 |
記錄缺字後,並將缺字相關資訊,包括注音、筆畫、部首、通用字、Unicode…等建構成漢文佛典缺字資料庫(圖十五)。

圖十五、缺字資料庫畫面
經簡單標記、缺字處理後之經文,以程式將簡單標記經文轉為 XML TEI 標記經文(圖十六至圖十八)。

圖十六、簡單標記轉換為 XML 標記之程式流程圖

圖十七、簡單標記經文

圖十八、 XML TEI 標記經文
之後仍需做語法檢查及人工編輯,最後以程式將 XML 版輸出與簡單標記版相互比對。
(一)成品光碟與網路服務
利用標記完成之經文,轉換成普及網路版放置於網路上,供大眾免費瀏覽、檢索與下載。目前由法鼓文理學院 CBETA Online 製作團隊所架設的 cbetaonline 網站,是最主要的 CBETA 線上經文瀏覽網站(圖十九,待更新圖檔)。
此外,CBETA 直到 2018 年仍每年發行約一萬份電子佛典光碟(圖二十),光碟內含具優異檢索及閱覽功能的 CBReader(圖二十一),提供免費索取與大眾結緣;自 2018 年起,光碟已停止發行,取而代之的是每年數次的網路下載、更新,讓使用者可更方便取得最新的經文資料。

圖十九、 CBETA 網站

圖二十、 CBETA 每年發行之光碟

圖二十一、優異檢索及閱覽功能的 CBReader
(二)經文修訂
儘管經文已上線,仍需不斷查證相關資料以確認讀者及內部作業發現之經文用字問題,並執行經文資料庫之修訂,包括簡單標記版(圖二十二)及 XML 版(圖二十三),兩者必須同步修訂;期望透過修訂,提升經文資料庫之品質。

圖二十二、簡單標記版修訂

圖二十三、 XML 版修訂
(三)應用發展
除生產預定經文典籍外, CBETA 也亟欲推廣與經文資料庫相關之應用及技術,例如漢字工具(圖二十四)、新式標點、通用詞庫、相關字(辭)典、藏經目錄資料庫、各版藏經經文對照資料庫…等,以促進佛教文獻數位化,提昇佛法之研究、交流及應用。

圖二十四、漢字工具