〇、工作流程圖

CBETA 經文數位化工作流程

〇、工作流程圖

工作流程圖

發表回應前，請先登入或註冊
瀏覽次數：67231

一、選定材料

CBETA 經文數位化工作流程

一、選定材料

1. 核心基礎：《大正藏》與《卍續藏》

CBETA 以「佛典集成」為目標，前期作業以「大藏出版株式會社」授與協會使用之《大正新脩大藏經》（以下簡稱《大正藏》）為底本（圖一），擇其中與漢傳佛教較為相關之第一冊至第五十五冊以及第八十五冊，主要內容有歷代漢譯之〈印度撰述部〉與中國祖師著述之〈中國撰述部〉，共五十六冊，進行藏經電子化工作。

圖一、《大正新脩大藏經》

圖一、《大正新脩大藏經》

在大正藏之後進行數位化之藏經為《卍續藏》（圖二），選定《大正藏》乃因其為國際上佛學研究之權威版本，現成電子檔與相關資源較多；《卍續藏》有極為豐富的中國祖師大德著述，深具價值；加以《大正》與《卍續》兩藏皆為鉛字排版，較適合輸入作業的進行；若集兩藏，重要的漢文佛典幾乎囊括大部份（圖三），此乃 CBETA 選定材料之優先原則。

圖二、《卍續藏》

圖二、《卍續藏》

圖三、《大正藏》與《卍續藏》之關係圖

2. 擴大收錄：藏經補輯與重要文獻

在核心基礎上，CBETA 持續擴大收錄，補足《大正藏》與《卍續藏》未收的典籍。

歷代藏經補輯：為持續進行的重點項目，收錄《大正藏》與《卍續藏》中的未收之佛典。內容包括房山石經、趙城金藏、高麗藏、永樂北藏等，其中以《嘉興藏》的內容最為豐富。

藏外佛教文獻與史料：收錄傳統藏經以外的重要文獻，例如《藏外佛教文獻》、《正史佛教資料類編》及《北朝佛教石刻拓片百品》等。

重要佛典集成：收錄其他具有重要版本或文獻價值的佛典，如《國家圖書館善本佛典》與《漢譯南傳大藏經》。

3. 當前重點：近現代佛教文獻

為使佛典集成更具時代延續性，CBETA 將近現代的重要佛教著作納入選材重點。

近代新編文獻：收錄如《大藏經補編》、《中國佛寺志》等。

近現代大德著作：收錄如《印順法師佛學著作集》、《呂澂佛學著作集》、《太虛大師全書》等對近現代佛教影響深遠的完整著作集。

CBETA 歷年各項作業成果統計表

整體而言，CBETA 選定材料從《大正藏》、《卍續藏》兩大核心出發，逐步擴及歷代藏經、南傳典籍、重要文獻與史料、近現代大德著作，朝向「漢傳佛教文獻完整收錄」的目標持續推進。

發表回應前，請先登入或註冊
瀏覽次數：50724

二、制定規範

CBETA 經文數位化工作流程

二、制定規範

為確保數位化前後環節銜接順暢，各項流程需制定作業規範以利工作遵循。這些規範來自經驗累積，且以最終目標——「XML 標記」為考量。 CBETA 針對幾項數位化重要作業：輸入、校對、缺字、簡單標記、 XML 標記等，皆制定詳盡之作業規範。

（一）輸入

輸入規範包括對本文、本文以外之符號標誌，以及圖片、表格等等狀況提出規定，例如一般本文、夾注小字、段落，本文以外之頁碼、欄位、校勘符號，或是空白字元、空白行、表格、圖形、缺字……等。

（二）校對

採用「檔案比對」程式進行校驗，因此校對規範著重於比對前之格式化準備，以及程式之使用方式與程序。

（三）缺字

經文中常可見非現行使用之古漢字、異體字或特殊符號等，不論是過去採用的 BIG5（大五碼）系統，或是現今通用的 Unicode 編碼系統，都仍可能出現無法收錄的字元。因此需建立一套缺字處理辦法，例如制定組字式規範，並以缺字資料表記錄與管理缺字。

（四）簡單標記

簡單標記規範經文之經號、經名、作者、標題、段落…等之文字屬性。以簡單符號記錄，較 XML 標記容易上手。

（五） XML 標記

使用 XML 做為佛典電子檔的標記語言，並採用國際規範 TEI（Text Encoding and Interchange）做為基礎標籤集，再依實務標記作業經驗，修訂或新增標籤，建立適用於漢文電子佛典的標籤集。

發表回應前，請先登入或註冊
瀏覽次數：44239

三、原書掃描

CBETA 經文數位化工作流程

三、原書掃描

掃描需將藏經原書或原書之影本拆卷，裁切騎縫邊，以散裝方式進行掃描。掃描要點如下：

掃描。
抽樣查看掃描品質—有無線條或歪斜不清者。
掃描完畢後，就奇數頁與偶數頁檢查有無漏頁。
編頁碼—先編奇數頁後編偶數頁，然後合併。
抽樣檢查頁數正確與否。
轉檔。
瀏覽檔案，若有缺漏或無法開啟的檔，加以修改或補齊。
歸檔。
清潔掃描器。

早期使用具備「自動送紙功能」與「自動編號存檔」之掃描器，可一次自動掃存五十頁，程式能依冊、號編名存檔，之後再以圖形處理軟體快速瀏覽圖檔以檢查掃描狀況。現因人員及成本效益考量，委託外部廠商執行。

掃描產生之圖檔（圖四）需先設為較高階影像：解析度 300dpi 以上，色彩模式灰階或黑白，以供日後依不同目的降階應用。圖檔除提供「 OCR 辨識」使用，並備為「看圖校對」查看，故再將圖檔由灰階轉成 TIFF-g4 黑白格式，檔案既小，畫質又清晰。

圖四、原書掃描之圖檔

發表回應前，請先登入或註冊
瀏覽次數：46899

四、輸入

CBETA 經文數位化工作流程

四、輸入

對於大量佛典經文的輸入，應針對不同內容，選擇採用人工輸入或是掃描圖檔辨識的方法來產生文字檔。

輸入方法有三種，分別為收集現成電子檔、人工輸入，以及 OCR 圖檔辨識。決策方式為：如一佛典已有現成電子檔，則該電子檔可供日後檔案比對使用；無電子檔又難以透過 OCR 辨識之文字，如手抄本與刻版經文，則採用人工輸入。

不論使用何種輸入方式，一部經文至少需產生兩份電子檔。

（一）收集現成電子檔：

早在 CBETA 成立之前，網路上已流傳許多對佛典有興趣之志工團體的輸入電子檔，或是其他佛教機構、學術單位研發之電子佛經。

現成電子檔之收集大都以流通較廣的經文為主，這些電子佛經（圖五）通常不符合 CBETA 之規定格式（如需加註頁、欄資訊）；故收集得來之檔案在檔案比對前，還需經過格式化之後續處理。

圖五、《大正藏》之現成電子經文

參考早期「漢文大藏經輸入流程簡介」的「資料輸入與經文收集」

（二）人工輸入：

無法使用 OCR 辨識軟體辨識之佛經，委外交由專業承包公司進行人工繕打。

委外之前，必須事先制定輸入規範，將之交與廠商人員比照辦理。人工輸入產生之純文字電子檔，需包含頁、欄資訊（圖六），以及依冊號順序命名之檔案名稱。人工輸入成本約每千字五十元。

圖六、委外人工輸入產出之電子檔

（三） OCR 圖檔辨識：

1. 去除雜點

經文書上常有異於文字之讀音符號與注釋標記（圖七），嚴重影響 OCR 辨識之判讀結果；故掃描後之經文圖檔，須先以程式去除雜點，產生一新 TIFF 圖檔。

圖七、含讀音符號與雜點之原始掃描圖檔

2. OCR 圖檔辨識

將去除雜點後之新圖檔，匯入丹青公司特別為本協會量身訂作之 OCR 程式進行辨識（圖八），產出一份經文之「純文字檔」。

圖八、丹青 OCR 操作介面

該程式與一般辨識程式不同處在於「丹青 for CBETA 」可判讀經文特有之雙排小字（圖八）。

隨著人工智慧（AI）技術的進步，現今的 OCR 工具在辨識準確度與自動化程度上已大幅提升。特別是搭配深度學習模型的 AI OCR 系統，能更靈活地處理多樣化的字體、排版與舊版印刷體，使經文數位化作業更為高效、方便，亦可減少後續人工校對的工作量。目前 CBETA 亦已導入並持續評估多種 AI OCR 技術，以配合不同版本與格式的數位化需求，逐步提升整體作業效率與品質。

3. 字串取代

使用「常錯字串取代程式」，以正確字串快速批次取代 OCR 後可能之常錯字串（圖九），免除逐字校對之不便，約可提升純文字檔文字精確度至 90% 。

圖九、 OCR 常錯字串取代表

進行至此，輸入步驟可能產生三種皆未格式化（未加行首資訊）之電子檔：

網路收集之現成電子檔。
委外人工繕打（包含頁欄資訊），正確率約為 97% 之電子檔。
OCR 辨識後，正確率 90% 之電子檔。

發表回應前，請先登入或註冊
瀏覽次數：47760

五、校對

CBETA 經文數位化工作流程

五、校對

校對程序包括「加行首資訊」、「網路人工校對」、「檔案比對」、「看圖校對」、「常錯字檢查」五項。前二項為第三項「檔案比對」之前置作業，須先妥善執行，後續之比對工作才能順利完成。

（一）加行首資訊

加行首資訊屬於格式化作業。行首資訊用於記錄每行電子經文在紙本經書上之相對位置，此舉不僅幫助後續之標記處理，也嘉惠學術引用之便。

將含有「頁欄資訊」之未格式化經文純文字檔匯入「加行首資訊程式」，執行後稍加編輯即可產生包括冊數、經號、頁、欄、行等資訊之新純文字檔。內容格式如下：

例：　T10n0279_p 0070a 04 ║　菩薩在家　　當願眾生　　知家性空
　　　T10n0279_p 0070a 05 ║　免其逼迫　　孝事父母　　當願眾生
　　　T10n0279_p 0070a 06 ║　善事於佛　　護養一切　　妻子集會

　　　T：大正藏　　　10 ：冊數　　　　　　　　　　　n0279 ：經號
　　　p007：頁　　　a04 ： a 欄（第一欄）第 4 行　　║ ：分隔符號

經此步驟，所有純文字電子經文皆已格式化成 CBETA 所需格式，即可進行下階段之數位化工作。

經文大正藏格式化

（二） 網路人工校對　　

OCR 產出之電子經文純文字檔經字串取代後，正確率僅達 90% 。若將之與另一電子檔（如人工輸入檔）比對，勢必差異數量龐大，需動用大量人力方能完成校對程序。

CBETA 過去也有「網路校對」機制，即於網路上徵集志工約九百人，投入線上一人一頁分工校對行列。線上校對程序為：

上 CBETA 網站申請登記。
提領經文之純文字檔與圖檔。
利用看圖校對程式對純文字檔進行逐字校對。
回傳 CBETA 。

看圖校對程式係本協會之程式設計師開發設計，校對者可同時閱覽純文字檔與其相對之圖檔，達成看圖替代翻書之快速校閱。

網路校對後之 OCR 經文，正確率可提升為 98% 。

校對義工芳名錄

（三）檔案比對

傳統人工校對，即使四校或十校，總有無法避免的死角。 CBETA 利用電腦檔案比對，即同一份經文內容，由兩個版本予以輸入，然後以檔案比對程式找出兩者差異，再以看圖校對方式進行訂正，產生一份超越一般人工校對水準之經文檔。

首先，收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁的小檔，可利用「檔案合併程式」，將兩檔各自所含小檔之純文字檔案合併成大檔，以利文書編輯處理及後續比對作業的進行。

將合併成大檔之兩檔匯入「檔案比對程式」（圖十），執行第一次兩檔比對。比對後產生一個主要差異檔。以《大正藏》而言，平均每冊約產生兩萬個差異。

圖十、檔案比對程式

檔案比對程式

（四）看圖校對

比對後之差異檔，交由兩位熟識經文之經驗人員各自利用 SeeCheck「看圖校對程式」（圖十一），以差異檔比照原書掃描圖檔予以訂正。

圖十一、看圖校對程式介面

此兩位人員訂正後交回的兩份校對完成檔，再以程式執行第二次檔案比對，比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關，方法也是以差異檔比照原書掃描圖檔看圖校對。

看圖校對程式

（五）常錯字檢查

校對最後的工作重點是對於任何值得疑慮的字元，我們將之列入「常錯字參考表」（圖十二），並透過程式對檔案進行取代，形成差異以利用看圖方式來校對。這個概念是我們對看圖校對程式的充分應用，可以發揮事半功倍的效果。

圖十二、常錯字參考表

發表回應前，請先登入或註冊
瀏覽次數：45180

六、簡單標記

CBETA 經文數位化工作流程

六、簡單標記

（一）簡單標記 I

標記，是針對已完成校對文件之進一步編輯作業。在進入正式 XML 標記之前，輸校組需對經文段落加上適當標記，成為「簡單標記版」的經文電子檔。

這一套簡單標記，目的是把經文當中「經號 N」、「經卷 Jj」、「品 D」、「著者 A」、「譯者 Y」、「序 X」、「偈頌 Ss」、「咒語 Z」、「附文 W」、「段落 P」、「其它標題 Q」、「行中小段落Ｐ」…等，以簡單符號標示區分出來，方便電腦認識經文各段落之不同屬性，並能加以進一步運用。簡單標記主要是在行首資訊後的三欄「_##」標記欄位置中標示出來（圖十三），或標記於經文中的「行首」、「行中」、「行尾」。

圖十三、第一階段簡單標記產出之純文字檔

圖十三、第一 階段簡單標記產出之純文字檔

（二）簡單標記 II

第二階段簡單標記之重點工作為「架構經文標題層次」（圖十四）。此自訂標記可讓電腦認識整篇經文之章節架構，如：

圖十四、經文之標題層次架構

發表回應前，請先登入或註冊
瀏覽次數：44992

七、缺字處理

CBETA 經文數位化工作流程

七、缺字處理

CBETA 早期以「BIG5（大五碼）」為主要編碼系統，現今已採用「Unicode」，並且搭配「組字式」作為記錄與處理缺字的方式。

使用一般組字式來表達佛典缺字的方法，是考量使用者能在純文字環境下閱讀，不需另外安裝造字檔或圖檔而設計的，這種方式提供了閱覽、散播上的便利性，也不會佔用使用者對造字檔自行運用的空間。

該組字法含「*」、「/」、「@」、「-」、「+」、「?」六個半形基本符號，及「(…)」、「[…]」兩組半形分隔符號。

舉例說明如下：

符號	說明	範例
*	表橫向連接	明＝日*月
/	表縱向連接	音＝立/日
@	表包含	因＝囗@大　或　閒＝門@月
-	表去掉某部分	青＝請-言
-+	若前後配合，表示去掉某部分，而改以另一部分代替	閒＝間-日+月
?	表字根特別，尚未找到足以表示者	背＝(?* 匕)/月
( )	為運算分隔符號	繞＝組-且+((土/(土*土))/兀)
[ ]	為文字分隔符號	羅[目*侯]羅母耶輸陀羅比丘尼

記錄缺字後，並將缺字相關資訊，包括注音、筆畫、部首、通用字、Unicode…等建構成漢文佛典缺字資料庫（圖十五）。

圖十五、缺字資料庫畫面

參考組字式基本規則

發表回應前，請先登入或註冊
瀏覽次數：45787

八、XML 標記

CBETA 經文數位化工作流程

八、XML 標記

經簡單標記、缺字處理後之經文，以程式將簡單標記經文轉為 XML TEI 標記經文（圖十六至圖十八）。

圖十六、簡單標記轉換為 XML 標記之程式流程圖

圖十六、簡單標記轉換為 XML 標記之程式流程圖

圖十七、簡單標記經文

圖十七、簡單標記經文

圖十八、 XML TEI 標記經文

圖十八、 XML TEI 標記經文

之後仍需做語法檢查及人工編輯，最後以程式將 XML 版輸出與簡單標記版相互比對。

發表回應前，請先登入或註冊
瀏覽次數：45988

九、應用服務

CBETA 經文數位化工作流程

九、應用服務

（一）成品光碟與網路服務

利用標記完成之經文，轉換成普及網路版放置於網路上，供大眾免費瀏覽、檢索與下載。目前由法鼓文理學院 CBETA Online 製作團隊所架設的 cbetaonline 網站，是最主要的 CBETA 線上經文瀏覽網站（圖十九，待更新圖檔）。

此外，CBETA 直到 2018 年仍每年發行約一萬份電子佛典光碟（圖二十），光碟內含具優異檢索及閱覽功能的 CBReader（圖二十一），提供免費索取與大眾結緣；自 2018 年起，光碟已停止發行，取而代之的是每年數次的網路下載、更新，讓使用者可更方便取得最新的經文資料。

圖十九、 CBETA 網站

圖十九、 CBETA 網站

圖二十、 CBETA 每年發行之光碟

圖二十一、優異檢索及閱覽功能的 CBReader

（二）經文修訂

儘管經文已上線，仍需不斷查證相關資料以確認讀者及內部作業發現之經文用字問題，並執行經文資料庫之修訂，包括簡單標記版（圖二十二）及 XML 版（圖二十三），兩者必須同步修訂；期望透過修訂，提升經文資料庫之品質。

圖二十二、簡單標記版修訂

圖二十三、 XML 版修訂

（三）應用發展

除生產預定經文典籍外， CBETA 也亟欲推廣與經文資料庫相關之應用及技術，例如漢字工具（圖二十四）、新式標點、通用詞庫、相關字（辭）典、藏經目錄資料庫、各版藏經經文對照資料庫…等，以促進佛教文獻數位化，提昇佛法之研究、交流及應用。

圖二十四、漢字工具

發表回應前，請先登入或註冊
瀏覽次數：43259

CBETA 經文數位化工作流程

〇、工作流程圖

CBETA 經文數位化工作流程