技術資料

如何編輯「檢索歷史」的記錄?

標籤:

image

Q:請問 CBReader 的檢索歷史記錄有沒有辦法刪除?積少成多,好像没有刪除功能,也不能選擇保留或者不保留。

A:歷史記錄最多大約 30 筆,不會無限累積。最新的檢索字詞會出現在最上方,超過 30 筆就會將最舊的檢索字詞擠出歷史記錄了。

您也可以直接手動修改設定檔。

CBETA Online 經文顏色標記說明

標籤:

上次介紹了單機版閱藏系統 CBReader 的經文顏色標記,今天接著簡介線上版 CBETA Online 的樣式。

CBETA Online 由法鼓文理學院開發和維護,文句用色跟單機版 CBReader 有少許不同。主要的差異是附文、夾注小字和 CBETA 修訂字的樣式。

首先說明資料:

一、附文

凡置於正文與文末經題之後的資料,我們目前標記作「附文」,包括跋文、刊記等等。

二、夾注

「夾注」是豎排古書的注記方式之一。常見藏經排版作「字間注」,即透過排印在字句之間的形式,附注的內容緊鄰所說明解釋的字句。由於夾注的字號比正文小一倍,即兩行夾注的行寬相等於一行正文的行寬,因此又稱為「雙行夾注」。這一類的注記可見於經題、序文、正文或附文之中。

三、CBETA 修訂字

CBReader 經文顏色標記說明

標籤:

相較於白紙黑字,多彩的呈現能夠帶出不同類型的信息或關鍵概念,從而增進閱讀效率和理解程度。今天簡介閱藏系統 CBReader 經文顏色的標記。

一部佛典的內容由經題、作譯者、序文、正文、附文等部分組成。正文有長行(散文)和偈頌(詩體)兩種文體,而且往往帶有夾注小字及校注標號以補充說明。有鑑於此,閱藏系統運用多彩字體表示紙本的原書格式與文體。

在這一方面,雖然單機版 CBReader 和 線上版 CBETA Online 有一些差異,但是,基本上,經文標題作藍字,長行散文作黑字、偈頌詩體作綠字夾注說明作棕字

CBReader v0.5.0 自訂 CSS

CSS (全名為 Cascading Style Sheets) 是一種為網頁之類的文件提供顯示方法的文件。CBReader 因為要重新開發,現有的版本基本上不會提供細節的功能與調整,因此 CBReader v0.5.0 版提供了自訂 CSS 的功能,讓使用者可以自行設計閱讀經文時想要呈現的樣貌。CSS 不會很難,只要稍為了解其格式,就很容易設計,有問題也歡迎在此討論。

首先,先建立一個空白檔案,檔名命名為 mycbreader.css,假設放在 c:\cbeta 目錄中。目錄與檔名皆可自行修改,但請勿與 CBReader 主要文件放在一起。

檔案內容如下,請使用純文字格式,在 /* ... */ 之間的文字是註解文字,讓大家了解各項目的用途。

    /* 主要文件 */ 

    body { font-size:16px; line-height:140%; }

 

文字分析程式

標籤:

緣起

在大正藏的經文中,除了常見的文字與句點之外,尚有許多其他的符號,其中主要的有校勘數字(有數字的黑圈)、校勘星號(星號)、斷詞小黑點,而較不重要的符號則有一些日本使用的讀音符號,這些符號請參考圖一。

在 CBETA 處理佛典電子化的過程中,有一部分的經文來源是網路上所流傳或十方大德主動提供的,然而這一類的經文,普遍的情況就是上述一些重要的符號沒有輸入,只有部分經文在輸入時有注意到這一點(例如早期蕭鎮國大德所提的經文)。

這一類的符號,現有的 OCR 軟體都無法完全有效的辨識成功,所以當 CBETA 輸入組的同仁在處理這一類尚未輸入符號的經文時,早期都是採取人工輸入,但由於在時間與人力上都有極大的耗費,於是開始與資訊組同仁討論,看看能否找出更為簡便的方式來完成這個工作。 

看圖校對程式

標籤:

在校對過程中,查詢原書也是一件花費工夫的事。由於我們已有大部分的掃瞄的圖檔,故寫了本程式,希望能在利用「比對程式」之結果,進行校對時,根據經文中大正藏格式的資料,能立刻在電腦上秀出原書的字,以增進校對判斷速度,並讓沒有書的人亦可進行校對工作。

檔案比對程式

標籤:

在經文校對上,通常是最耗時的一個環節。經由中研院提供檔案比對的技巧與概念,寫出這支能處理相異格式經文的比對程式。利用這程式來比對二分文件,可以很輕鬆的找出二份文件差異處,再利用一些工具,就可以很快的協助我們利用這個差異表,修改出一份極低錯率的資料。

經文大正藏格式化

標籤:

在經文產生之後,我們希望在經文之中能依大正藏格式加上必要的資料。通常是在每一行之前留上 <冊數> <經號> <頁碼> <欄> <行> 等資料。這些資料在需要查對原書時,能夠讓我們很快的找到出處,對於後序的作業提供很大的方便。而這支程式主要就是針對蕭鎮國先生所提供 25 冊大正藏經文,進行格式化的動作。

圖檔辨識去雜點程式

標籤:

當我們打算使用掃瞄書本及使用 OCR 技術來產生經文時,第一個遇到的問題就是經文圖檔的「雜點」,「雜點」是指非經文本身的符號,在 OCR 時,會造成較低的判斷正確率,所以就寫出了這支程式來協助解決這個問題。

底下是三種大藏經圖檔處理前與處理後的比較:

Pages

Subscribe to 技術資料