並列タイトル等XML ニ ヨル ショキ カンポン ノ ホンブン キジュツ ノ ホウホウロン ノ カクリツ ト インサツシ ケンキュウ エノ オウヨウ
XML ni yoru shoki kanpon no honbun kijutsu no hohoron no kakuritsu to insatsushi kenkyu eno oyo
Towards method of transcription of early printed books in XML and its application to the study of the printing history
一般注記type:text
初期刊本の画像データを用いた活字の識別の正確かつ効率的な手法を開発した。この手法により, 一般のOCRソフトでは処理できない典型的な初期刊本についても, 大規模なテキストデータ化が可能になると期待される。
次に, 西洋最初の印刷本であるグーテンベルク聖書の画像を対象に本活字識別手法を応用した。識別結果に基づき, 活字を客観的な基準で分析するため, 活字画像のクラスタリングを行い, 活字の鋳造方法についての先行研究を検証した。また, 識別結果に基づきトランスクリプションデータを作成し, XMLによる本文記述を行った。
An efficient and precise method of identifying individual type of the early printed books was developed, which is indispensable in making transcription of early printed books, since ordinary OCR software cannot deal with them. The proposed method is expected to enable to make transcription data of the early printed books on large scale.
The proposed method was applied to the digital images of the first printed book in Europe, the Gutenberg Bible. Cluster analysis of the type images were conducted in order to shed some light objectively on the early metods of making types. Furthremore, Based on the result of the type image recognition, transcription data was also made, and then described in XML format.
研究種目 : 若手研究(B)
研究期間 : 2008~2014
課題番号 : 20700225
研究分野 : 書誌学
一次資料へのリンクURLhttps://koara.lib.keio.ac.jp/xoonips/modules/xoonips/download.php?koara_id=KAKEN_20700225seika
連携機関・データベース国立情報学研究所 : 学術機関リポジトリデータベース(IRDB)(機関リポジトリ)