並列タイトル等Investigating of automatic label masking methods for plant specimen images using Optical Character Recognition
タイトル(掲載誌)電子情報通信学会技術研究報告. LOIS, ライフインテリジェンスとオフィス情報システム = IEICE technical report. LOIS, Life intelligence and office information systems
一般注記type:text
[あらまし]故萩庭氏らが収集した萩庭植物標本は,収録数・標本の採集地の両面において国内最大規模であり,デジタル・スカラシップ開発の一環で運用を開始した千葉大学学術リソースコレクション(c-arc)での公開が予定されている。しかし絶滅危惧種の収録や,活字と手書き文字が混在した詳細な採集地の記載などがみられ,IIIF・Right Statementsを採用するシステムで公開するには資源保護の観点で懸念がある。そこで今回は,標本画像中に記載された採集地の部分を自動的に検出・マスキングする方法に関して,光学的文字認識(Optical Character Recognition)を中心に検討した。検討の結果,OCRエンジンはCloud Vision APIを利用することとし,画像を含めたパラメータについても絞り込むことができた。マスキング範囲の決定に関しては若干の調整は必要であるが,マスキング処理を自動的に行うめどが立った。
[Abstract] The Haginiwa plant specimen images, are one of the largest collection of flowering plants in Japan, are expected to be published at Chiba University Academic Resource Collections (c-arc) that adopts IIIF and Right Statements. However, there is concern about resource conservation that endangered species are recorded in the collection, and detailed collection sites are described. In this study, we focused on optical character recognition (Optical Character Recognition), which is a method for automatically detecting and masking the collection area described in the sample image. W e mainly use “Cloud Vision API” for OCR, and refined parameters including images itself. As a result of study, the masking area determination algorithm needs some adjustment, but we obtained the prospect of performing masking automatically.
一次資料へのリンクURLhttps://opac.ll.chiba-u.jp/da/curator/108092/LOIS2019-66.pdf
連携機関・データベース国立情報学研究所 : 学術機関リポジトリデータベース(IRDB)(機関リポジトリ)