全文検索をさらに活用するヒント

この記事では、主に国立国会図書館デジタルコレクション(以下、本文中では「デジコレ」と呼びます。)で全文検索機能をより使いこなす技術についてご説明します。
デジコレを含めた、国立国会図書館の提供する全文検索ウェブサービスの全般的な使い方については、「全文検索を活用するには」をご覧ください。

1.全文検索とは

全文検索では、図書や雑誌のタイトル・目次だけでなく、本文・挿絵のキャプションなども含めて検索することができ、タイトル・目次からでは見つけられない記述を発見できる可能性があります。一方、探している情報と関係のない情報がヒットする可能性もあり、対象・範囲や特徴を把握して用いることが必要です。
デジコレでの全文検索の範囲については、「全文検索が可能な資料について」をご覧ください。

2.国立国会図書館デジタルコレクションでの検索方法

NOTを活用する

全文検索では、本文中の記述が検索対象となるため、検索結果の件数が増え、探している情報と関係のない情報がヒットする可能性も高まります。また、検索対象を指定することができないため、「地の文ではなくキャプションに福沢諭吉を含む資料」のように絞り込むこともできません。
これらの理由でノイズが増える場合、NOTを活用することが考えられます。
「伊藤博」を探しているとき「伊藤博文」が多くヒットする→「NOT 博文」とする等です。これによって、「伊藤博文」は検索結果に現れなくなります。
ただし、「伊藤博が伊藤博文から受けた影響」という資料や、「伊藤博が博文館という出版社から刊行した本」など、「伊藤博」に関係がある資料まで、「NOT 博文」を用いるとヒットしなくなってしまう点にもご注意ください。

キャプションの逆向き検索

デジコレでは、OCR(光学文字認識)処理により全文テキストを作成している資料が多くあります。OCR処理による全文テキストは校正を行っていないため、誤認識の可能性のほか、戦前等の資料の右から左に読むべき横書きのキャプションが、逆向きの左から右に認識されている可能性があります。
結果として、例えば「帝国議会議事堂」が、全文データ上は「堂事議会議国帝」となっていることがあります。
そこで、文字を逆向きに入力して検索することで、本来の向きでヒットしないキャプションなどがヒットする場合があります。

漢字表記の確認

全文検索では、全文データの文字だけが検索され、文字のヨミ等は考慮されません。そのため、「尾形」と「緒方」など漢字表記が異なっていると検索されませんし、確信がないときにヨミを入力する方法も使えません。
例えば、「柳川春三」と「柳河春三」では、検索結果が異なります。
そのため、事前に複数の情報源から検索語を確認したり、著者名等であれば国立国会図書館の典拠検索サービスであるWeb NDL Authoritiesを用いたりして、表記のバリエーションを確認したうえで全文検索を行うことが有益である場合があります。
以下のレファレンス協同データベースの事例では、Web NDL Authoritiesを活用して、ヨミから正しい漢字表記を突き止めたうえで、全文検索等を行っています。

一方、新字と旧字、異体字等は正規化されます。「帝国議会議事堂」と「帝國議会議事堂」の全文検索結果は同一となります。

語彙の選択

全文検索では、入力した文字のとおりに検索します。
例えば、「コンピュータ」と「電子計算機」、「クリエイター」と「クリエーター」では、検索結果が異なります。
そのため、探している内容・時代などに沿った語彙を選んで検索することが必要です。
以下の例は、「明治時代の小学校設備準則でトイレを男女別にすることが定められた」ということを全文検索で調べようとする場合、「トイレ」ではうまく検索できず、「便所」という語を用いることでヒットするというものです。

また、家庭向けの料理本を探している場合に「お料理」と柔らかい語を用いる、戦前の資料を探している場合に「かんづめ」でなく「くわんづめ」を用いるなども、語彙の選択と言えます。

冒頭・末尾を省く

OCR処理を行う際、本ののどの部分は湾曲しており、文字がうまく読み取れていない場合があります。また、長い単語が途中で改行されていると、改行以降は別単語とみなされる場合もあります。
そのため、(特にリスト・索引などで)長い単語を全文検索してヒットしなかった際に、前後を省いて検索すると、発見できる場合があります。

3.その他の国立国会図書館ウェブサービスでの検索方法

正規表現を使う

時代による違いや、OCRの誤認識などにより、全文データには表記ゆれがある場合があります。
それらを一括で検索したい場合には正規表現検索が便利ですが、デジコレでは行えません。NDL Ngram Viewerを用いることで、正規表現を用いた検索が行えます。
詳しくは「全文検索を活用するには 3-2.NDL Ngram Viewerによる全文データの活用」をご覧ください。
NDL Ngram Viewerによって表記のバリエーションを確認し、それぞれの語で検索することで、全文検索をいっそう活用できる可能性があります。

例:「ケンブリッジ」の表記ゆれ(ケムブリッジ、ケンブリツジ等)の候補をある程度まとめて確認したい場合は、NDL Ngram Viewerで「ケ.ブリ.ジ」と検索すると、検索キーワード候補と頻度情報が得られます。それぞれの表記で全文検索することができます。

関連記事