全文検索をさらに活用するヒント
更新
サービス企画課 作成
この記事では、主に国立国会図書館デジタルコレクション(以下、本文中では「デジコレ」と呼びます。)で全文検索機能をより使いこなす技術についてご説明します。
デジコレを含めた、国立国会図書館の提供する全文検索ウェブサービスの全般的な使い方については、「全文検索を活用するには」をご覧ください。
1.全文検索とは
全文検索では、図書や雑誌のタイトル・目次だけでなく、本文・挿絵のキャプションなども含めて検索することができ、タイトル・目次からでは見つけられない記述を発見できる可能性があります。一方、探している情報と関係のない情報がヒットする可能性もあり、対象・範囲や特徴を把握して用いることが必要です。
デジコレでの全文検索の範囲については、「全文検索が可能な資料について」をご覧ください。
2.国立国会図書館デジタルコレクションでの検索方法
近接検索を活用する
デジコレ詳細検索では、複数語が指定の文字数以内にある場合のみヒットさせる、近接検索を行うことができます。例として、以下のような使い方が考えられます。
複数の語が関係する部分を探す
複数の主題が併せて論じられている章、複数の人物が直接対峙している場面など、近接しているかどうかである程度絞り込む使い方が考えられます。
- 「民主主義 経済発展(50文字以内)」
「人民民主主義諸国の経済発展」「社會民主主義にとつては、此事は客觀的な經濟發展階段に比較して、第二義的な」などがヒットします。ある国について最初に政治制度を、最後に経済状況を論じている資料等は除けていると考えられます。 - 「重三郎 馬琴(50文字以内)」
「馬琴大に喜び、弟子の心にてをりし故、衣服迄も心付け玉へり。かくてありし事半年あまり、ある日地本や蔦や重三郞來り」「京傳馬琴を周旋して書肆ら云ふ蔦屋重三郞の番頭と爲す時に」等、両者が接触していそうな場面がヒットします。
一般的な名詞のうち特定の場所等に関するものを探す
「噴水」「鉄道」など、一般的な名詞に対し、近接して特定の場所等の名称がある場合に絞ることで、ある程度効率的に探す使い方が考えられます。
- 「噴水 兼六園(20文字以内)」
「噴水がある。江戸末期に描かれた兼六園絵巻に…」「兼六園の噴水」等がヒットします。他の公園等の噴水は除けていると考えられます。 - 「鉄道 タンザニア(20文字以内)」
「ザンビア・タンザニア間の鉄道建設」「タンザニアに対する鉄道建設援助」等がヒットしますが、「ガーナの(中略)鉄道電化調査、タンザニアの漁業調査」等もヒットします。
表記ゆれを吸収する
「姓名」ではなく、「姓 名(10文字以内)」として姓の後ろにヨミや官位が記されている場合もヒットするなど、表記ゆれを吸収する使い方が考えられます。
- 「柳生 宗矩(10文字以内)」
「柳生宗矩」に加え、「柳生但馬守宗矩」等もヒットします。 - 「〇〇産業 社長(10文字以内)」
「〇〇産業株式会社社長」「〇〇産業(株)社長」等もヒットします。
NOT検索を活用する
全文検索では、本文中の記述が検索対象となるため、検索結果の件数が増え、探している情報と関係のない情報がヒットする可能性も高まります。また、検索対象を指定することができないため、「地の文ではなくキャプションに福沢諭吉を含む資料」のように絞り込むこともできません。
これらの理由でノイズが増える場合、NOT検索を活用することが考えられます。
「伊藤博」を探しているとき「伊藤博文」が多くヒットする→「-博文(1)」とする等です。これによって、「伊藤博文」は検索結果に現れなくなります。
ただし、「伊藤博が伊藤博文から受けた影響」という資料や、「伊藤博が博文館という出版社から刊行した本」など、「伊藤博」に関係がある資料まで、「-博文」を用いるとヒットしなくなってしまう点にもご注意ください。
- デジコレで「伊藤博 -博文」と検索した例(ただし、「伊藤博士」などはヒットしています)
キャプションの逆向き検索
デジコレでは、OCR(光学文字認識)処理により全文テキストを作成している資料が多くあります。OCR処理による全文テキストは校正を行っていないため、誤認識の可能性のほか、戦前等の資料の右から左に読むべき横書きのキャプションが、逆向きの左から右に認識されている可能性があります。
結果として、例えば「帝国議会議事堂」が、全文データ上は「堂事議会議国帝」となっていることがあります。
そこで、文字を逆向きに入力して検索することで、本来の向きでヒットしないキャプションなどがヒットする場合があります。
漢字表記の確認
全文検索では、全文データの文字だけが検索され、文字のヨミ等は考慮されません。そのため、「尾形」と「緒方」など漢字表記が異なっていると検索されませんし、確信がないときにヨミを入力する方法も使えません。
例えば、「柳川春三」と「柳河春三」では、検索結果が異なります。
そのため、事前に複数の情報源から検索語を確認したり、著者名等であれば国立国会図書館の典拠検索サービスであるWeb NDL Authoritiesを用いたりして、表記のバリエーションを確認したうえで全文検索を行うことが有益である場合があります。
以下のレファレンス協同データベースの事例では、Web NDL Authoritiesを活用して、ヨミから正しい漢字表記を突き止めたうえで、全文検索等を行っています。
一方、新字と旧字、異体字等は正規化されます。「帝国議会議事堂」と「帝國議会議事堂」の全文検索結果は同一となります。
語彙の選択
全文検索では、入力した文字のとおりに検索します。
例えば、「コンピュータ」と「電子計算機」、「クリエイター」と「クリエーター」では、検索結果が異なります。
そのため、探している内容・時代などに沿った語彙を選んで検索することが必要です。
以下の例は、「明治時代の小学校設備準則でトイレを男女別にすることが定められた」ということを全文検索で調べようとする場合、「トイレ」ではうまく検索できず、「便所」という語を用いることでヒットするというものです。
また、家庭向けの料理本を探している場合に「お料理」と柔らかい語を用いる、戦前の資料を探している場合に「かんづめ」でなく「くわんづめ」を用いるなども、語彙の選択と言えます。
適切な語を付加する
人物などの特定の側面に注目している記述を探したい場合、適切な語を付加することが有益である場合があります。
建築物の完成に関する記述を探したい場合は「〇〇落成」とする、人物の訃報を探したい場合は「故△△」とするなどが考えられます。
ただし「〇〇完成」など、同趣旨でも付加した語が含まれない記述はヒットしないため、付加せずに検索して年代などで絞りこむほうが有益な場合もあります。
なお、スペースを空けると別々の箇所に各語句を含む資料もヒットし、この目的には適しません。近接検索を用いず「〇〇 落成」と検索すると、「〇〇改築」と「××落成」を含む、「〇〇落成」と関係ない資料もヒットしてしまいます。
「〇〇 落成(10文字以内)」等、近接検索を使う可能性については、近接検索を活用するも参照してください。
冒頭・末尾を省く
OCR処理を行う際、本ののどの部分は湾曲しており、文字がうまく読み取れていない場合があります。また、長い単語が途中で改行されていると、改行以降は別単語とみなされる場合もあります。
そのため、(特にリスト・索引などで)長い単語を全文検索してヒットしなかった際に、前後を省いて検索すると、発見できる場合があります。
- 「援助物資輸入見込額」という語だが、のどの歪みにより「援」が認識されていない例
- 「バダックエルエヌジー輸送」という企業名だが、のどの歪みと改行により、「バ」「ー輸送」が認識されておらず、「ダックエルエヌジ」としないとヒットしない例
※館内限定公開資料のため、この例の閲覧には来館が必要ですが、「バダック」等と検索してヒットしないことは館外からでも確認できます。
3.その他の国立国会図書館ウェブサービスでの検索方法
正規表現を使う
時代による違いや、OCRの誤認識などにより、全文データには表記ゆれがある場合があります。
それらを一括で検索したい場合には正規表現検索が便利ですが、デジコレでは行えません。NDL Ngram Viewerを用いることで、正規表現を用いた検索が行えます。
詳しくは「全文検索を活用するには 3-2.NDL Ngram Viewerによる全文データの活用」をご覧ください。
NDL Ngram Viewerによって表記のバリエーションを確認し、それぞれの語でデジコレを全文検索することで、全文検索をいっそう活用できる可能性があります。
例:「ケンブリッジ」の表記ゆれ(ケムブリッジ、ケンブリツジ等)の候補をある程度まとめて確認したい場合は、NDL Ngram Viewerで「ケ.ブリ.ジ」と検索すると、検索キーワード候補と頻度情報が得られます。それぞれの表記の右側にある「国立国会図書館デジタルコレクションで検索」リンクから、各表記でデジコレを全文検索することができます。
関連記事
- ^デジコレでは「NOT」も使用可能ですが、NDLサーチでは「-」のみのため、本文では後者をご案内しています。