全文検索を活用するには
更新
サービス企画課 作成
1.全文検索とは
全文検索では、図書や雑誌のタイトル・目次だけでなく、本文・挿絵のキャプションなども検索することができ、タイトル・目次からでは見つけられない記述を発見できる可能性があります。一方、探している情報と関係のない情報がヒットする可能性もあり、対象・範囲や特徴を把握して用いることが必要です。
この記事では、主に国立国会図書館の提供するウェブサービスで全文検索機能を活用する方法についてご説明します。
2.国立国会図書館デジタルコレクションの全文検索
国立国会図書館デジタルコレクションでは、収録された資料の多くについて全文検索を行うことができます。
全文検索の対象は次のとおりです。
- 電子ファイルに埋め込まれている全文テキスト(電子書籍・電子雑誌、電子形態で収集した博士論文)
- OCR(光学文字認識)処理によるデジタル化資料(図書、雑誌、官報等の一部)の全文テキスト
※OCR処理による全文テキストは校正を行っていないため、誤認識されたテキストが検索・表示される場合があります。直近で追加された資料など、OCR処理が未実施のものもあります。
参考:国立国会図書館デジタルコレクション「全文検索が可能な資料について」
なお、国立国会図書館所蔵資料の全てが国立国会図書館デジタルコレクションに収録されているわけではありません。収録範囲等については、「国立国会図書館デジタルコレクションについて>4.資料の概要説明」をご覧ください。
また、短歌・俳句の作品集のようにスニペット表示で著作物全体が表示される資料、辞書・四季報などのようにスニペット表示だけで利用目的が達成されうる資料など、一部スニペットが表示されない資料もあります。
2-1.国立国会図書館デジタルコレクションの閲覧
国立国会図書館デジタルコレクションの全文検索でヒットした図書や雑誌の内容を確認するには、公開範囲に応じて以下のような方法があります。
(公開範囲について詳しく知りたい方は、国立国会図書館デジタルコレクションの「国立国会図書館デジタルコレクションについて>3-1.デジタル化資料」をご覧ください。)
ログインなしで閲覧可能
インターネット上でどなたでも閲覧できます。コマ番号をクリックすると該当箇所にジャンプします。
全文検索の結果箇所は、画像上にピンで表示されます。
送信サービスで閲覧可能
閲覧できるのは、日本在住で、利用者登録(本登録)と最新の個人向けデジタル化資料送信サービス利用規約への同意を行った方です。詳しくは国立国会図書館ウェブサイト「個人向けデジタル化資料送信サービス」をご覧ください。
手続きが完了した後は、国立国会図書館デジタルコレクションにログインすると、インターネット公開と同様に閲覧できます。
また、図書館向けデジタル化資料送信サービス(図書館送信) 参加館や国立国会図書館内でも閲覧できます。どの図書館で閲覧できるかは、図書館向けデジタル化資料送信サービス参加館一覧をご覧ください。
国立国会図書館内限定
この公開範囲の図書や雑誌も、全文検索の対象となっていますが、本文の閲覧には国立国会図書館に来館していただく必要があります。
国立国会図書館デジタルコレクションからの遠隔複写サービスもご利用可能です。国立国会図書館への来館が困難な場合などに活用をご検討ください。
3.NDLラボの全文検索等
国立国会図書館が研究開発した次世代の図書館システムの実証実験の場である「NDLラボ」では、いくつかの実験的な検索サービスを提供しています。
3-1.次世代デジタルライブラリーの全文検索
「次世代デジタルライブラリー」では、国立国会図書館デジタルコレクションで提供している資料の中から、著作権の保護期間が満了した図書(約28万点)に加え、古典籍資料全部(約8万点)の全文検索や資料に含まれる図版(挿絵、写真、図表等)の検索が可能です。
※OCR処理による全文テキストであり、校正を行っていないため、誤認識されたテキストが検索・表示される場合があります。
古典籍資料には、くずし字や異体字、変体仮名等が使われており、専門的な知識がないと判読自体が難しい資料が多く存在します。そうした資料について、当館の次世代システム開発研究室でOCRテキスト化実験を実施して作成した全文テキスト(未校正)を全文検索に使用しています。
令和6年2月現在、古典籍資料は、国立国会図書館デジタルコレクションでは全文検索が行えません。古典籍資料の全文検索を行いたい場合は、次世代デジタルライブラリーをご利用ください。
参考:古典籍資料のOCRテキスト化実験
3-2.NDL Ngram Viewerによる全文データの活用
NDL Ngram Viewerでは、OCRによって作成された全文テキストデータから、出版年代ごとの単語及びフレーズ(以下「キーワード」といいます。)の出現頻度を可視化・列挙できます。
「ケニア」と「ケニヤ」の出現頻度を年代ごとに比較する、「銀ブラ」の初出を探る、といった、全文データの活用が考えられます。
また、表記ゆれの候補を一括で取得したい場合には正規表現検索が便利です。列挙された結果から、国立国会図書館デジタルコレクションへの検索結果へのリンクを取得できます。
例:「ケンブリッジ」の表記ゆれの候補をある程度まとめて確認したい場合は、「ケ.ブリ.ジ」で検索すると、検索キーワード候補と頻度情報が得られます。
NDL Ngram Viewerや正規表現については、「NDL Ngram Viewerの公開:全文テキストデータ可視化サービス」もご参照ください。
4.WARPの全文検索
国立国会図書館インターネット資料収集保存事業(Web Archiving Project: WARP)は、日本国内のウェブサイトを保存しています。
保存されたページは、WARP上から全文検索が可能です。(図書、雑誌、論文記事などの刊行物を取り出して保存したものは、2.で紹介した国立国会図書館デジタルコレクションの電子書籍・電子雑誌に収録され、そちらからの全文検索も可能です。)
ヒットしたページは全て国立国会図書館の館内でご覧いただけるほか、発信者の許諾が得られたものはインターネット上でも公開しています。
収集対象、統計等は、「国立国会図書館インターネット資料収集保存事業(WARP)について」をご覧ください。
5.会議録検索システムの全文検索
第1回国会(昭和22年5月)からの本会議・委員会の会議録を検索できる国会会議録検索システム 、帝国議会(明治23年11月~昭和22年3月)の本会議・委員会の速記録を検索できる帝国議会会議録検索システム があります。議会での発言などを全文検索することが可能です。なお、OCR(光学的文字認識)処理で生成したテキストについては、誤字・脱字が含まれている場合があります。
詳細は以下をご参照ください。
6.国立国会図書館サーチの全文検索
国立国会図書館サーチでは、前述の国立国会図書館デジタルコレクションとWARPを横断して全文検索を行うことができます。
検索結果一覧画面の下部の「資料の本文」の枠囲みの中に全文検索の結果が表示されます。
ただし、検索の負荷が高い場合などに、検索結果が表示されないことがあります(詳しくは 「検索について(Q&A)>連携しているデータベースのすべての資料を検索できますか?」 をご覧ください)。一度検索して結果が表示されなくても、再度検索しなおすと検索結果が表示される場合があります。
国立国会図書館デジタルコレクションについては、ヒットした国立国会図書館デジタルコレクションの資料へのリンクをクリックすると、当該資料の冒頭ページが表示されます。検索語句と一致した箇所にワンクリックで移動することはできません。
ヒットした箇所をワンクリックでご覧になりたい場合は、国立国会図書館デジタルコレクションにアクセスし、2.で紹介した全文検索機能をご利用ください。
WARPについては、ヒットしたWARPの検索結果へのリンクをクリックすると、当該ページをご覧いただけます。
ただし、「〇〇県のサイト内だけを探したい」のように、URLなどで限定した範囲を全文検索したい場合は、WARPにアクセスし、4.で紹介した全文検索機能をご利用ください。
7.他機関のウェブサービス
全文検索が行える主なウェブサービスをご紹介します。 収録範囲・使用方法などは、各機関のページでご確認ください。
なお、大学等の機関が博士論文や紀要を収録しているリポジトリも、全文検索可能な場合があります。日本の博士論文の探し方については、関連記事欄をご覧ください。