国立国会図書館サーチのメタデータ
1. 国立国会図書館サーチのメタデータとは
国立国会図書館サーチでは、当館蔵書に限らず、全国の図書館の様々なメタデータを検索対象として提供しています。
各メタデータは、様々な由来を持ち、作成基準やフォーマット等もそれぞれ異なっています。これらを、できるだけ統一的に検索し、利用手段につなげること、また、さらにAPI等を通じて広く利用可能とするために、国立国会図書館サーチではメタデータの格納時に統一的な形式への変換や組織化等の処理を行っています。
本ページでは、これらの処理過程をご案内しています。
2. メタデータの変換(情報の整備)
各機関から提供されたデータを、NDLサーチの内部データ形式(内部json)に変換して格納していきます。
内部jsonへの変換時には、データ項目のマッピング以外にも、次のような正規化処理を行っています。
- 資料形態や種別等の国立国会図書館サーチ内で共通的に必須な値を追加
- 一定のルールに基づいた値生成
例:書誌IDを基にした、サムネイルURLや遷移先URLの生成 - 区切り記号の除去
- 導入句の付与
内部jsonは、国立国会図書館サーチの独自仕様です。主に次のような項目を格納しています。
- 必須項目
- NDLサーチ内で共通的な値(資料種別、資料形態)
- システム上必要な値(ID、書誌種別、アイテム種別)
- タイトル、遷移先URL
- 基本的な書誌事項(あれば必須)
- 推奨度「高」の項目 …「メタデータ流通ガイドライン」参照
- 資料の内容を特定するために有用な情報
- サムネイルURL、二次利用条件
- 目次、あらすじ等の付加情報
- 上記以外
- その他に、連携先データベースから出力される情報
格納先がない場合、注記(導入句付)などを検討して格納
- その他に、連携先データベースから出力される情報
(参考)目録規則等の違いによる差異
国立国会図書館サーチが受け取るデータは、採用された目録規則やフォーマット等もそれぞれ異なります。できる限りマッピングにて統一的になるようにしていますが、一部は抽出が難しいケースもあります。
この例は、原資料がある資料に関するメタデータです。採用する目録規則等の違いにより、出版者や出版年に切り出される情報が、媒体変換後、または、原資料の情報と異なっています。この場合、国立国会図書館サーチでは、原資料注記から抽出できる場合に限り、原資料の情報を出版年や出版者に記録するようデータ変換をしています。
3. メタデータの組織化(基盤の整備)
国立国会図書館サーチに格納されたメタデータを統一的に扱い、利用導線を充実させるため、階層を整え、同じ資料を同定するなどの組織化処理を行っています。
国立国会図書館サーチに格納したメタデータは、次のような構造を持ちます。
階層関係を「書誌種別」という情報で示します。
基本的な利用の単位は「book」です。
起点となる「book」のデータがそろうよう、一部のデータは、組織化処理時に生成しています。
ここまでで、データの基盤を整えます。
さらに、利用導線を最適化するために、大きく2種類の同定を行っています。
参考)書誌同定に用いている識別子
- 全国書誌番号
- MARC番号(TRC、NS)
- ISBN
- 当館書誌ID
- NDLJP(NDLデジコレのもつ永続的識別子PID)
- DOI
- NCID
- JP-eコード
- ISSN
- NAID
- HDL
- 各機関のローカルID(各機関の紙蔵書とデジタル化資料の同定のため)
4. メタデータの流通経路(環境の整備)
国立国会図書館サーチでは、効率的かつ効果的なメタデータ連携を目指し、NII・JST等の関係機関と協力し「メタデータ流通ガイドライン」を整備しています。
メタデータ流通ガイドラインでは、様々なメタデータの流通経路を順次整備し、関連するメタデータスキーマとの互換性の整備なども行っています。
ガイドラインの整備により、データがもつ情報が統一的になるような環境づくりを目指しています。
さらに、様々な利用上のニーズをメタデータに反映していくための改善のフローを、次のように考えています。
5. メタデータの提供
国立国会図書館サーチでは、収集したメタデータを画面上で検索等利用可能にするだけでなく、各種APIにより提供しています。
提供しているAPIの機能や利用方法については、次のページをご参照ください。
国立国会図書館サーチ APIのご利用について
これまでご説明した内部jsonは国立国会図書館サーチの独自仕様ですが、API提供時には、標準的なフォーマットであるDC-NDL(RDF)等に変換して出力しています。
各APIの特性をふまえ、DC-NDL(RDF)で出力されるメタデータの単位には次のような違いがあります。
- 検索用API(SRU等)
複数機関のデータを同定した単位(組織化処理後の結果)で出力します
基本的には、書誌詳細画面で提供している単位で出力されます
同定された各機関の情報は、個体情報(dcndl:Item)を繰り返して表現します - ハーベスト用API(OAI-PMH)
連携されたデータベース単位(組織化処理による同定前の単位)で出力します
個体情報(dcndl:Item)は、1データにつき1つのみ出力されます
国立国会図書館サーチに格納する際に付与した、統一的な情報も、APIから指定可能です。
- 外部提供インタフェース仕様書 附録2 表1 データグループ ID 一覧
title、book、articleなどの書誌単位や、資料形態、資料種別での指定が可能
DC-NDL(RDF)フォーマット仕様については次のページをご参照ください。
DC-NDL(RDF)フォーマット仕様
DC-NDL(RDF)フォーマット仕様ver.3.0ドラフト版を公開しています。
「DC-NDL(RDF)フォーマット仕様ver.3.0ドラフト版」