メタデータ流通ガイドライン:別紙

<別紙1:ガイドラインが目指すもの>

(2022年3月18日公開)

本ガイドラインの普及により、次の3つの目標を達成します。

  1. 流通に適した、メタデータの標準を提案する。
  2. 効率的で持続可能性の高い、メタデータの流通経路を整理する。
  3. メタデータ流通に関するコミュニケーションツールとして機能する。

1. 流通に適した、メタデータの標準を提案する

  • 本ガイドラインは、日本国内の様々な機関のメタデータを集約・提供するアグリゲータであるIRDBや国立国会図書館サーチの立場から、メタデータ流通及びコンテンツ利活用を考えるうえで重要となるメタデータの項目を提案しています。
  • 本ガイドラインを通して、メタデータ設計が、各機関の資料の特性やデータの持ち方に応じて手探りで進められていた部分の負担が軽減され、結果としてコンテンツの発見可能性が向上し、標準化されたメタデータが流通することを目指します。

2. 効率的で持続可能性の高い、メタデータの流通経路を整理する

  • メタデータを効果的に流通させるためには、メタデータ項目の標準化だけでなく、メタデータ提供機関の性質に応じた流通経路の選択が必要です。
  • 本ガイドラインでは、より多くの機関にメタデータ流通の枠組みに参加いただくために、メタデータ提供機関、アグリゲータともに運用負荷が低く、より効率的かつ持続可能性の高いメタデータ流通経路を検討し、その実現に向けたロードマップを提示しています。メタデータ提供機関が、ガイドラインをもとに流通経路を選択することで、日本国内および国外へのメタデータ流通が俯瞰的に整理されることを目指します。
  • 作成・公開したメタデータが自らのアグリゲータを超えて広く流通し、国内外からの情報資源へのアクセスが容易になることで、メタデータの価値を最大限に引き出すことが可能になります。

メタデータの流通イメージ図

アグリゲータとは?
本ガイドラインでは、デジタルアーカイブのメタデータを集約し、API等による提供を行う機関を意味します。

メタデータの還流という観点:流通経路が整理されることの効果について
流通経路が適切に整理されることの効果は、メタデータが多くの人に届き、コンテンツの利用が促進される以外にも、適切な経路を経由することで、メタデータがよりよく還流して成長していくという側面をもっています。
例えば、アグリゲータに多くのデータが流れると、アグリゲータでは、複数の由来を持つデータを統一的に扱うために、同じデータや著者の同定、オンラインで閲覧できる関連資料等へのリンク生成、また、資料種別などの情報の付加を行う場合があります。このようにアグリゲータによって付加された情報は、やがて他のシステムで利用され、また別のシステムへ流通し、他の機関の関連資料の情報を提供機関が利用することも可能になる、というメタデータの還流を実現することができます。このように、適切な流通経路の整理は、コンテンツ間の相乗効果を高め、メタデータの持つ可能性を最大限引き出す効果を期待することができるのです。

3. メタデータ流通に関するコミュニケーションツールとして機能する

  • 本ガイドラインで目指すメタデータ流通とその発展は長期にわたるプロセスです。このプロセスを維持し、改善していくためには、複数のスキーマやシステム、機関が関与し、コミュニケーションを図る基盤が必要です。
  • そのため、本ガイドラインは、これ自体がメタデータ流通の関係者が継続的に意思疎通を図るためのコミュニケーションツールとして機能することを目指しています。
  • 例えば、2022年3月公開のドラフト版では、主にデジタルアーカイブのメタデータ流通を念頭に、IRDBやNDLサーチの立場で、主に学術機関(大学等)を対象とした流通経路と標準的なメタデータ項目を整理しました。しかし、デジタルアーカイブの対象には、公共図書館、専門図書館なども含まれ、今後も継続して検討の上、ガイドラインの改訂が必要です。
  • 本ガイドラインは、今後順次整備していくことを念頭に、メタデータ流通の改善プロセスにおける現在地を示し、様々な関係者や利用者のフィードバック、また現場のニーズを受け付けられるコミュニケーションツールとしての役割を担います。
  • 数年ごとに改訂を行いながら、現場と理想のギャップを埋め、より実態に沿ったガイドラインを実現します。

<別紙2:流通に適したメタデータとは?>

(2022年3月18日公開)

“流通に適したメタデータ”とは、何か?本ガイドラインでは、次のようにとらえています。

  • (A)コンテンツの利活用につながる情報を十分に備えている
  • (B)相互運用性が担保されている
  • (C)情報の一貫性、均質性が、一定程度保たれている

上記3点を要件とした“共通的に必要な情報(標準)”をガイドラインに示すことで、広く流通するに堪える情報を備えたメタデータが流通することを目指しています。

(A)コンテンツの利活用につながる情報を十分に備えている

メタデータ流通の最終的な目的は、コンテンツの利活用促進です。
デジタルアーカイブが提供する各種コンテンツでは、コンテンツの利用条件、可視性を高めるためのサムネイル、IIIF(International Image Interoperability Framework)、解説や翻刻、デジタル化した原資料等の情報への参照、DOI等識別子の情報など、コンテンツに関連した情報が適切に保持されていることで、利用者が、より活発にコンテンツを発見・利用できるようになります。
本ガイドラインでは、様々なメタデータをコンテンツ利活用に結びつけるために、各メタデータの流通のポイントを案内しています。

(B)相互運用性が担保されている

メタデータを効果的・効率的に流通させる過程では、公開(発出)されたメタデータがエンドユーザに届くまでに、様々なシステム、アグリゲータを経由する場合があります。また、その経由地ごとに、メタデータが各システムのスキーマに合うように変換(マッピング)されることが想定されます。
このような流通過程において、メタデータ提供機関が発出した情報が適切に変換される(データロスが生じない)相互運用性の高さも、メタデータ流通に必要な要件です。

本ガイドラインでは、DC-NDL(RDF)やJPCOARスキーマといった個々のスキーマにおける使用法だけでなく、具体的に想定される流通経路を意識してスキーマ間の項目の変換条件を整理することで、相互運用性を担保できるようにしています。
本ガイドラインを参照いただくことで、ご自身の機関が保持する資料種別や、メタデータの流通経路に応じて、どのスキーマ・項目を採用すればよいか選択することができます。また、ガイドライン内のスキーマ間変換表(別紙5)をもとに、自館のメタデータをどう流通させればより効果的・効率的かといった、より戦略的な視点で検討いただくことも可能です。

(C)情報の一貫性・均質性が、一定程度保たれている

メタデータが流通すると、メタデータは、個別のサービス(例えばNDLサーチ、ジャパンサーチなど)上で、他の複数のデータベースから提供されたメタデータと一緒に利用されます。
このように、様々な由来をもつメタデータがサービスで利用される場合に、利用者がある情報資源をより適切に・より広く発見するためには、メタデータがもつ情報の一貫性、均質性が保たれていることが必要です。
例えば、1つのサービスにおいてある特定の資料種別のメタデータに情報の詳細度や格納している項目にばらつきがあると、利用者が検索等を行った場合に、あるデータベース由来のメタデータはヒットするが、他のデータベースのものは探せない、といったことが発生します。

また、1つのデータベース内の情報の品質においても、メタデータの作成時期やコレクション等によって、あるメタデータには情報があるがこれ以降はない、といったばらつきがあると、同類のデータがヒットしたりしなかったり、といった事象を生みます。
本ガイドラインでは、メタデータ流通の過程で複数のメタデータをまとめて扱われる場合に、複数のデータベースに横断的な情報の網羅性が損なわれないよう、必要な情報の粒度を必要最低限とし、細かくなりすぎないようにも留意しています。

<別紙3:メタデータ流通経路>

(2022年3月18日公開)

本ガイドラインを利用いただくにあたって、メタデータ提供機関の性質に応じた、流通経路を具体的にイメージいただくための資料です。

1. メタデータ流通経路について

メタデータ流通においては、IRDB、NDLサーチ、ジャパンサーチといったアグリゲータとなるシステムが存在し、こうしたアグリゲータを経由することで、より効率的にメタデータを流通させることができます。また、アグリゲータと個々のデジタルアーカイブの個別の連携だけでなく、アグリゲータ同士の連携も含めて、メタデータ流通の経路が整理されることで、より持続可能性が高く、国際的な視点も視野に入れた広範囲で、効率的な流通を実現することが可能です。

本別紙では、アグリゲータとなるシステムを運用する各機関の協力のもと、ガイドラインの目標に掲げた「メタデータ流通経路の整理」を具体的に進めるため、メタデータ提供機関の性質に応じた流通の経路をご提示しています。
ガイドライン本体と合わせて利用いただくことで、提供機関にとって、どのシステムに、どのようなメタデータを提供すればメタデータを効果的・効率的に流通させることができるのかがより明確になり、提供機関、アグリゲータともに持続可能性の高いメタデータ流通を実現することが可能になります。

2. ガイドラインの対象範囲

ドラフト版では、学術機関等を対象にメタデータ流通経路の整理を行っています。
公共図書館、専門図書館等のメタデータ流通経路の整理については今後の改訂で扱う予定です。それに伴い協力いただく機関の範囲も拡大予定です。

別紙3ガイドラインの対象範囲凡例

別紙3ガイドラインの対象範囲
図:ガイドラインの対象範囲

3. 学術機関等のデジタルアーカイブのメタデータ流通

学術機関等の保有する情報資源のうち、デジタルアーカイブのメタデータ流通においては、アグリゲータを経由した流通が可能です。

  • 学術機関等のメタデータ流通における主なアグリゲータ

    名称・URL運営主体メタデータ流通の中での役割収集ポリシー
    学術機関リポジトリデータベース(IRDB)
    IRDBバナー
    https://irdb.nii.ac.jp/Leave the NDL website.
    国立情報学研究所(NII)学術機関等のリポジトリに登録されたメタデータを標準的な形式により集約。日本国内の学術機関リポジトリに登録されたコンテンツ(*1)https://support.irdb.nii.ac.jp/jaLeave the NDL website.
    国立国会図書館サーチ(NDLサーチ)
    NDLサーチバナー
    https://ndlsearch.ndl.go.jp/
    国立国会図書館(NDL)図書館領域の情報資源の集約及びメタデータ標準化。図書館領域の情報資源(蔵書目録、デジタルアーカイブなど、図書館領域の情報資源を広く対象とする)(https://ndlsearch.ndl.go.jp/renkei/plan
    ジャパンサーチ(JPS)
    JPSバナー
    https://jpsearch.go.jp/Leave the NDL website.
    デジタルアーカイブジャパン推進委員会・実務者検討委員会
    システムはNDL
    国内のデジタルアーカイブの集約及び国外への発信。国内外のデータの利活用促進。国の文化機関をはじめ、図書館、博物館・美術館、更には地方自治体や大学など、幅広い機関(アーカイブ機関)の持つデジタルコンテンツのうち、メタデータの二次利用条件が明示され、オープンデータとなったもの
    1. ^
      本文があるコンテンツが大多数を占めるが、メタデータのみでもハーベスト対象としている
  • 学術機関等のメタデータ流通経路
    メタデータ流通のルートとしてコンテンツの内容・性質に応じ次を想定しています。

    別紙3学術機関等のメタデータ流通経路
    図:メタデータ流通経路図(学術機関のデジタルアーカイブ)

    自機関のデジタルアーカイブ・データベースの性質を踏まえ、どのルートでメタデータを流通させるのが適切か、上図を参考に検討ください。連携先を迷う場合、また、メタデータ提供についての具体的な手続きは、各システムの運営主体にご相談ください。
    本件は、IRDBを運用するNIIとNDLサーチを運用する国立国会図書館、学術情報資源の基盤構築・管理・共有・提供にかかる活動を推進する「これからの学術情報システム構築検討委員会」、学術コミュニティによる円滑なメタデータ流通を目指す「オープンアクセスリポジトリ推進協会(JPCOAR)」が協力し検討を進めました。

  • ジャパンサーチへ流通するルートについて
    ジャパンサーチでは、提供するメタデータが原則CC BYまたはCC0であることを定めています。そのため、IRDBからNDLサーチを経由し、ジャパンサーチへ流通するルートは、IRDBのメタデータの二次利用条件が整備された後となります。
    二次利用条件が整備されるまでの間は、各学術機関等の希望に応じて、個別にNDLサーチと連携(およびメタデータのライセンス許諾の取り交わし)を行い、ジャパンサーチへの提供を行っています。

メタデータ流通経路の整理
持続可能性のあるメタデータ流通を維持するために必要な流通経路の要件は次の3点と考えています。

  • 各システム固有の要件とメタデータ流通の要件の両立
  • 効率性
  • わかりやすさ

IRDB・NDLサーチ・ジャパンサーチなどの各システムは、それぞれの利用者に向けた固有のサービスを提供する一方で、各機関からのメタデータを集約し、配布することでメタデータ流通を促進する役割を担っています。
各システムは固有のサービス要件のために必要とするデータ群があり、データ収録のためにデータ提供元と交渉する動機を持ちます。その結果、各システム間でデータの重複が起こることになります。一方でデータ提供元から見て、複数のアグリゲータからデータ提供を持ちかけられ、メタデータ提供ルートが複線化することはメタデータ提供機関の作業負担を増やし、非効率的でわかりづらくなります。また、メタデータ流通という観点から同じデータが別データであるかのように重複してバラバラに流通することは望ましくありません。

別紙3持続可能性のあるメタデータ流通

このように、各システムの提供データの範囲は変更せずに、メタデータ流通ルートをなるべくシンプルにするために、「(1)各デジタルアーカイブはその特性に応じたアグリゲータにメタデータを提供し、(2)データの重複を調整する仕組みを作る」という方針をもって流通経路の整理を行いました。

<別紙4:ガイドラインの対象スキーマ>

(2022年3月18日公開)

ドラフト版は、学術機関リポジトリデータベース(IRDB)とNDLサーチを経由するメタデータ流通にスコープを絞り作成しています。
ここではそれぞれが採用しているメタデータスキーマ、JPCOARスキーマとDC-NDL(RDF)について簡単に説明します。

メタデータスキーマとは?
メタデータの形式や構造を定義したもの。メタデータの記述に用いる語彙定義と記述規則をあわせてスキーマと呼びます。予め定義されたメタデータスキーマに基づいてメタデータを作成することで、メタデータに記述された項目の意味が定まり、異なるシステム間でも、そのメタデータを適切な意味で利用することができるようになります。
メタデータスキーマに関する用語整理

  • 語彙定義:メタデータ記述に使用する要素を定義したもの
  • 記述規則:リソースの記述にあたりどのようなプロパティを使用するか、どのような値を入力するかを取り決めたもの
  • リソース:メタデータの記述の対象になるもの(本のメタデータの場合、対象となった本そのもののこと。)
  • プロパティ:リソースが持つ特徴に名前を付けて表現したもの(例:タイトル、著者)
  • 値:リソースを記述する際にプロパティと関連付けられる固有の特徴や性質

別紙4メタデータスキーマとは

1.DC-NDL(RDF)

DC-NDL(RDF)は「国立国会図書館ダブリンコアメタデータ記述(DC-NDL)」に基づいて作成されたスキーマであり、NDLサーチにおいて主要なメタデータ入出力フォーマットとして採用されています。
蔵書目録の資料を対象とした「管理情報」、「書誌情報」、「個体情報」の3層構造での表現が可能です。今回のガイドライン作成に際して、デジタルアーカイブを意識した改訂を行う予定です。
※詳細は、<別紙7:メタデータ構造>を参照。

DC-NDLとは?
国立国会図書館ではウェブ上の情報資源のメタデータ記述に標準的に使用されるダブリンコア(Dublin Core)をもとに拡張した、「国立国会図書館ダブリンコアメタデータ記述(DC-NDL)」を定義し、情報資源の組織化および利用提供のためのメタデータ標準として使用しています。

RDF(Resource Description Framework)とは?
セマンティックウェブ(ウェブ上の情報資源の検索や活用をより効果的に行うため、情報資源に意味の明確なデータを付与し、機械的な意味処理を目指す構想)におけるメタデータの標準的な表現方法です。国立国会図書館サーチで使用している、DC-NDLに基づいたRDF/XML形式のフォーマットをDC-NDL(RDF)と呼称しています。

2.JPCOARスキーマ

オープンアクセスリポジトリ推進協会(JPCOAR)が2017年に策定したメタデータ規格です。日本の機関リポジトリのメタデータの国際的な相互運用性を向上させ、日本の学術的成果の円滑な流通を図ることを目的としています。

<別紙5:データ項目一覧(対照表)>

(2022年3月18日公開)

<別紙6:データ項目一覧(識別子)>

(2022年3月18日公開)

<別紙7:メタデータ構造>

(2022年3月18日公開)

メタデータを流通させることによって、個々のメタデータはオリジナルの文脈を離れて、異なるデータベースに由来するメタデータと統合的に扱われることになります。それぞれの機関で意図したメタデータの粒度や位置づけを的確に表現するためには、メタデータを階層的に捉え、記録する必要があります。

図書館等における資料の書誌記述としては、多巻ものの資料に対する集合レベル書誌と各巻レベル書誌や、FRBRモデルにおける体現形と個別資料といった階層構造がよく知られていました。これらの階層構造は、データベースにおける各データの粒度や位置づけを検討するための概念上の枠組みを提供します。デジタルアーカイブをはじめとした各種データベースのメタデータ流通にあたって特に考慮しておきたいメタデータ階層構造のうち、ここではメタデータのメタデータ、デジタル化資料のメタデータと原資料のメタデータについて説明します。

1. メタデータのメタデータ

メタデータがコンテンツについて説明する記述であるのに対し、メタデータのメタデータはコンテンツを記述したメタデータについて説明する記述です。メタデータのメタデータにおいて代表的な項目として、そのメタデータの収録データベースや、メタデータの二次利用条件に関する情報などが挙げられます。特にメタデータの二次利用条件はコンテンツと混同されないようにする注意が必要です。

2. デジタル化資料のメタデータと原資料のメタデータ

デジタルアーカイブが提供する各種コンテンツのメタデータは、図書資料のメタデータ(目録)と比較すると、デジタル化の対象である原資料の情報の記録に大きな特徴があります。伝統的な図書館資料は、ある資料を複製することによって作成された資料について、その複製自体についてのデータを記録した目録が作成されてきました(**1)

しかし、過去の資料を複製して改めて公開するという営みは、デジタル技術によって大きく変化しました。デジタル化資料を利用する利用者は、特定の機関、特定の時期にデジタル化された複製資料を発見することを目的に検索を行うというよりは、そのデジタル化資料の元となった原資料を求めて資料を検索し、原資料を閲覧する1つの手段として、オンライン上のデジタル化資料を利用します。そのような利用行動を前提として、デジタル化資料のメタデータの各項目は原資料に基づいて記述されることがほとんどです。あるいは、原資料とデジタル化資料の両方についての情報が1つのメタデータに記述される場合もあります。デジタルアーカイブのメタデータは、デジタル化資料そのものだけではなく、原資料-デジタル化資料の関係性を前提とした階層性を備えています。

この原資料-デジタル化資料の階層構造は、例えば原資料の製作日とデジタル化データの製作日、原資料の形態・資料種別とデジタル化データの容量・フォーマット、原資料の所蔵機関とデジタル化データの所蔵機関のように、資料のライフサイクルや種別、所蔵等に対する情報をそれぞれの階層ごとに備えています。このように階層性のある情報を区別せずに1つのメタデータに記述する、あるいは原資料の書誌事項のみを採用するなど、機関によって対応が異なるメタデータを集約して統合的な検索システムで提供する場合、統一的な項目で検索・閲覧することが困難になります。各データベースのメタデータ設計・作成の場で、この階層性を表現するための実装を行う必要はありませんが、各項目がどの階層レベルの情報を記述するものなのかを何らかの形で記録しておくことは、将来のメタデータ流通をスムーズにするでしょう。

  1. ^
    『日本目録規則2018年版』
    #2.0.4 複製を記述対象として体現形の記述を作成する場合は、複製自体についてのデータを記録する。原資料についてのデータは、関連する著作または関連する体現形のエレメントとして記録する

3. DC-NDL(RDF)のメタデータ階層構造の実装

別紙7DC-NDL(RDF)のメタデータ階層構造の実装

本ガイドラインは、特定のメタデータスキーマを指定するものではありませんが、各種のメタデータを統合的に扱うことを目指した実装の例として、以下でNDLサーチが用いているDC-NDL(RDF)のメタデータ構造について説明します。

DC-NDL(RDF)は、「国立国会図書館ダブリンコアメタデータ記述(DC-NDL)」をRDFに基づいて記述したもので、管理情報(BibAdminResource)、書誌情報(BibResource)、個体情報(Item)という三層構造に分かれています。NDLサーチは、総合目録ネットワーク事業において各図書館の所蔵情報も含めた目録情報を収集しています。これらの目録情報は、FRBRモデルにおける体現形-個別資料という関係に該当します。これに対して、デジタルアーカイブのメタデータは原資料-デジタル化資料という階層関係があります。これらの異なる階層関係をNDLサーチという統合検索システムで統一的に扱うために、DC-NDL(RDF)は利用者が「同一の資料」と見なすと思われるものを、データの検索・同定単位とすることができるような構造を目指しました。主として体現形、原資料レベルの情報を書誌情報に、主として個別資料、デジタル化資料レベルの情報を個体情報に格納することを基本としました。また、原資料-デジタル化資料という階層構造を、パッケージ系デジタル資料のマイグレーション資料など、原資料を元に媒体変換した資料全般に拡張しています。

書誌情報と個体情報の区分はNDLサーチにおける実用性を考慮した階層構造です。結果的に、DC-NDL(RDF)は、書誌情報に資料の検索・同定に用いられる情報を、個体情報に資料のアクセスに関連する情報を格納するデータ構造となっています。管理情報には、メタデータのメタデータにあたる情報が格納されます。