東京大学学術資産等アーカイブズポータル(東京大学)

2019年12月から新しく連携を開始させていただきました。
連携開始当時の東京大学学術資産アーカイブ化推進室(以下、推進室)のご担当にお話を伺いました。
(2020年5月1日インタビュー実施)

基本情報(2020年5月時点)
アーカイブ概要東京大学の各部局が個別に公開しているコレクションの情報を集約し、公開しているサイト。
https://da.dl.itc.u-tokyo.ac.jp/portal/外部サイト
メタデータ件数約17万件、うち約14万件を国立国会図書館サーチと連携
連携方式OAI-PMHによるAPI連携
連携調整期間
  • 連携打診:2018年12月頃
  • リリース:2019年12月

NDL:国立国会図書館サーチ(以下、NDLサーチ)と連携いただいたきっかけや背景をお聞かせください。

東大:他機関とのメタデータ連携は開発当初から考えていました。メンバーのひとりが以前の職場で、IRDB(学術機関リポジトリデータベース)外部サイトとNDLサーチの連携などメタデータの流通に関わっていたこともあり、東京大学デジタルアーカイブズ構築事業(以下、アーカイブズ事業)外部サイトでもNDLサーチと連携したいと考えたことがきっかけです。また、東京大学のディスカバリーサービス「TREE」外部サイトでもデジタルアーカイブのデータを検索させたいという要望があり、それらを組み合わせたモデルで方向性を固めていきました。

NDL:メタデータの流通をさせたいということは最初から意識されていたのですね。

東大:メンバーに学術機関リポジトリの担当もおり、自然とその発想が生まれました。連携先についても、NDLサーチ以外に、IRDBやジャパンサーチなどを候補として検討し、どのようなルートにすればきれいにメタデータが提供され、最終的に東京大学のディスカバリーサービスなどにつながっていくかをシミュレーションしました。メタデータを流通させることについて、周りから特に反対されることはありませんでしたが、どのようなルートで、どのようにデータを渡すのが良いかは悩むところもあり、検討を重ねています。
また、アーカイブズ事業は、単にデジタルアーカイブを作ることに加え、その利活用を目指すことに重きを置いた東京大学の大きなミッションとして始まりました。コンテンツ自体を活用させるためにメタデータを流通させることは最初から視野に入っており、事業を進めるうえで外部連携は大きかったと感じています。

NDL:開発時から外部機関とのデータ連携を見据えておられたのですね。ちなみに、検討にはどれくらいの時間をかけられたのでしょうか。

東大:推進室設立前の提案として2016年度末の資料がありますが、その時点ですでに連携を考えていました。本格的に東京大学学術資産等アーカイブズポータル(以下、ポータル)のプロジェクトをはじめたのは、推進室設立初年度である2017年度です。1年目は企画とプロトタイプの開発・評価にあてています。推進室2年目の2018年度に入って、プロトタイプから得た評価をもとに、本サービスの仕様を決め開発を始めました。最終的に2019年12月にNDLサーチと連携すると決めるまで本格的な企画開始から2年ほど、実現には2年半ほどかかったことになります。設計当初から外部機関とデータ連携するためのOAI-PMHの開発は仕様に含めていましたが、連携に先立ってまずシステムを作らなければならず、実際のNDLサーチとの連携は、システムを作り終えてから具体的に詰めていきました。
出力するデータ形式としては、DC-NDLJPCOARスキーマ外部サイト両方に対応できるようにシステム構築しました。JPCOARスキーマは、DOI付与のメリットを考えてIRDBとの連携を見据えていたためですが、現時点では途上であり、今後の課題と考えています。


NDL:アーカイブズ事業を進めるにあたって、メタデータの設計や集約の検討はどのように進められたのでしょうか。

東大:メタデータの集約は、多様な部局があり、それぞれでメタデータの形式も違うため、最終的にはポータルに入れる段階で統一するという方法を採用しました。提供元から多くは、ExcelやCSVの形式でデータが提供されます。また、OAI-PMHによるデータ提供が可能なコレクションもあり、提供元の独自スキーマで出力されたものをポータルに取り込んでいます。
また、メタデータは細かいマッピングが必要とならないように、「内容記述」という項目に、幅広いデータ項目が入れられる設計としました。ポータル側のメタデータの項目が細かくない分、DC-NDL等の他フォーマットへの変換には限界がありますが、結果として分かりやすく、学内の連携がしやすくなりました。

NDL:メタデータの提供に関して、コンテンツを保有する部局との調整はどのように進められたのでしょうか。

東大:コンテンツを保有する部局に対しては、あるがままのメタデータを提供してもらえれば、ポータル側で投入できる形に調整します、という姿勢で臨んでいることもあり、特別な調整が必要になったケースは思い当たりません。しいて言えば、こういったデータ項目を出力してほしい、例えばサムネイル画像のURLを提供してもらいたいといった調整くらいでしょうか。
アーカイブズ事業では、デジタル化をするための予算の割り当てと、その予算によりデジタル化されたコンテンツに関するメタデータはポータルに搭載するという基本的な流れがあり、まずそこでコンテンツを保有する部局との合意がありました。コンテンツを保有する部局も、作成したコンテンツやメタデータの公開範囲は広い方が良いと考えていることから、メタデータの提供には気持ちよく協力してもらっている印象です。

NDL:開発当初から外部とのメタデータ連携を考えられていたということですが、部局と調整される時には、NDLサーチと連携することもお話されていたのでしょうか?

東大:具体的にNDLサーチとは伝えていませんが、外部機関との連携を想定して、部局からメタデータをもらうときには、ライセンスの明示を含めて話をしました。

NDL:最初からライセンスのことをご説明いただいていたのは素晴らしいですね…。メタデータのライセンスについてはどのようにご説明を進められたのでしょうか?

東大:アーカイブズ事業の予算で新たにデジタル化するものについてはインターネット上で一般公開することが原則ですが、オープンデータになっていないものも一定数あり、なるべくオープンデータにしませんか、オープンにするとこんな良いことがあります、という説明を都度していました。また、2018年度に行った、オープンデータに関するセミナーの開催などの広報活動も、その理解に繋がったのではないかと思っています。
※第2回東京大学学術資産アーカイブ化推進室主催セミナー
かわいい子には旅をさせよ ― デジタルアーカイブとオープンデータ ―
https://www.lib.u-tokyo.ac.jp/ja/library/contents/archives-top/seminar2外部サイト


NDL:NDLサーチなど、外部機関とのデータ連携を実現していくうえで難しかった点はありましたでしょうか?

東大:先にも言った通り、ポータルのシステムは、単純な形のメタデータのやり取りができる仕様で開発しましたが、運用していくうちに足りない部分が分かってきて少し改修を行いました。当初は内部データ項目とOAI-PMH出力用データ項目同士のマッピングを設定画面により定義する方式でした。ただ、これでは設定の自由度がどうしても低くなるので、PHPのテンプレートエンジンのテンプレートを、管理者が直接設定する方式にシステムを改修してもらいました。これであれば、内部のデータ項目を管理者が自在に設定し、簡単な処理ロジックを組み込むこともできます。
NDLサーチとの連携では、DC-NDL(Simple)を用いていますが、URL系の値など、このDC-NDL(Simple)では表現が難しいものが幾つかあり、NDLサーチのご担当と相談させていただきながら改修を行いました。また、NDLのタイプ語彙について、図書資料に限らないデジタルアーカイブでは適切な語彙がない場合があり、そのマッピングが難しいと感じました。

NDL:NDLタイプ語彙は元々、図書資料を中心に作られた語彙のため、デジタルアーカイブとの連携を考えると不足しているということは、こちらでも認識していて、今後の課題と考えています。


NDL:NDLサーチと連携した後に、何か影響や反応はありましたでしょうか?

東大:データの提供範囲が増えることを、コンテンツを保有する部局は喜んでくれましたが、ユーザーからの具体的な反応は残念ながら今のところは拾えていません。ただ、アクセスログでは、NDLサーチ経由のアクセスが全体の5%くらいあり、NDLサーチからのアクセスが、ポータルのアクセス数の増加に繋がっている部分はあるのではないかと思います。

NDL:ポータルのサイトに活用例のページ外部サイトがありますが、どのように運用されていますか?NDLサーチのAPIはなかなか活用例を集められていない状況で、課題として捉えているところです。

東大:現在は、学内の実験的な取り組みを載せており、今後、第三者の方が使ってくれて活用事例が集まれば良いと思っています。NDLサーチと同様に東京大学のポータルでもOAI-PMHを提供しているので、それを通じて提供データを自由に使ってもらいたいと考えていますが、今のところあまり事例は見つけられていない状況です。

NDL:ポータルの広報として何か行われていることはありますか?

東大:広報の一環として、東京大学総合図書館のTwitterアカウントで呟いています。何を呟くかは,実務にあたっているメンバーで相談しています。ポータルでは、電子展示など、テーマを設定し、様々なアイテムをショーケース的にみせられるようにしています。これはメタデータだけでなく、IIIFマニフェストURIをポータルに取り込んでいることで実現しています。面白い事例としては、附属図書館の実習生に電子展示を作ってもらったり、職員研修でポータルに入っている画像を使って東京大学を宣伝するポスターを作ってもらったりといった、直接の担当者以外に参加してもらうことも進めています。多彩なコンテンツがあるので面白く感じながら取り組んでもらった印象です。


NDL:ポータルの今後の発展のために取り組まれていることなどはありますか?

東大:外部とのデータ連携については、WorldCatとの連携と、DOIの登録を検討しています。
ポータルに関しては、安定運用と、まだデータを提出してもらっていない部局からいかにデータをもらうかが課題です。安定運用のためには、恒常的に予算を確保することと、システムを運用できる人材を育てていくことが必要であると考えています。

NDL:現在はどのくらいの人数でシステム運用をされているのでしょうか。

東大:システム運用は、本学情報基盤センターの中村覚先生とデジタルライブラリ担当をしている情報システム部の職員2名で行っています。日常的にトラブルが発生するものではありませんし、サーバ監視も監視用のシステムで行っています。ポータルに関しては、メタデータのバックアップの多重化には重点を置いており、何パターンかで取得できるような形をとっています。また、ポータルとは別のデジタルアーカイブの話になりますが、画像公開用システムの管理においては、リソースの確保が課題でしょうか。ストレージ容量の管理が非常に大変になってくるので、その手当てを考える必要があります。
他に、時間がかかるのはメタデータの加工です。各コレクションの提供元から様々な形でメタデータが送られてくるので、それを加工して登録する作業が生じます。


NDL:NDLサーチの今後に期待することを、ぜひ伺わせてください。

東大:DC-NDLについて、デジタルアーカイブへの対応も考えていただけるとメタデータの流通をしやすくなる面があると思います。デジタルアーカイブのデータを相互にやり取りしてNDLサーチに取り込められれば、互いのサービスをより使いやすくできるのではないでしょうか。

NDL:はい、ご指摘いただいた通りと思っています。DC-NDLのデジタルアーカイブへの対応について検討を進めていきます。他にはいかがでしょうか?

東大:一緒に広報を頑張りましょう!NDLサーチが広まれば、自ずとそこに入っている東京大学のデータも広まっていきます。ポータルでは、どうすればせっかく集めたデジタル化資料を使ってもらえるかを考えているところです。知らなかったという人が少しでも減るように、一緒に広報を頑張っていけたらと思っています。

NDL:ポータルもNDLサーチも、連携先のコンテンツを使ってもらいたいという最終的に目指すところは同じなので、そこに向けて一緒に広報をやっていけると良いですね。今まで、NDLサーチの広報はいろいろしてきましたが、連携先のデータベースの広報は、連携を始めたときしかやっていませんでした。それだけでなく定期的に、NDLサーチの先にはこういう機関があり、こういうコンテンツがあるということを紹介していけると、お互いのメリットになると感じました。連携が始まったから終わりではなく、いろいろと継続してやっていけることがあると思うので、引き続きお話をさせてください。

東大:コンテンツを提供する側にメリットが出せると一番良いですね。東京大学のポータルにも共通していますが、ポータルやNDLサーチにコンテンツのメタデータを流してどのようなメリットを提供できるのかということを考えていかないといけないです。東京大学のポータルは、NDLサーチとジャパンサーチ両方と連携しています。NDLサーチが、ジャパンサーチなど他のもっと大きなプラットフォームにデータを流すための繋ぎ役として機能することによって、コンテンツの利用につながることが、コンテンツを提供する側へのメリットとして一番実感してもらいやすいところと感じます。

NDL:アクセス数が増えることだけではなくて、それが果たしてどのような理由で利用されていて、どのような形で次に繋げていけば良いかはなかなか見えないので、フィードバックが届くような形で活動することを目指したいですね。そういう意味では、メタデータを提供していただいている連携機関側も同じような悩みを抱えていらっしゃると感じたので、協力して一緒に進められると良いですね。本日はお時間をいただきありがとうございました!