今週のNature(Vol. 495, No. 7442, 2013年3月28日)の特集は,「出版の将来:新たなページ | The future of publishing: A new page」でした。オープンアクセスや学術出版に関する3本の記事が公開されています。
このうち,研究データのキュレーション(リポジトリへの集積,メタデータの付与,保存,公開)と大学図書館の動向について論じた記事を紹介します。テノピアらによる調査結果も引用されていました。
- “オープンアクセス:科学出版の実際のコスト | Richard Van Noorden. Open access: The true cost of science publishing” p.426 [doi: 10.1038/495426a]
- “出版のフロンティア:図書館再起動 | Richard Monastersky. Publishing frontiers: The library reboot” p.430 [doi: 10.1038/495430a]
- “学術雑誌の調査:出版の暗部 | Declan Butler. Investigating journals: The dark side of publishing” p.433 [doi: 10.1038/495433a]
現在,研究者は研究成果として,出版物だけではなくデータの公開が求められています。また,公開によって他の研究者が新たな分析や研究を行えるため,科学の進展にも寄与することができます。研究データのキュレーションは学術界にとって非常に重要ですが,果たして図書館はその役割を担えるのでしょうか?
“出版のフロンティア:図書館再起動”
オープンデータに手を伸ばす学術出版と,遅れを取るまいとする図書館や研究者
新たなデータ論者たち
図書館は,データの収集,検索,可視化,ラベリング,そしてシェアについてのガイダンスやツールの提供によって,研究の全ステージの支援を目指している。オックスフォード大学図書館長のサラ・トーマスは,図書館を「食物連鎖(研究サイクル)に組み込み,新しい知識創造の協同貢献者になろうとしている」と述べている。
しかし,図書館と研究者は予算削減に直面している上,データキュレーションビジネスに参入しようとするならば,商業出版社やストレージサービス会社,GenBank(DNA塩基配列アーカイブ)のような学術データリポジトリと競合しなければならない。
先月,オバマ政権は,連邦政府の助成を受けた研究の成果出版物やデータに国民がアクセスできるよう政府機関に命じた(参考:カレントアウェアネス-R「米国政府、公的助成研究成果のパブリックアクセス拡大に向けた計画案の策定を政府機関に指示」2013/2/25)。ニューメキシコ大学図書館の情報学者ウィリアム・ミッチェナーは「データを保存し,学術利用に供することの大きな理解と支えになるだろう。図書館は,この新たな状況における非常に重要なステークホルダーであり,大学教員がデータ管理で問題にぶつかったときの最初の防波堤である」と語る。
ジョン・ホプキンズ大学シェリダン図書館の調査チームは,10年以上データマネージメントに取り組んでいる。同大学のチョウドリーは,データキュレーションのための多機関によるプログラムData Conservancyの主任研究者である。全米科学財団(NSF)から940万ドルの助成金を受けており,2011年から研究者のデータ管理支援のための課金サービスを開始した。
最初の顧客である動物生体力学者のコーワンは,分析に使用したデータを他の研究者の求めに応じて個別に提供してきた。たとえば,ヒレの動きを記録したナイフフィッシュの動画を神経科学者も活用している。しかし,7年前のデータを大学院生が分析しようとしたところ,データそのものを理解するのに数ヶ月かかってしまった。データを説明するメタデータの質が低く,「宝探しになってしまう」。
Data Conservancyは,次のようなキュレーションサービスを提供している。
- データにメタデータや解説を付与
- DOIのような,ユニークで永続的なリンクを付与
- データ形式やデータの経年変化や劣化に対応
コーワンは,「(コストはかかるが)学生の指導やデータの収集・解析に時間を費やす方が,自分で長期間データのアーカイブを行うよりも良い」と述べている。
キュレーションへの関心
1,300人の米国の研究者を対象とした2010年の調査によれば,研究者の89%が「簡単にアクセスできるならば他の研究者のデータセットを利用したい」と回答したものの,「自身のデータを他の研究者が簡単に利用できる」と回答したのはわずか36%だった。 [Tenopir, C. et al. “Data sharing by scientists: practices and perceptions“. PLoS ONE. 2011, Vol. 6, No. 6, e21101]
既存のデータキュレーションとして,DataONE,Dryad,Data Citation Index(Thomson Reuters)などがあり,研究に用いられたデータを保存し,シェアしている。
一方,米国の100の研究大学を対象とした2010-2011年の調査によれば,データサービスを実施している大学は20%未満だが,40%近くは2年以内にデータのキュレーションと保存サービスを開始する予定である。[Tenopir, C. et al. Academic Libraries and Research Data Services: Current Practices and Plans for the Future. Chicago: Association of College and Research Libraries, 2012.] また,いくつかの大学による実践例があげられている。
- オックスフォードのボドリアン図書館:課金制で,初年度に約3ペタバイトのデータをリポジトリに収集した。非公開から公開まで,さまざまな階層のデータとメタデータがある。
- スタンフォード大学:データ管理サービスの試験運用中。研究者は無料でデータを保管できる。
- モナシュ大学:オーストラリア政府から助成を受けてAustralian National Data Serviceを運用。
論文から生産物へ
研究者には,出版物だけではなく,データセットやソフトウェアといった生産物が求められるようになった。また,リポジトリがシームレスになり,研究者が自分のデスクから世界中のデータを利用できることが望ましい。
今や学術出版には,研究成果をまとめた論文や図書だけではなく,あらゆるタイプのデータが含まれようとしているということです。他の研究者が収集した一次データを検索・入手して活用できるようになれば,研究の活性化や学際化に繋がるでしょう。
「それで,費用は?」と思っていたところ,折よくカレントアウェアネスに,「EC、デジタルキュレーションにかかるコストをテーマとしたプロジェクト“4C”を始動」という記事が掲載されていました(2013/4/2)。
機関リポジトリで論文や文献を提供しているように,データも提供することができるのか? 今後の動向に注目して行きたいです。
追記 [2013/6/17]
Nature日本語サイトに全訳が掲載されました。「再起動する大学図書館」(2013/6/17)[2018/6/8リンク切れ]
また,この記事を書いた後,4月15日にNPGのディレクターの一人であるDella Sarさんとのミーティングに出席する機会に恵まれ,研究データの公開と保存についての見解を伺うことができました。お世話になりましたNPGの宮入様,水木様,そして逸村先生にお礼申し上げます。
なお,現在「研究データの分野別公開状況と阻害要因の分析」を博士論文のテーマとして研究を進めています。