私たちのあらゆる活動は,地球環境・地球資源に支えられている.近年,地球温暖化をはじめとした様々な環境問題の社会への影響が無視できなくなっており,限りある地球環境資源を中長期的な視点から適切に考慮しない経済成長のあり方やその持続可能性が問われ始めている.このような時代背景の中で,環境データの利用価値は,年々高まってきている.環境研究のテーマは多岐にわたるため,使われるデータも分野ごとに特徴があり,データ公開への関心や懸念も様々だが,研究データの公開・相互利用を促進するうえで,どの分野にも共通して有効なのは,データ公開基盤・データ管理基盤を整備することである.
国立環境研究所(以下,NIES)地球環境研究センター(以下,CGER)では,Webベースのデータ公開基盤として,地球環境データベース(Global Environmental Database,以下,狭義で使うときはGEDと略す)を構築,2014年から公開して運営している.しかし実際には,広義の“地球環境データベース”の構想は,CGERが発足した,今から約30年前からあったのである.本稿では,CGERのデータ基盤として,形を変えながら発展してきた“地球環境データベース”のこれまでの歩みを振り返るとともに,近年の動きについても紹介する.以下,黎明期から現在にわたる組織の変遷(第2章),オープンサイエンスに向けた現在の取り組み(第3章),課題と将来展望(第4章)の構成で記述する.
1990年7月にNIESが国立公害研究所から改組されたのに続き,同年10月に,NIES CGERは,人類が地球環境に及ぼす影響を科学的に解明し,的確な環境保全対策を講ずるための基礎づくりを行うことを目的に,わが国の地球環境研究にかかわる中核的機関として発足した.発足時の業務内容の三つの柱は「地球環境研究の総合化」「地球環境研究の支援」「地球環境のモニタリング」であった.「地球環境データベースの整備・提供」は,発足当時から「地球環境研究の支援」業務の一環として,「地球規模で生じる環境変動に関する研究および環境行政施策遂行に必要とされる地球環境問題に係る独自性と国際性を備えた各種データを収集,蓄積し,それぞれのニーズに応じてその提供を図る」と定義されていた[1].
地球環境データベースの整備計画は以下の3項目からなっていた[2].
このうち,初期に中心となったのは,②③の項目であった.インターネットが普及していなかった当時,世界各国に散らばったデータベースに手紙等で利用申請を行い,必要なデータを集めることは非常に時間と労力のかかることであった.そこで,地球環境分野の研究者の需要の高いデータについて,データ項目・アクセス方法等をデータベース化し,内容を画像等で分かりやすく紹介することで,研究者が必要なデータを探しやすくする機能を整備した.
1991年5月には,1984年に国連環境計画(UNEP)が設立した地球資源情報データベース(GRID)の世界9番目の協力センターとして,UNEP/GRID-つくばがCGERに設立され,1992年4月からデータ提供を開始した[3].組織体制としては,総括研究管理官,研究管理官,業務係長がそれぞれディレクター,施設担当,事務担当を務め,研究者が対外窓口および研究協力員として参画,データ提供は研究所の環境情報センターの協力を得ていた.GRIDはデータの提供だけでなく,オリジナルデータの作成も奨励しており,CGERでも衛星データを元にしたアジア植生指数や二酸化炭素排出量予測値,全球土壌水分データなどをGRIDネットワークに登録,提供した[4].
当初は,GRID専用の情報処理機器類はなく,1台のワークステーションとNIESの大型計算機の磁気テープ装置からのスタートだったが,パソコン,ミニコン,1991年度末に導入されたスーパーコンピュータ等も利用して,データの蓄積・管理・提供および画像解析技術の開発が行われていた(図1).1993年度にはGISを搭載したGRID専用ワークステーションが導入された.
当時のデータ提供手順は以下のとおりであった[5].
また,1995年には,Windows対応のパソコン上で動くGRIDデータ表示ソフトウェア[6]を開発し,フロッピーディスクで配布していた.
1995年以降,急速なインターネットの普及により,世界各国のデータセンターで業務内容が大きく変化した.NIESも1996年3月末よりホームページを開設した(図2)[7].検索エンジンの登場により情報収集が容易になったため,それまでのような情報源情報データベース(たとえば環境に関する情報を所有する機関の情報源案内データベースINFOTERRA [7])は徐々に使われなくなっていった.ネットワークを通じたデータの送受信も可能となったが,回線はまだ遅く,2000年以前は,フロッピーやCD-ROMを利用したデータ提供が行われていた(表1).
この流れの中で,CGERは,「自然科学」と「社会科学」,両方の研究基盤情報をバランス良く整備すると同時に,NIESにおける研究活動に立脚したオリジナルデータベースの構築に重心を移していった.具体的なデータベース構築は,各分野の研究者が中心になって行い,データベース事業全体は研究管理官が統括していた.
この時期に,CGERおよびNIESの研究活動から様々なオリジナルデータベース(温室効果ガス排出シナリオ,排出インベントリ,炭素吸収源,森林生態系,温暖化影響・対策,海面上昇,土地利用,マテリアルフロー等)が構築された.また,地球環境モニタリングの共通基盤の整備も始まった.なかでも,1997年に公開を始めた「産業連関表による環境負荷原単位データブック(3EID)[8]」は,分野のデファクトスタンダード的存在となり,現在に至るまで非常に利用が多い.関連研究は今でも多方面で発展し続けている.
2001年度より独立行政法人化したNIESは5年ごとの中期計画の節目に組織も見直されるようになった.2006年度からの第二期中期計画の開始を機に,CGER組織の再編成が行われ,大気海洋モニタリング推進室,陸域モニタリング推進室とともに地球環境データベース推進室(以下,DB室)が設置された.各推進室には研究者が配属され,研究管理官が中心となって運営されていた第一期までの体制と比べ,地球温暖化研究プログラムとの連携を強めた運用体制となった.
この時期,CGERから発信する電子情報の質の多様化および量の増大が急速に進んだこと,研究プログラムや研究グループ独自でもウェブを通じた情報発信が可能になってきたことから,CGER内の電子情報発信の管理運用体制を見直し,DB室は,CGER基幹www・データ提供サーバ群の管理運用および,データ提供サイト・データベース系コンテンツを担当する,という切り分けになった.“サーバ群”の呼び名からも分かるとおり,この頃には,DB室が管理するサーバ室が確保され,開発系や冗長系も含めると10台以上のサーバやディスクアレイから構成されるシステムを運用するようになっていた.
体制・システム整備が進み,DB室は,オープンサイエンスの流れに乗り,研究データの発信等に力を入れられるようになった.具体的な取り組みについて,次章で紹介する.
全球的な環境問題に取り組む地球環境研究分野は,国際的にデータ相互利用のメリットが大きいことから,データの相互利用への関心や要望が高く,環境データの中ではオープンデータが進みやすい傾向がある.CGERは,地上ステーション,船舶,航空機,人工衛星など,様々なプラットフォームを用いた,日本最大の温室効果ガスの観測網を持っており[10],NIESの中でも積極的にデータ公開体制を整えてきた.
CGERでは地球環境研究を担う所内外の多くの研究者と連携し,研究支援ツールの整備を実施してきた.なかでも歴史が長いのは,大気観測データの解析・検証に使われる気塊の移動経路すなわち流跡線(トラジェクトリ)の算出ツールである.1987年にNIESで開発されたトラジェクトリ解析モデル[11]を,1994年にUNIX機に移植し,対話型操作環境を整え,大気物理や計算機利用の専門知識がなくとも利用できるようにした[12].2001年には,研究者が自分のPCにインストールし,入手しやすい気象データを用いてトラジェクトリの算出や気象場の表示ができるツールとして,ソースコードの提供を開始した[13].2002年からは,このツールMETEX(Meteorological Data Explorer)は,オンライン計算サービスを開始し,産官学交えた様々な分野から広く利用されるようになった.計算結果の例を図3に示す.2015年には大気環境学会年会の特別プログラムとしてMETEXワークショップを開催し,開発・提供側と利用側の交流をはかった[14], [15].このほかにも,CGERでは,トレンド解析やフットプリント計算等の解析支援ツールを開発・提供している[16].
2006年度より環境省からの受託業務として温室効果ガス観測データ解析システムの開発を行った.ここでは,気象庁が運営する世界温室効果ガスデータセンター(WDCGG)のデータ検索や可視化を行うためのサポートサイトを開発したほか,CGERによる温室効果ガスモニタリングデータの準リアルタイム表示を開始した.CGERの地上ステーションで観測しているCO2濃度データを毎時アップデートするとともに,日平均,月平均,年平均のほか,週,月,年間の時間変化をみられるようにした.WDCGGサポートサイトは,2018年にWDCGGサイトがリニューアルに伴うデータフォーマットの変更をきっかけに公開を終了したが,CO2濃度データの準リアルタイム表示等の機能は,後述の地球環境データべース(GED)の一環として継続している[17].
地球環境データベース事業のホームページは第一期中期計画期間中(2001–2005)に作成,第二期中期計画期間中(2006–2010)に再構築を行った.その際,コンテンツの内容に応じて分類・メニュー化し,ユーザがコンテンツを探しやすくなるよう工夫した.しかし,コンテンツ提供画面がばらばらで統一感に欠ける,日々新しいデータが更新されているページと,過去のデータブックを載せているページが同列で並んでいるなどの問題点が残ったため,第三期中期計画(2011–2015)に入り,ホームページ構成の大幅な見直しを行った.特に,それまでトップページからデータ検索を行うことができなかったため,新たに「データ検索」「観測地点マップ」「メタデータ検索」の三つのデータ検索機能を追加し,「Googleカスタム検索」も利用できるようにした(図4).
2011年度からは,文部科学省の予算による「地球環境情報統融合プログラム(DIAS-P)」(DIAS II期)が開始され,NIESもCGERを中心に参画することとなった.この期間に,CGERが取得してきた地上・海上・上空の温室効果ガス観測データやフラックス観測データについて,DIASフォーマットでのメタデータの作成とDIASへの登録を行った.また,3.1節で紹介した解析支援ツールもDIASからの利用を可能にした[18].ただし,DIASにメタデータは登録したものの,DIASから直接のデータセット提供は行っていなかった.
この時点で,CGERが取得している温室効果ガスの大気中濃度や,海や陸域におけるフラックスといったデータは,3.2節で紹介した速報値提供を除くと,NOAA(米国大気海洋庁)のGlobal Monitoring Laboratoryによる大気観測データベースをはじめ,WDCGG,表層海洋CO2データベース(Surface Ocean Carbon dioxide Atlas: SOCAT),二酸化炭素情報分析センター(CDIAC),全球のCO2フラックス観測ネットワーク(FLUXNET)等の国際的データベースを通じて,もしくは研究者への個別リクエストにより提供されていた.しかし,品質管理(Quality Control:QC)を行った観測データを,各データベース用のフォーマットに直してからデータを提出し,それが各データベースから公開されるまでの手間や時間を考慮し,より迅速にCGERからも直接データ提供できる仕組みとして,GEDの開発を行い,2014年5月より一般に公開した.
GEDのデータ提供サイトでは,「データベース」「速報値」「解析支援」「関連データ」「データ検索」の各メニューがグローバルナビゲーションから利用できる[19].「データベース」では,地球環境モニタリング事業による観測データを中心に,各モニタリング実施者によるQC済のデータを公開している.データ提供者によるオリジナルフォーマットまたはメタ情報付のテキスト形式(NASA Amesフォーマット)でのファイルダウンロードが可能なほか,自動グラフ作成(クイックプロット)機能によりデータをダウンロードすることなく素早く概観することができる.「速報値」では,温室効果気体の観測値をQCにかかわらずいち早く提供しており,早急に現況を把握したい場合に有用である(3.2節も参照).「解析支援」では,GEDが提供するデータをユーザが解析するのに役立つデータやオンラインアプリケーションを提供している(3.1節も参照).「関連データ」では,これまでCGERがかかわってきた幅広い分野にわたる研究成果・データをテーマ別に一覧できる.これらの中には,NIESの他の部門との協力で作られているコンテンツや,データそのもの以外に研究報告(CGERレポート等)も含まれる.「データ検索」では,サイトに含まれる幅広いデータをプロジェクト横断的・分野横断的に条件絞り込み検索できる.また,観測地点マップからの検索やメタデータ検索も可能である.
地球環境データベースの現時点での規模としては,データベースから直接ダウンロードできる提供データ量は約370 GB,それらを含む,サイト全体から提供しているデータ総量は約1.2 TBである.なお,現在観測中の,温室効果ガス観測技術衛星GOSAT(Greenhouse gases Observing SATellite)およびGOSAT-2については,プロジェクトとしてデータ提供を行っているため,そのデータ量は数えていない.
2015年,GEDから提供する研究データにデジタルオブジェクト識別子(DOI)を付与したい,という複数のデータ提供者からの要望があった.当時,学術論文へのDOI登録は一般的になりつつあったが,研究データへのDOI付与は,世界的にも始まったばかりであった.国内の動きを調べたところ,ちょうど2014年10月から「研究データへのDOI登録実験プロジェクト」[20]がジャパンリンクセンター(JaLC)により実施されており,DIASの参画機関の一つとして参加した.このプロジェクトでは,国内の10を超える研究機関がJaLCのメタデータ登録システムのプロトタイプを用いたDOI登録実験を行い,課題を洗い出して議論を重ね,「研究データへのDOI登録ガイドライン」[21]を作成した.
DOI登録において課題となったのは,アクセス持続性の保証である.NIESは国立研究開発法人であり,中長期計画ごとに組織改編が行われるため,CGERという組織単位はDOI登録の主体にはふさわしくない.そこで,所としてDOI付与機関となるため,研究データへのDOI付与の仕組みについて研究所内において具体的な検討を始めると同時に,関連する環境情報部・企画部・理事室への働きかけを行った.その結果,2015年10月には,幹部の合意を得ることができ,2016年6月,NIESはJaLCの正会員となった.また,ランディングページの作成およびXMLファイルを用いたDOI登録申請は,所の管理部門に位置する環境情報部が担当することになった.CGERの作業としては,DOI付与データの選定,メタデータの作成,ランディングページ案の作成,データ登録用XMLファイルの作成等を行うワークフローを整えた.2016年9月1日,NIESとして初めて研究データにDOIを付与して公開した.登録したデータのDOIは,研究データにDOI登録を行う国際的なコンソーシアムであるDataCiteに登録され,DataCiteの検索画面からも検索できる.
データにDOIを付与することで,データ引用はもちろん,バージョン管理等,公開データの管理もしやすくなるため,研究者からの需要も多く,GEDからのデータ公開のインセンティブにもつながっている.GEDからのDOI登録は順調に数を増やしており,2020年8月現在,合計19データセットにDOIを付与して公開中である.(なお,CGER以外の研究ユニットからも環境情報部がDOI登録を受け付けており現在までに2件が登録された.)
2016年からの第四期中長期計画では,DB室は地球環境データ統合解析推進室と名を変え,データ発信にとどまらず,研究活動を促進する基盤作りを視野に入れ業務を展開している.オープンサイエンス推進の潮流に加え,研究不正対策,研究資金の助成機関の要請などから研究データを適正に管理する必要性が高まっており,これを実現するための基盤として,2018年度より,研究データ管理システム(RDMS)の設計・開発を開始した(図5).
開発中のRDMSは,研究者,研究チームが効率的に研究データを管理・共有するためのシステムで,Webアプリケーションベースでメタデータの作成,データのバージョン管理,データ固有の識別子(DOI)付与,データ公開支援等をチーム内で協働しながら行うことができる.また,バックエンドで動く統合データベースを通じて,データ公開基盤としての基幹データベースGED(3.3節参照)と連動させられるため,データ公開がスムーズになり,データ利活用の促進にもつながる.競争的資金獲得のためのDMP(Data Management Plan)を作成するうえでもデータの管理体制を整備しておくことは重要であり,研究公正の観点からも,論文のエビデンスデータを共通基盤で安定して管理することが望ましい.2020年現在,CGER RDMSは所内ユーザを対象にプロトタイプ試験運用を行うなど,次期中長期計画からの本格運用開始を目指し,機能の実装・改良を進めている.
約30年にわたる,地球環境データベースの展開を見てきたが,紙媒体から電子媒体へ,扱えるデータ容量の増大,通信技術の発達等,テクノロジーの急速な発展が,データ基盤に求められる役割を大きく変えていったことが分かる.インターネットの普及により,世界規模での情報流通が劇的に容易になった.一方で,AIやビッグデータ解析まで行かずとも,日々の研究活動から生み出されるデータの量も爆発的に増えている.データ転送のコスト・時間を抑えるため,データを手元に持ってくることなく,データを保管している基盤周辺で解析したいという要望が上がっているなど,基盤の発展とともに,利用側の要求も上がるため,技術開発は留まるところを知らない.それでも,この30年の間に,データ基盤の発展のおかげで,オープンサイエンスの流れが実行を伴うようになってきたのは確かであろう.
しかし,研究の現場におけるオープンサイエンスに向けた課題は,まだまだ人的要因が大きい.データ流通がなかなか進まない要因を以下に挙げてみる.一つ目は動機不足である.そもそもデータをなぜ公開する必要があるのか分からない,自分の成果を出してからデータを公開したい,とデータを抱えてしまう.データ相互利用文化が浸透していないため,メリットが感じられる前に不安が先立っていると考えられる[22], [23].二つ目は,知識不足である.リポジトリ,メタデータ,識別子,研究データマネジメント等,よく聞くけれど,一体何をすればいいのか分からない研究関係者もまだ多い.三つ目は,リソース不足である.データを公開したくても,ストレージ容量や支援人材,時間が足りない.セキュリティ対策,バックアップといったデータ管理の支援に加え,データの前処理(値の整合性確認,フォーマット変換等),メタデータ作成や識別子付与にも人手が必要である.
これらの課題を解決するには研究者の理解・意識の向上が期待されるが,組織としても,啓蒙活動のほか,ポリシーの策定等を行う必要がある.2017年,NIESは「積極的にデータ公開し,国の研究開発成果の最大化に資する」という方針の下,研究所としてデータポリシー[24]を策定した.これは,内閣府の「国立研究開発法人におけるデータポリシー策定のためのガイドライン」[25]策定の前年にあたり,国としての動きに先んじた取り組みだった.しかし,このデータポリシーは理念的なものであり,現場のインセンティブ向上には,より実質的な支援が欠かせない.NIESでは,国立情報学研究所の運営する機関リポジトリサービス「JAIRO Cloud」を利用した機関リポジトリを2021年から運用する予定だが,研究データを含めた利用のルール,運用体制の整備,支援人材の拡充など,課題を残している.
なお,研究者の意識が変わるのは,実は内部からの働きかけよりも外的要因の効果が大きいようだ.最近,論文投稿時に根拠データの公開を要請してくる学術雑誌や出版社が増えているため,論文投稿前の研究者からデータ公開の相談を受けることが多くなった.GEDはDOIを付与した研究データ公開を迅速に行うことのできるリポジトリとして,実質的に研究活動を支援することができるし,Win-Winの関係でデータ公開が進むようになった.今後,データ管理・公開が進むかどうかも,国や世界各国の学術コミュニケーションの形態や,資金提供機関の姿勢の在り方に大きく影響されることが予想される.
さて,これまで挙げた課題をすべてクリアして,データ公開に漕ぎつけたとしても,データが有効に利活用をされているかという課題が残る.データを公開したことで満足してしまい,データの見つけやすさ・アクセスの容易さ・データの品質情報やメタデータの分かりやすさの向上,データ利用条件の簡素化や無償提供の実現など,データの利活用を促進するところまでは手が回らない現場も多いのではないか.
データ利活用に関しては,同分野・異分野間での連携が不可欠であり,視野を拡げる必要がある.3.4節で述べた研究データへのDOI付与プロジェクトでできたコミュニティを元に,2016年にJaLCにより「研究データ利活用協議会(RDUF)」が設置された.その小委員会である「ジャパン・データリポジトリ・ネットワーク(JDARN)」の一員として,国内機関のリポジトリ関係者・有識者と共同で国際的に信頼されるリポジトリの要件等のとりまとめや,2019年に内閣府が公開した「研究データリポジトリ整備・運用ガイドライン」[26]のドラフト作成等の活動を通して,GEDのリポジトリとしての立ち位置や目指すところを見直すことができた.自機関を動かすためにも,機関を超えた連携は重要であり,関連する国内・国際会議に参加するなどして積極的にネットワーク構築を心がけている.
近年,整備が進みつつある機関リポジトリや,分野や機関を特定しない汎用リポジトリとの住み分けも大切である.汎用リポジトリの中には,ユーザインタフェースが洗練されていてデータの登録から公開までが速いものも多く,手軽に利用できる.ただし,地球環境モニタリングのように,長期間継続して系統的に取得しているデータの場合,独自リポジトリから公開することで,データセットの履歴や,関連データを含めた全貌を見せることができるメリットは見逃せない.GEDは分野リポジトリの一つとして,地球環境データをとりまとめ,さらに世界規模の分野リポジトリと有機的につながって行くことを目指している.
おわりに,もう一度“地球環境データベース”の初心を振り返ってみたい.市川惇信元国立環境研究所所長(CGER初代センター長)は,地球環境に取り組む研究システムを「分散型の巨大科学」と特徴づけた[27].巨大かつ複雑な「地球環境システム」にかかわる期限付きの課題へのアプローチであるから,現象解明を待つことなく,影響評価,政策への反映を並行して進める必要がある.つまり,地域的にも分野的にも分散している研究者同士が学問領域を超え,国を超え,緩やかな種々のネットワークを形成しながら研究目標を明らかにしていき,分担して進めた研究を最後に集約して政策に反映させるというプロセスが取られる[28].それを支える情報システムは,単にデータを提供するだけでなく,社会の意志決定・政策判断に使われることを意識したシステム設計が望まれる[29].
立ち上げから4年ほどの地球環境データベースの将来展望につき,このように書かれている[30].“最後に,地球環境データベースは,ハード,ソフトの整備,中身となるデータの内容に力点を置くのは当然であるが,さらに,地球環境という性格上,各国のデータ・情報センターとのネットワークづくり,さらには各分野の研究者とのネットワークづくりを進めていくことも不可欠である.このためには,国内だけでなく,国外に向けて最新の情報を積極的に発信していく必要がある.人的,予算的な面で制約も多いが,こうした努力の積み重ねによって,5年後には,日本から世界への情報発信の中心的センターを目指して努力していきたい.”
四半世紀以上が経った今,これらの目標は達成されているとは言えない.ただ,組織も担当者も入れ変わり,データを取り巻く状況も大きく変わった今もなお,同じ目標に向けて努力・発展を続けているということ,少しずつではあるが目標に近づきつつあることをここに報告したい.
謝辞 まず,これまで地球環境データベースの運用に携わってこられた皆様に敬意を表明したい.特にこの原稿作成にあたりご助言いただいた西岡秀三氏,原澤英夫氏,森口祐一氏,向井人史氏に謹んで感謝する.三枝信子氏,福田陽子氏,尾鷲瑞穂氏には特にDB室の活動を支えていただいている.資料収集にご協力いただいたCGER交流推進係の皆様に感謝する.また,2015年頃より主にDIASの情報系参加者からなる「オープンサイエンス勉強会」の場で,筆者のオープンサイエンスに対する理解・意識の向上がはかられた.勉強会のメンバーに感謝の意を表する.
1999年東京大学大学院理学系研究科博士課程修了.理学博士.宇宙航空研究開発機構開発部員,米カリフォルニア大学アーバイン校研究員を経て,2004年,国立環境研究所入所.2011年より地球環境データのデータベース化やデータ利活用の推進に携わり,現在,同センター地球環境データ統合解析推進室長.2019年より企画部主席研究企画主幹兼務.大気中微量気体の排出・吸収および挙動について研究.AGU(米地球物理学連合),JPGU(日本地球惑星科学連合),日本大気化学会,日本大気環境科学会,日本地球化学会,RDUF各会員.
会員種別ごとに入会方法やサービスが異なりますので、該当する会員項目を参照してください。