データ管理システム開発
ユニット

データ管理システム開発ユニットでは、理研データ科学基盤システム上での大規模データ集積システムに関する研究開発、および利用者支援を行います。

お知らせ

現在お知らせはありません。

ユニット概要

データ管理システム開発ユニットでは、理研データ科学基盤システム上での大規模データ集積システムに関する研究開発、および利用者支援を行います。研究データ管理(RDM)を構成するソフトウェア技術や管理ポリシーの研究、さらに研究者に負担の少ないデータ収集・流通手法の開発を通じてオープンサイエンスを推進します。

研究主分野

情報学

研究関連分野

工学 化学 総合理工 数物系科学 計算機システム 情報セキュリティ マルチメディア・データベース

研究キーワード

研究データ管理(RDM) オープンサイエンス 大規模データストレージ ディペンダビリティ 標準化

ユニットリーダーインタビュー

図書館的知見とHPCの融合が生む次世代エコシステム

~自律循環するデータ駆動型研究の基盤を創る~

保管のその先へ——データ駆動型研究のループを回す

現在、理研における研究データ管理(RDM)は歴史的な転換点に立っています。これまで理研は、収集した成果を厳密なルールに従って分類・保管する、いわば「図書館型」のRDMを培ってきました。この精緻な分類体系は非常に重要ですが、昨今、爆発的に増大するデータを科学的発見の源泉とする「データ駆動型」の研究へとパラダイムシフトが起きています。

こうした中、私たちのユニットの目的は、従来のデータの保管庫としての役割をさらに発展させ、データが自律的に循環し、新たな知を次々と創出する「データ駆動型研究の一大拠点」に向けた設計図を描くことです。

データ駆動型の研究は、実験や観測データを集約して共有可能にする「収集フェーズ」、HPC等で高速に処理する「計算フェーズ」、そして解析結果を研究者が読み解き知見へと昇華させる「解釈フェーズ」の3つで構成されます。これらは独立したものではなく、システム的に結合された一つのループです。このループを円滑に回転させるためには、従来のデータ管理の知見に加えて、計算資源とデータ移動を一体として捉えるHPCの知見が不可欠です。

図書館サイエンスとHPCの「フルスタックな視点」の融合

HPCの専門家は、ネットワークやストレージ構成からソフトウェア、エンドユーザーである研究者の振る舞いまで、システムを上層から下層まで俯瞰する「フルスタック」な視点を持っています。この総合的な知見こそが、複雑なデータ管理基盤の核になると考えています。

これまで、HPCと図書館的なデータ管理は異なる進化を遂げてきました。しかし現在、両者は「大規模データの効率的な扱い」という共通課題に対し、異なる角度からアプローチしています。私たちは、図書館サイエンスが長年培ってきた「情報を正確に分類・構造化する」という確固たる知見と、HPCが持つ「インフラからユーザーの利用形態までを包括的に捉える」アプローチを融合させることで、次世代のデータ管理をシステム研究として確立します。

研究データ管理——4つの革新とAIの活用

現代の研究データは容量が爆発的に増加しており、従来の人手による厳密な分類だけでは対応が困難になりつつあります。さらに、データは「そこに行けば必ずある」というFAIR原則の要件を満たす必要がありますが、現状のインフラは年度ごとの予算やプロジェクト制に依存するため永続性に課題があります。これを解決する鍵が、物理的な保管場所が変わっても識別子(DOI)さえあれば永続的にデータに辿り着ける「場所とIDの分離」です。

この実現も含め、研究データ管理の基盤を構築するにあたり、以下の4つの革新的な目標を掲げています。 1つ目は「データの動的配置」です。共有データとローカルデータの配置を最適化し、階層化を隠蔽することで、グローバルなデータ共有とローカルでの高速解析を両立させます。

2つ目は「メタデータの自動付与」です。AIがデータから特徴量を自動抽出し、検索インデックスを生成します。専門知識を持つキュレーターとAIが協調し、大規模データの「意味」を自動的に構造化するという仕組みです。図書館サイエンスが誇る正確な分類手法と、多少のノイズを許容しながら圧倒的なスケールで目的のデータへ到達させるAIの「確率的な探索」を組み合わせることで、データ管理に柔軟性とスケーラビリティをもたらします。これにより研究者を管理業務から解放し、本来の「解釈フェーズ」へと回帰させます。

3つ目は「研究フローのプログラミング化」です。データの移動から解析までの一連のフローを再利用可能なコードとして記述し、分野横断的な科学的検証を容易にします。

そして4つ目が「先端技術との連携」です。3ヶ月単位で劇的に進化するAIモデルや量子コンピュータなど、最新の計算資源を即座に取り込める柔軟な拡張性を確保します。理研が誇る世界最高峰のスパコン、量子コンピュータ、先端AIを単に並べるのではなく、一つの巨大なデータ駆動型エコシステムとして統合することが当ユニットの最終ミッションです。

求める人物像:システムとサイエンスをつなぐ新たな専門職

この実現に向けて、ネットワーク、ハードウェア、ソフトウェア、そして研究分野という異なるレイヤーを横断的に俯瞰する視座を持つ人材を求めています。もちろん、最初からすべてを網羅している必要はありません。いずれかの領域に強みを持ちつつ、周辺領域へ関心を広げ、日々の運用や設計のフィードバックを通じて段階的に成長していける姿勢があれば十分です。また、特定の研究分野での解析経験を持つ方がシステム側に参画し、実用的なインターフェース設計に貢献することも大いに歓迎します。

システムの運用・構築という実績は、直接的な論文評価につながりにくいというアカデミアの課題もあります。しかし、大規模な国際共同研究の基盤構築や標準化活動を通じて、世界的なプレゼンスを示すことは十分に可能です。海外では確立されている「研究も行うシステム管理者」という高度な専門職を国内でも根付かせたいと考えています。サイエンス全体の発展のために、次世代インフラの構築に共に喜びを見出せる方の参画をお待ちしています。

實本 英之(Ph.D.)

ユニットリーダー

専門は計算機システム。東京工業大学(現東京科学大学)情報理工学研究科数理・計算科学専攻修了、博士(理学)。東京工業大学学術国際情報センター助教などを経て、2020年より現職。

主要論文

  1. Hideyuki Jitsumoto: "System log for Resilience from our experience in TSUBAME2.5" The International Conference for High Performance Computing, Networking, Storage and Analysis (SC17), Nov 2017.
  2. 實本 英之: "添付ファイルを抑制する時限的なファイル共有システム" 国立大学法人等情報化連絡協議会, Oct 2017.
  3. Hideyuki Jitsumoto, Yuya Kobayashi, Akihiro Nomura, and Satoshi Matsuoka: "MH-QEMU: Memory-State-Aware Fault Injection Platform" In Supercomputing Frontiers Asia (SCFA), March 2019.
  4. 實本 英之, 小林 泰三, 松本 正晴, 滝澤 真一朗, 三浦 信一: "多拠点連成アプリケーションを実現するユーザ駆動型・拠点連携システム" 第151回ハイパフォーマンスコンピューティング研究発表会 (HPC-151), Sep 2015.
  5. 實本英之, 建部修見, 佐藤仁, 石川裕: "広域分散環境を提供するHPCIシステムソフトウェア基盤の設計概要と共有ストレージ構築" 情報処理学会研究報告HPC, 2011-HPC-130, 67, pp1-6, July 2011.
  6. 滝澤真一朗, 棟朝雅晴, 宇野篤也, 小林泰三, 實本英之, 松岡聡, 石川裕: "広域分散環境を提供するHPCI先端ソフトウェア運用基盤の設計" 情報処理学会研究報告HPC, 2011-HPC-130, 68, pp1-7, July 2011.

メンバー

役職 氏名
ユニットリーダー 實本 英之
上級技師 菊地 伸治
技師 林 寛生

お問い合わせ

データ管理システム開発ユニット(広報部制作)のお問い合わせ先をご覧ください。

採用情報

情報統合本部 採用情報一覧をご覧ください。