ユニット概要
当開発ユニットは、生命科学分野のオープンサイエンスの推進のため、理研が産出する多種多様な生命科学分野の研究データの集積と、集積したデータの2次利用の推進のための研究開発を行います。理研の全ての生命科学系研究センターの参加の下で、生命科学分野のオープンサイエンスの基盤を構築し、新たなスタイルの生命科学を開拓します。
研究主分野
情報学
研究関連分野
研究キーワード
ユニットリーダーインタビュー
「細胞の未来」を予測する基盤へ
~生命科学データの統合と国際標準化を牽引する~
ボトムアップから生まれた「ヘビー級の専門家集団」
当ユニットの発足の経緯は、理研の中でも少しユニークです。理研には世界トップレベルの研究を行う生命系のセンターが複数存在し、各々が貴重なデータを公開していますが、かつては各センターがそれぞれ特色のあるデータベースを独自に開発・運用しており、これらデータベース間の連携や相互運用は考慮されていませんでした。私は当時、画像のデータベースの開発・運用に携わっていましたが、他のセンターでデータベースを開発・運用している研究室のPI(主宰者)たちと意気投合し、「理研内のさまざまなデータベースを統合し、単独のデータベースでは生み出せない科学的成果の創出を目指そう」と、2017年頃に有志で「OLSP(Open Life Science Platform)」というプロジェクトを立ち上げました。その後、理研の執行部や文部科学省の支援を受け、2020年9月に当時の情報システム本部内に正式な組織として設置されたのが現在のユニットです。
こうした経緯から、当ユニットは単一の研究室というよりも、画像、メタボローム、ゲノムなど各分野のデータベースで世界トップレベルの実績を持つPIたちが上級研究員として参画する、いわば「ヘビー級の専門家集団」として機能しています。
サイロ化を打破する「メタデータ」の整合化と、肥大化するデータへの対応
私たちの主なミッションは3つあります。1つ目は理研内の生命科学データを集約し、AIが学習しやすい形で整備すること。2つ目はデータ共有のためのフレームワークやルールを構築し、オープンサイエンスを推進すること。そして3つ目は、具体的なシステムの実装以上に、ハイレベルな戦略策定と国際的な標準化を推進することです。
具体的な取り組みとして、メタデータ整合化の取り組みを紹介します。メタデータとはデータの内容や属性を説明する付帯情報のことで、たとえば対象生物種や使用した顕微鏡の種類といった情報を格納しています。これはデータの検索や異なるデータセット間の連携に欠かせない手がかりとなります。しかし、個々のデータベースはそのデータの取得対象や取得手法、目的に応じて最適化されたメタデータのセットを採用しており、データベースごとに仕様が異なります。異なるデータベース間でのデータの検索や、データベースの相互運用を可能にするために、私たちはオントロジーやメタデータマッピングの技術を利用して、理研の生命科学分野のデータベース間のメタデータの整合化を進めています。
さらに昨今では、測定機器の高性能化に伴い、取得できるデータ量が肥大化しています。これに対応するため、データ全体はクラウドに置きつつ、アクセスする際に必要な箇所だけを動的に取得し、メモリやネットワーク帯域の利用効率を高めるようなファイルフォーマットの標準化・普及にも取り組んでいます。当ユニットでは特に、理研全体のフレームワークの構築や運用ルールの策定を牽引しています。
国際協調の最前線——三極構造の中で「アジア代表」としてのプレゼンスを発揮する
こうしたデータの標準化は、日本国内だけで完結するものではありません。欧州や米国など世界中のカウンターパートと議論し、国際標準となるフォーマットやフレームワークを定めていく必要があります。当然、ここには国際的な協力関係や交渉が存在します。
例えば画像データの標準化においては、大きく分けて米国・欧州・日本という三極構造の中で行われてきました。米国は政府系資金配分機関に加えて、強大な資金力を持つ民間機関や財団がそれぞれ独自の戦略を採用していたため、最近まで国家レベルでの足並みが揃っていませんでした。一方、欧州と日本はいち早く地域/国家レベルのデータベースの確立に成功し、協力関係を築いています。私たちは、三極構造の枠組みの中で米国、欧州と白熱した議論を行いつつ、「アジア代表」として国際的なデータ標準化の推進にも貢献しています。このような国際的な議論の場で日本代表として他国と渡り合うためにも、当ユニットのようなヘビー級の専門家集団が必要不可欠なのです。
求める人物像:特定の分野に「尖った」野心的な研究者・エンジニア
当ユニットの活動は理研内に留まらず、国立遺伝学研究所など学外の主要機関とも連携し、日本全体の生命科学データベースを統合する動きを進めています。最終的な目標は、統合された多階層データ(画像、DNA、タンパク質など)をAIに学習させ、細胞の将来の状態までをも予測できるような高度な研究基盤への展開です。
こうしたビジョンに向けて、まずはデータの利活用を示すフラッグシップとなる実証例を生み出す必要があります。そこで私たちは、広く浅い知識を持つ人よりも、特定の分野に「尖った」強みと野心を持つ研究員やエンジニアの参画を求めています。
当ユニットで求められるのは、世界規模のフレームワークやルールの策定といったハイレベルな標準化に価値を見出し、我々のミッションを牽引してくださる方です。世界を舞台にしたデータ標準化の最前線で、次世代の生命科学のインフラを共に築き上げたいという志を持つ若き才能をお待ちしています。
大浪 修一(D.V.M., Ph.D.)
ユニットリーダー
専門は生命・健康・医療情報学、システムゲノム科学、生物物理学。総合研究大学院大学生命科学研究科修了、博士(理学)。慶應義塾大学理工学研究科助教授、理化学研究所生命機能科学研究センターチームリーダーなどを経て、2021年より現職。
主要論文
- Fukushima, A., Takahashi, M., Nagasaki, H., Aono, Y., Kobayashi, M., Kusano, M., Saito, K., Kobayashi, N., and Arita, M.: "Development of RIKEN Plant Metabolonome MetaDatabase" Plant and Cell Physiology 63(3), 433-440 (2021). doi: 10.1093/pcp/pcab173
- Swedlow, J. R., et al.: "A Global view of standards for open image data formats and repositories" Nature Methods 18, 1440-1446 (2021). doi: 10.1038/s41592-021-01113-7
- Kita, Y., Nishibe, H., Wang, Y., et al.: "Cellular-resolution gene expression profiling in the neonatal marmoset brain reveals dynamic species- and region-specific differences" Proceedings of the National Academy of Sciences 118(18), e2020125118 (2021). doi: 10.1073/pnas.2020125118
- Abugessaisa, I., Ramilowski, JA., Lizio, M., et al.: "FANTOM enters 20th year: expansion of transcriptomic atlases and functional annotation of non-coding RNAs" Nucleic Acids Research 49, gkaa1054 (2020). doi: 10.1093/nar/gkaa1054
- Tsugawa, H., Ikeda, K., Takahashi, M., et al.: "A lipidome atlas in MS-DIAL 4" Nature Biotechnology 38, 1159-1163 (2020). doi: 10.1038/s41587-020-0531-2
- Tanaka, N., and Masuya, H.: "An atlas of evidence-based phenotypic associations across the mouse phenome" Scientific Reports 10, 3957 (2020). doi: 10.1038/s41598-020-60891-w
- Morita, M., Shimokawa, K., Nishimura, M., et al.: "ViBrism DB: an interactive search and viewer platform for 2D/3D anatomical images of gene expression and co-expression networks" Nucleic Acids Research 47(D1), D859-D866 (2019). doi: 10.1093/nar/gky951
- Kobayashi, N., Kume, S., Lenz, K., and Masuya, H.: "RIKEN MetaDatabase: a database platform for health care and life sciences as a microcosm of linked open data cloud" International Journal on Semantic Web and Information Systems 14(1), 140-164 (2018). doi: 10.4018/IJSWIS.2018010106
- Shimogori, T., Abe, A., Go, Y., et al.: "Digital gene atlas of neonate common marmoset brain" Neuroscience Research 128, 1-13 (2018). doi: 10.1016/j.neures.2017.10.009
- Tohsato, Y., Ho, K. H. L., Kyoda, K., and Onami, S.: "SSBD: a database of quantitative data of spatiotemporal dynamics of biological phenomena" Bioinformatics 32(22), 3471-3479 (2016). doi: 10.1093/bioinformatics/btw417
関連リンク
メンバー
| 役職 | 氏名 |
|---|---|
| ユニットリーダー | 大浪 修一 |
| 上級研究員 | 有田 正規 |
| 上級研究員 | 粕川 雄也 |
| 上級研究員 | 小林 紀郎 |
| 上級研究員 | 下郡 智美 |
| 上級研究員 | 桝屋 啓志 |
| 上級研究員 | 横田 秀夫 |
| 技師 | 加藤 雅樹 |
| 技師 | THALHATH Nishad |
| テクニカルスタッフⅠ | 今泉 武佐史 |