in silico フラグメンテーションツール
(last update 20220423)
in silico フラグメンテーションとは
与えられた化学構造(未知化合物の候補の構造)をもとにコンピューター上で機械的(組織的)に共有結合を切断し、仮想的なフラグメントスペクトルを生成することを言います。 切断のためのルールはアルゴリズム・ツールによってさまざまで、「二重結合は切断しない」「ring bondは切断しない」「ring bondを切断する場合は2か所切断することを1切断とカウントする」など、設計者の考え、好みが垣間見れたりもします。 機械的な共有結合の切断では膨大なフラグメントが生成されてしまうため、化学的に既知の開裂規則を取り入れている場合もあります。また、フラグメンテーションが生じた際にフラグメントの構造が再配置(rearrangement)することがあり、そのような構造変化による質量の変化を考慮するツールもあります。
in silico フラグメンテーションによりそれぞれの候補構造に関して仮想フラグメントスペクトルが生成されます。 この仮想フラグメントスペクトルと実際に試料から質量分析で得られたフラグメントスペクトルを比較して、類似度をスコアとして定量します。 この場合の「類似度」とは、 ・同じm/zのプロダクトイオンがあるか ・もしあったら、相対イオン強度はどれくらい似ているか に基づき計算されます。 候補構造のうち、一番スコアが高いものが”正解”の構造である可能性が高い、と考えることができます。
in silico フラグメンテーションツール
「メタボロミクス実践ガイド」ではMS-Finderを例に挙げてアノテーションの操作の解説を行いました。 MS-Finderは総合的に見てとても優れたツールですが、それ以外にも多様なツールは存在していますので一部を以下に紹介します。 なお、ここで紹介しているツールは必ずしも「最新」のものではありません。最新でなくとも、多少のパフォーマンスの違いがあっても、作者が継続的にアップデートを行っているなど、息が長いツールである方が重要であると考えます。
MetFrag: in silico フラグメンテーションツールとしては老舗ですが、数年前にもアップデートがあり、まだまだ現役です。利点としてはオンラインでアクセスして手軽にアノテーションを行うことができる点です。一方、大量のスペクトルデータを処理するにはコマンドライン経由で行うなど、多少のコツが必要です。(https://ipb-halle.github.io/MetFrag/)
CFM-ID : CFM-IDは構造推定ツールであるが、付属する機能としてCFM-Predictというプログラムがあります。 これはフラグメンテーションによるプロダクトイオンのm/zだけでなく強度情報も既存スペクトル情報をもとにした機械学習モデルにより予測します。 他のinsilicoフラグメントツールが比較的網羅的にフラグメメントイオンを作成することに対して、CFMは“より確からしい”フラグメントスペクトルを生成することが期待できます。 CFM-IDは構造推定のみの単機能ツールというよりはフラグメントスペクトル解析のための複数の機能のモジュラー構成になっており、ソースコードのリポジトリに多様な機能に対応した実行形式のプログラムが入手可能です。 (https://cfmid.wishartlab.com/)
MIDAS: MIDASというソフトウェアに関しては機能的に特徴的な部分・アドバンテージはあまりありません。それでもここで紹介する理由はソースコードが非常にシンプルであり、ワークフローを容易に学習でき、さらに再利用が容易にできる点にあります。 MIDAS自体はPython環境でケモインフォマティクスツールキットRDKitを利用することでin silicoフラグメンテーションを非常に少ないコードで比較的容易に実現しています。 Pythonの基本的知識さえあればMIDASのソースコードを独自に改変して、自分バージョンのツールを容易に作成することが可能なので、是非ソースコードをダウンロードして閲覧・改編などしてみてください。(https://facultyweb.mga.edu/yingfeng.wang/Assets/midas/midas.html)
ツールの発展と流行
質量分析インフォマティクス・メタボロミクスを熱心に勉強されている方は毎週のように発表されるデータ解析ソフトウェア(in silico フラグメンテーションツール含む)の、最新の傾向・最新ツールのパフォーマンス・新機能をフォローされている方もいるかもしれません。ソフトウェアの日進月歩の発展はひょっとすると一昔前のツールを最新ツールがはるかに圧倒して、最新のツールを知っておく・使いこなすさなければいけないと思うかもしれませんが、管理人個人的にはそうは思っていません。プロテオミクスの分野では2000年代にin silicoフラグメンテーションツール(peptide-to-spectrum matching(PSM))の群雄割拠の開発競争がありました。毎週のように新しいツールが発表されプロテオミクス・バイオインフォマティクスジャーナルは「最新のツールが最高のパフォーマンス」のショーケースのようになっていました。(管理人もその手のこともやっていました。Hayakawa et al. J. Proteome. Res.)。ですがそのブームも過ぎ、生き残っている(普及している)プロテオミクスのPSMツールは何かというと、必ずしも最高のパフォーマンスを誇った洗練されたアルゴリズムのツールではなく、「インターフェースが使いやすい」「みんが使っている」「定量ソフトウェアに組み込まれている」「サポートが手厚い」といったようなツールが生き残っているようです。
後述しますが、化合物の構造推定においては、ツールの精度の多少の違いよりも、分析試料の素性やフラグメントスペクトルの類似度その他いろいろな関連情報と連携させる方がはるかに有効だと考えています。「最新の論文の最高の精度のツールの流行を追いかける」ことよりもツールを自分の解析フローの一部として扱って、そのほかの情報・ツールと自在に連携させる技術とセンスの方が重要ですし、そのような自分で組み上げていく解析フローは流行とは関係なく長い年月使える重要な技術になりうるはずです。
結果の解釈
in silicoフラグメンテーションツールはたいていの場合ユーザーの入力したスペクトルをクエリとして、それに対する「答え」として化合物のリストを返してくることがほとんどです。そのリストはそれぞれのソフトウェアでのスコアリングに基づいて順位付けされており、最もスコアの高い化合物が「正解」の化合物であるかの見えるかもしれません。ですが、実際にはその「正解」はソフトウェアに入力した様々な条件(フラグメントスペクトル・候補構造リスト・アダクトの指定・質量誤差)が正しかった場合の”確からしさ”の順位くらいに考えておいた方が良いと思います。違う言い方をするとソフトウェアが出してきた「答え」の化合物は正しくないというケースが多分にあり得て、その答えを鵜呑みにするのは危険とも言えるかと思います。 これは決してin silicoフラグメンテーションツールが役に立たないというわけではなく、正しい構造に至るにはソフトウェアのスコアだけではなく、他の情報も総合的に見る必要があるということです。
化合物候補: まず、候補構造(化合物データベース)として何を選んでいるか、選ばれているかに関して注意すべきです。たとえばPubChemは一次二次代謝物・天然物・Drug等、網羅的で膨大な構造情報を含んでいますが、逆に言うと「たまたまフラグメントスペクトルが似ている化合物が存在するリスクも高い」とも言えます。たとえば解析しているフラグメントスペクトルが大腸菌から得られたものであるなら、ソフトウェアの出力に存在する大腸菌には存在しえない化合物は無視してみるべきです。そのためにも(そもそも)、in silicoフラグメンテーションツールに用いる候補構造のリストは「想定しうる必要最小限の化合物のリスト」を使うべきです。
関連化合物: 解析しているフラグメントスペクトルが抽出試料由来の場合(大抵はそうかと思いますが)、同じ試料に存在していることが分かっている化合物の情報がヒントになることがあるかもしれません。同一の代謝パスウェイ上に存在する化合物グループは一緒に抽出され、LC-MSで観測されるというケースもあります。もし、すでにアノテーションが出来ているフラグメントスペクトルがあるなら、その化合物と同じ代謝パスウェイに存在している化合物を疑ってみるのも一つの見方かもしれません。同一代謝パスウェイ上の化合物は構造的に関連しているケースが当然多く、その場合フラグメントスペクトルも類似する傾向にあります。(TODO:記述の仕方がややこしい。実例で分かりやすく)
….20220423 以降はまだ準備中です。
このページに関する質問やデータ解析・解析システム開発のコンサルティング等のお問い合わせは下記リンクのフォームから本ドキュメントの管理者(早川)にご連絡ください。 問い合わせ