ML-DSP genomic sequence classification tool prototypeの設計と実装に続き、この手法を用いたゲノム分類に最も相応しい長さの正規化のタイプと距離を検討しました。 そして、文献で使われている様々なDNA配列の数値表現を総合的に分析し、上位3つを決定した。 主要なパラメータ(長さ正規化法、距離、数値表現)を設定し、ドメインレベルから属レベルまでのmtDNAゲノムの分類を試みたところ、平均して>97%の分類精度が得られた。 また、ML-DSPと他のアライメントベースおよびアライメントフリーゲノム分類法を比較し、ML-DSPがより高い精度と有意な高速性を達成することを示した。
- 距離および長さ正規化アプローチの解析
- DNA配列の様々な数値表現の分析
- ML-DSP for three classes of vertebrates
- ゲノムの分類、全ての分類レベルで
- MoDMap visualization vs. Bavayia robusta, robust forest bavayia, NC_035580.MoDMap visualization vs. Gonatodes hogei,NC_036346,NC_035152. ML-DSPによる定量的分類結果
- 他のゲノムデータセットへの応用
- Comparison of ML-DSP with state-of-the-art alignment-based and alignment-free tools
- 議論
距離および長さ正規化アプローチの解析
どの距離指標およびどの長さ正規化方法がML-DSPによるゲノム比較に最も適しているかを判断するために、データセットから9種類の完全mtDNA配列のサブセットを使用した。 これらのサブセットは、利用可能な完全なmtDNAゲノムのほとんど(4322 mtDNA配列のVertebratesデータセット)、および類似の配列、同様の長さの配列を含むサブセット(148 mtDNA配列の Primatesデータセット)、長さに大きな差があるmtDNAゲノムを含むサブセット(174 mtDNA配列の Plantsデータセット)から選ばれています。
いくつかのデータセットについて、2つの距離指標(ユークリッドとピアソン相関係数)および2つの異なる長さ正規化アプローチ(最大長への正規化と中央値への正規化)を用いて得られた分類精度を表2に示す。 分類精度のスコアはPCCの方がわずかに高いが、ユークリッド距離を用いた場合のスコアに十分近く、結論は出ない。
この論文の残りの部分では、ピアソン相関係数を選択したのは、それがスケール独立である(例えば、ユークリッド距離とは異なり、。
DNA配列の様々な数値表現の分析
我々は、13種類の異なる1次元のDNA配列の数値表現をグループ分けし、ML-DSPの分類精度に与える影響を分析した。 固定マッピングDNA数値表現(表1の表現#1, #2, #3, #6, #7, 参照 , および表現#10, #11, #12, #13 – で提案した2値表現の1次元変形)、ヌクレオチドのいくつかの物理化学的特性に基づくマッピング(表1の表現#4、参照 , および表現#5、参照 )、および最近傍値に基づくマッピング(表2の表現#8、 #9, 参照 )に分類し、その結果を解析した。
この解析に使用したデータセットは、表2のものと同じである。 この分析に用いた教師あり機械学習分類器は、方法と実装の項に記載した6つの分類器であるが、2000配列以上のデータセットでは、分類器の2つ(Subspace DiscriminantとSubspace KNN)が遅すぎるとして省かれた。 これらすべての数値表現、分類器、データセットの結果と平均精度スコアを表3にまとめる。
表3から観察できるように、すべての数値表現について、表の平均精度スコア(最後の行:最初に各データセットの6つの分類器、次にすべてのデータセットにわたる平均の平均)が高いです。 驚くべきことに、3つのヌクレオチドを同じものとして扱い、そのうちの1つだけを抽出する1ヌクレオチド数値表現(「Just-A」)でも、平均91.9%の精度が得られているのです。 これらのデータセットで最も精度が高いのは、「PP」表現を用いた場合で、平均92.3%の精度が得られた。
以降の実験では、精度のスコアで上位3つの表現を選んだ。 「
ML-DSP for three classes of vertebrates
DNA配列の数値表現「PP」を用いたML-DSPの応用として、脊椎動物mtDNAゲノム(中央値16606bp)を解析したところ、ML-DSPの精度は、PPの数値表現で平均92.3%、Realの数値表現では、中央値15,640bpで平均92.3%となった。 図3は、MoDMap(距離行列の距離で記述されるゲノムの相互関係を多次元スケーリングで3次元的に可視化したもの)を示している。 このデータセットには3740個の完全なmtDNAゲノムが含まれている。 鳥類 553 ゲノム、魚類 2313 ゲノム、哺乳類 874 ゲノム。 図3
MoDMap of 3740 full mtDNA genomes in subphylum Vertebrata, into three classes.脊椎動物のmtDNAゲノムの分類精度は、100%であった。 鳥類(青、Aves:553ゲノム)、魚類(赤、Actinopterygii 2176ゲノム、Chondrichthyes 130ゲノム、Coelacanthiformes 2ゲノム、Dipnoi 5ゲノム)、哺乳類(緑、Mammalia:874ゲノム)に分類される。 ML-DSPの3クラスへの分類精度は、Quadratic SVM分類器を用いて、数値表現「PP」、DFTのマグニチュードスペクトル間のPCCで、100%
ゲノムの分類、全ての分類レベルで
MtDNA完全配列に対するML-DSPの分類能力も様々な分類レベルで検証しました。 各データセットについて、「PP」、「Just-A」、「Real」の数値表現を用いてテストした。
出発点はドメインEukaryota(7396配列)で、これを王国に分類し、動物界をphylaに分類するなどして、分類した。 各レベルで、最も配列数の多いクラスタを選び、次の分類レベルのサブクラスタに分類した。 最下層はコイ科(81配列)で、6属に分類された。 各データセットについて、6つの分類器を全てテストし、これら6つの分類器の分類精度の最大値を表4に示す。
各分類レベルにおいて、検討した3つの数値表現それぞれの最大分類精度は91から高く、6分類器中、最も高いスコアとなっています。4%から100%であり、95%以下は3つしかない。 この分析でも、上位3つの数値表現の間で明確な勝者は見つからなかったため、使用する数値表現が重要なのかどうかという疑問が生じました。 そこで、ピアソンの相関係数が規模に依存せず、信号の比較時にパターンだけを探すことを利用し、2つの追加実験を行った。 最初の実験では、上位3つの数値表現(「PP」、「Just-A」、「Real」)を選び、与えられたデータセットの各シーケンスに対して、これらの3つの数値表現の中からランダムに、同じ確率で、それを表すデジタル信号が選ばれました。 結果は表4の「Random3」列の下に示されています。すべてのデータセットに対する最大精度スコアは96%です。 これは、ある特定の数値表現を用いた場合の精度とほぼ同じです(1%低いですが、実験誤差の範囲内です)。 次に、この実験を繰り返し、今度は検討した13の数値表現の中からランダムに選んだ。 その結果は、表4の「Random13」の欄に示されており、表の平均精度は88.1%であった。
全体として、「PP」「Just-A」「Real」の3つの数値表現はいずれも分類精度が非常に高く(平均>97%)、データセットの各配列に対してこれらの表現のいずれかをランダムに選択しても、ML-DSPの分類精度に大きな影響はありません(平均96%)。
さらに、分類精度が高いことに加え、ML-DSPが非常に速いことに着目しました。 実際、表2の最大のデータセットである脊椎動物亜門(4322個の完全なmtDNAゲノム、平均長16806bp)でも、距離行列計算(分類計算の大部分)は5秒以内で完了した。 148個の霊長類mtDNAゲノムで学習させた場合、新しい霊長類mtDNAゲノムの分類には0.06秒かかり、4322個の脊椎動物mtDNAゲノムで学習させた場合、新しい脊椎動物mtDNAゲノムを分類するには7秒かかりました。 この結果を、表2の4322個の完全な脊椎動物ゲノムに対してQSVMを学習させ、2017年6月17日から2019年1月7日の間にNCBIにアップロードされた694個の新しい脊椎動物mtDNAゲノムに対してクエリした実験により更新しました。 分類精度は99.6%で、両生類ゲノムと誤分類された爬虫類mtDNAゲノムは3種類のみであった。 Bavayia robusta, robust forest bavayia – a species of gecko, NC_034780, Mesoclemmys hogei, Hoge’s toadhead turtle, NC_036346, and Gonatodes albogularis, yellow-headed gecko, NC_035153.
MoDMap visualization vs. Bavayia robusta, robust forest bavayia, NC_035580.MoDMap visualization vs. Gonatodes hogei,NC_036346,NC_035152. ML-DSPによる定量的分類結果
次の実験で検証した仮説は、ML-DSPによるDNA配列の定量的分類精度は、同じペアワイズ距離行列で作成したMoDMapにおける分類群の視覚的クラスタリングが示唆するよりも著しく高いであろうというものであった。
例として、図4aのMoDMapは、コイ科(81ゲノム)のmtDNAゲノムの距離行列を、Acheilognathus(10ゲノム)、Rodeus(11ゲノム)、Schizothorax(19ゲノム)、Labeo(19ゲノム)、Acrossocheilus(12ゲノム)、Onychostoma(10ゲノム)、少なくとも10ゲノムがある属のみ考慮して表示したものである。 これは、AcheilognathusとRhodeusが同じAcheilognathinae亜科に属しているため、生物学的に妥当な結果である。 しかし、図4bに示すように、この2つの属だけを拡大してMoDMapをプロットすると、視覚的にクラスターが明確に分離されていることがわかる。 この分離は、Fig.4bのデータセットに対する二次SVM分類器の精度スコアが100%であることからも確認できます。 図4aのデータセットを2次SVMで分類した場合の定量的な精度は91.8%であり、直感的には対応するMoDMapが示唆するよりもはるかに優れています。 これは、MoDMapが多次元空間(次元数は(n-1)、nは配列数)のゲノムを表す点の位置を3次元で近似しているためと考えられる。
このように、MoDMapは探索的な目的にも使用できるのである。 例えば、図4aのMoDMapは、Onychostoma属の種(NCBIで「不明」とされた亜科)(黄色)が、Acrossocheilus属(Barbinae亜科)の種(マゼンタ)と遺伝的に関連している可能性を示唆するものである。 さらに距離行列を調べると、確かにこれら2つのクラスターの中心間の距離は、これら2つのクラスターの中心から他のクラスターの中心までの距離より低いことがわかる。 このことは、オニホシテントウがBarbinae亜科に属し、オニホシテントウとアクロッソケイルスが近縁であるという、形態的証拠に基づく仮説を支持するものである。 この探索は、MoDMapによって示唆され、距離行列に基づく計算によって確認されましたが、ML-DSP単独(または他の教師付き機械学習アルゴリズム)では開始できなかったことに注意して下さい。ML-DSPは、新しいゲノムを訓練した分類群のいずれかに分類すると予測するだけで、他の追加情報を提供しないのですから。
MoDMapと教師あり機械学習の出力とのもう一つの比較ポイントとして、図5aはOstariophysi超目とその目のCypriniformes(643ゲノム), Characiformes(31ゲノム), Siluriformes(107ゲノム)のMoDMapを示したものである。 MoDMapではクラスタが重複していますが、これらのゲノムを定量的に分類するQuadratic SVM分類器では99%の精度が得られています。 実際、図5bの混同行列を見ると、Quadratic SVMは781配列中8配列しか誤って分類していません(mクラスタに対して、m×m混同行列は行が真のクラス、列が予測クラスでラベル付けされており、セル(i,j)は真のクラスiに属し、クラスjと予測された配列数を表していることを思い出してください)。 このことは、MoDMapの視覚的表現ではクラスタの重複が見られるが、これは3次元への次元減少によるものであり、ML-DSPでは同じ距離行列に基づいて、実際にははるかに優れた定量的分類が可能であることを示している。
他のゲノムデータセットへの応用
本節の二つの実験は、我々の手法がミトコンドリアDNA配列に限らず適用可能であることを示すものであった。 最初の実験である図6aは、2017年8月10日にNCBIで利用可能な全4721個のデングウイルス完全配列のMoDMapを示し、サブタイプDENV-1(2008ゲノム)、DENV-2(1349ゲノム)、DENV-3(1010ゲノム)、DENV-4(354ゲノム)に分類される。 これらの完全なウイルスゲノムの平均長は10,595 bpである。 デングウイルスゲノムは非常に類似しているにもかかわらず、Quadratic SVM分類器を用いたこのデータセットのサブタイプへの分類精度は100%であった。 2つ目の実験(図6b)は、4710の細菌ゲノムを3つの系統に分類したMoDMapを示したものです。 Spirochaetes (437 genomes), Firmicutes (1129 genomes), Proteobacteria (3144 genomes)の3つの系統に分類された4710の細菌ゲノムのMoDMapを示します。 これらの完全な細菌ゲノムの平均長は104,150 bpで、最大長は499,136 bp、最小長は20,019 bpであった。 このデータセットに対するQuadratic SVM分類器の分類精度は95.5%でした。
Comparison of ML-DSP with state-of-the-art alignment-based and alignment-free tools
このセクションの計算実験は、3つの最新アライメントベースおよびアライメントフリー手法とML-DSPとを比較します:MEGA7とMUSCLEやCLUSTALWによるアライメントベース、FFP (Feature Frequency Profiles) によるアライメントフリー、そして、FFPは、アライメントを行うために使用されます。
この性能分析のために、我々は3つのデータセットを選択した。 最初の2つのデータセットは、他の遺伝子配列比較研究で使用されているベンチマークデータセットである。 1つ目は38種類のインフルエンザウイルスゲノム、2つ目は41種類の哺乳類mtDNA完全配列である。 3番目のデータセットは、4,322の脊椎動物の完全なmtDNA配列からなり、スケーラビリティを比較するために選択された、より大きなデータセットである。 アライメントフリーFFPでは、k-merのデフォルト値であるk=5を使用した(k-merとは長さkの任意のDNA配列であり、最初のデータセットではパラメータkの値を増やすとFFPの分類精度のスコアが低くなる結果となった)。 ML-DSPでは整数数値表現を選択し、最初の2つのデータセットでは6つの分類器すべてについて、3番目のデータセットではSubspace DiscriminantとSubspace KNN以外のすべての分類器について、平均分類精度を計算した。 処理時間には、データセットの読み込みから、4つの手法の共通要素である距離行列の完成までのすべての計算が含まれている。 処理時間には、系統樹の計算、MoDMapの可視化、分類に必要な時間は含まれていない。
表5(3、4、6列)に見られるように、処理時間では ML-DSP が圧倒的に MEGA7(MUSCLE/CLUSTALW) アライメントベースのソフトウェアより勝っていることがわかります。 精度の面では、より小さなウイルスや哺乳類のベンチマークデータセットでは、ML-DSPとMEGA7(MUSCLE/CLUSTALW)の平均精度は同等で、おそらくML-DSPの学習セットのサイズが小さいことが原因であると考えられる。 アライメントツールに対するML-DSPの優位性は、より大きな脊椎動物データセットでより明らかになった。アライメントツールは非常に遅く、終了せざるを得なかったため、ML-DSPとアライメントツールの精度を比較することさえできなかった。 一方、ML-DSPは4322個の脊椎動物mtDNAゲノムの全セットを28秒で分類し、平均分類精度は98.3%であった。 このことは、ML-DSPがアライメントベースのMEGA7(MUSCLE/CLUSTALW)よりも、アライメントベースのツールでも処理できないデータセットを高速かつ正確に分類できるため、著しく拡張性が高いことを示している。
表5(コラム5と6)にあるように、ML-DSPは精度でアライメントフリーソフトFFPより著しく優れている(平均分類精度98.2775>
この比較はまた、これらのデータセットに対して、アライメントフリー手法(ML-DSPとFFP)の両方が、処理時間の点でアライメントベース手法(MEGA7(MUSCLE/CLUSTALW))よりも圧倒的に有利であることを示すものであった。 さらに、2つのアライメントフリー手法を互いに比較すると、ML-DSPは分類精度の点でFFPを大幅に上回る。
別の角度からの比較として、図7は、FFP、MEGA7(MUSCLE)、MEGA7(CLUSTALW)、ML-DSPがそれぞれ生成した距離行列から作成した最初のベンチマークデータセット(インフルエンザウイルスゲノム38種)のモダンマップを表示したものである。 図7aは、FFPでは、データセットをサブタイプのクラスタに視覚的に分離することが困難であることを示している。 図7b、MEGA7(MUSCLE)、図7c MEGA7(CLUSTALW)は、サブタイプH1N1とH2N2を表す点のクラスタが重なり合っていることを示しています。 図7
表5のインフルエンザウイルスデータセットの4つの方法によるMoDMapを可視化した図。 点はH1N1(赤、13ゲノム)、H2N2(黒、3ゲノム)、H5N1(青、11ゲノム)、H7N3(マゼンタ、5ゲノム)、H7N9(緑、6ゲノム)の亜型のウイルスゲノムを表しています。 ModMapは、(a)FFP、(b)MEGA7(MUSCLE)、(c)MEGA7(CLUSTALW)、(d)ML-DSP
で計算した距離行列を用いて生成している。 8と9は、検討した4つの方法それぞれによって生成された系統樹を表示する。 図8aはFFPで生成された系統樹で、誤分類されたゲノムが多く、これは図7aの距離行列のMoDMapによる可視化から予想されたことである。 図9aはMEGA7で生成された系統樹で、MUSCLEとCLUSTALWの両方で同じでした。この系統樹では、誤って分類されたH5N1ゲノムは1つだけで、H1N1ゲノムの真ん中に配置されています。 図8bと図9bは、ML-DSPが生成した距離を用いて生成した系統樹です(比較を容易にするため、他の樹と平行して2回表示しています)。 ML-DSPは全てのゲノムを正しく分類した。
議論
ML-DSPの計算効率は、アライメントフリー(したがって多重配列アライメントを必要としない)であり、1次元数値表現、離散フーリエ変換、ピアソン相関係数を組み合わせることで計算時間的に非常に効率的で、したがってスケーラブルであることによる。 また、同じ長さの配列が必要であり、長さの正規化を使用することで、大きなゲノム配列の小さな断片を調べる際に問題が生じる可能性があることが予想される。 通常、ゲノムの長さは様々であるため、長さの正規化は常に何らかの情報を追加(アップサンプリング)または喪失(ダウンサンプリング)する結果となる。 Pearson Correlation Coefficientは小さな配列断片でも信号パターンを区別することができ、また、ミトコンドリアDNAゲノムの完全な長さの変化を考慮してもかなりの不利は見つからなかったが、ゲノムの断片やはるかに大きな核ゲノム配列を扱うときには長さの正規化は問題を引き起こすかもしれない。 一つは、ML-DSPはブラックボックス的な手法であり、高精度の分類予測を行う一方で、その出力に対する(生物学的な)説明を提供しないことである。 もうひとつは、その「知識」を引き出す学習セット、つまり既知のゲノム配列とその分類学的ラベルからなるセットの存在に依存することである。 ML-DSPはこのような訓練セットを用いて、新しい配列を訓練された分類群のいずれかに分類する方法を「学習」するが、接触したことのない分類群に割り当てることはできない
。