Podążając za projektem i implementacją prototypu narzędzia do klasyfikacji sekwencji genomowych ML-DSP, zbadaliśmy, który typ normalizacji długości i który typ odległości były najbardziej odpowiednie do klasyfikacji genomów przy użyciu tej metody. Następnie przeprowadziliśmy wszechstronną analizę różnych numerycznych reprezentacji sekwencji DNA stosowanych w literaturze i wyznaczyliśmy trzy najlepsze. Po ustaleniu głównych parametrów (metoda normalizacji długości, odległość i reprezentacja numeryczna), przetestowaliśmy zdolność ML-DSP do klasyfikacji genomów mtDNA na poziomach taksonomicznych od poziomu domeny do poziomu rodzaju i uzyskaliśmy średni poziom dokładności klasyfikacji >97%. Wreszcie, porównaliśmy ML-DSP z innymi metodami klasyfikacji genomów opartymi na wyrównaniu i bez wyrównania i wykazaliśmy, że ML-DSP osiągnął wyższą dokładność i znacznie większą szybkość.
- Analiza odległości i podejścia do normalizacji długości
- Analiza różnych reprezentacji numerycznych sekwencji DNA
- ML-DSP dla trzech klas kręgowców
- Klasyfikacja genomów za pomocą ML-DSP, na wszystkich poziomach taksonomicznych
- Wizualizacja MoDMap vs. ML-DSP quantitative classification results
- Aplikacje do innych zbiorów danych genomowych
- Porównanie ML-DSP z najnowocześniejszymi narzędziami opartymi na wyrównaniu i bez wyrównania
- Dyskusja
Analiza odległości i podejścia do normalizacji długości
Aby zdecydować, która miara odległości i która metoda normalizacji długości były najbardziej odpowiednie do porównań genomów za pomocą ML-DSP, użyliśmy dziewięciu różnych podzbiorów pełnych sekwencji mtDNA z naszego zbioru danych. Podzbiory te zostały tak dobrane, aby zawierały większość dostępnych kompletnych genomów mtDNA (Vertebrates dataset of 4322 mtDNA sequences), jak również podzbiory zawierające podobne sekwencje, o podobnej długości (Primates dataset of 148 mtDNA sequences), oraz podzbiory zawierające genomy mtDNA wykazujące duże różnice w długości (Plants dataset of 174 mtDNA sequences).
W tabeli 2 przedstawiono wyniki dokładności klasyfikacji uzyskane przy użyciu dwóch rozważanych miar odległości (Euklidesowej i Pearson Correlation Coefficient) oraz dwóch różnych podejść do normalizacji długości (normalizacja do maksymalnej długości i normalizacja do mediany długości) na kilku zestawach danych. Wyniki dokładności klasyfikacji są nieco wyższe dla PCC, ale wystarczająco zbliżone do wyników uzyskanych przy użyciu odległości euklidesowej, aby nie były jednoznaczne.
W dalszej części pracy wybraliśmy współczynnik korelacji Pearsona, ponieważ jest on niezależny od skali (w przeciwieństwie do odległości euklidesowej, która jest np, wrażliwa na offset sygnału, przez co sygnały o tym samym kształcie, ale różnych punktach początkowych są traktowane jako niepodobne), a normalizację długości do mediany długości, ponieważ jest ekonomiczna pod względem wykorzystania pamięci.
Analiza różnych reprezentacji numerycznych sekwencji DNA
Przeanalizowaliśmy wpływ na dokładność klasyfikacji ML-DSP trzynastu różnych jednowymiarowych reprezentacji numerycznych dla sekwencji DNA, pogrupowanych jako: odwzorowania stałe Reprezentacje numeryczne DNA (Tabela 1 reprezentacje #1, #2, #3, #6, #7, patrz , oraz reprezentacje #10, #11, #12, #13 – będące jednowymiarowymi wariantami reprezentacji binarnej zaproponowanej w ), odwzorowania oparte na pewnych właściwościach fizykochemicznych nukleotydów (Tabela 1 reprezentacja #4, patrz , oraz reprezentacja #5, patrz ), oraz odwzorowania oparte na wartościach najbliższego sąsiada (Tabela 2 reprezentacje #8, #9, patrz ).
Zestawy danych użyte do tej analizy były takie same jak te w Tabeli 2. Do analizy wykorzystano sześć klasyfikatorów uczenia maszynowego wymienionych w rozdziale Metody i implementacja, z wyjątkiem zbiorów danych zawierających ponad 2000 sekwencji, gdzie dwa z klasyfikatorów (Subspace Discriminant i Subspace KNN) zostały pominięte jako zbyt wolne. Wyniki i średnie wyniki dokładności dla wszystkich tych reprezentacji numerycznych, klasyfikatorów i zbiorów danych są podsumowane w Tabeli 3.
Jak można zauważyć w Tabeli 3, dla wszystkich reprezentacji liczbowych, średnie wyniki dokładności tabeli (ostatni wiersz: średnia średnich, najpierw dla sześciu klasyfikatorów dla każdego zestawu danych, a następnie dla wszystkich zestawów danych), są wysokie. Zaskakująco, nawet użycie numerycznej reprezentacji pojedynczego nukleotydu, która traktuje trzy z nukleotydów jako takie same i wyróżnia tylko jeden z nich („Just-A”), daje średnią dokładność 91.9%. Najlepszą dokładność, dla tych zbiorów danych, uzyskuje się przy zastosowaniu reprezentacji „PP”, która daje średnią dokładność 92,3%.
Do kolejnych eksperymentów wybraliśmy trzy najlepsze reprezentacje pod względem wyników dokładności: „PP”, „Just-A”, oraz reprezentacje numeryczne „Real”.
ML-DSP dla trzech klas kręgowców
Jako zastosowanie ML-DSP z wykorzystaniem reprezentacji numerycznej „PP” dla sekwencji DNA, przeanalizowaliśmy zbiór genomów mtDNA kręgowców (mediana długości 16 606 bp). Na Rys. 3 przedstawiono MoDMap, czyli wielowymiarową, skalowalną wizualizację 3D wzajemnych powiązań genomów, opisanych przez odległości w macierzy odległości. Zbiór danych zawiera 3740 kompletnych genomów mtDNA: 553 genomów ptaków, 2313 genomów ryb i 874 genomów ssaków. Ilościowo, wynik dokładności klasyfikacji uzyskany przez klasyfikator Quadratic SVM wyniósł 100%.
Klasyfikacja genomów za pomocą ML-DSP, na wszystkich poziomach taksonomicznych
Sprawdziliśmy zdolność ML-DSP do klasyfikacji kompletnych sekwencji mtDNA na różnych poziomach taksonomicznych. Dla każdego zestawu danych testowaliśmy przy użyciu reprezentacji numerycznych „PP”, „Just-A” i „Real”.
Punktem wyjścia była domena Eukaryota (7396 sekwencji), która została podzielona na królestwa, następnie królestwo Animalia zostało podzielone na fyle, itd. Na każdym poziomie wybieraliśmy klaster o największej liczbie sekwencji, a następnie klasyfikowaliśmy go do kolejnych podklastrów poziomu taksonomicznego. Najniższym poziomem klasyfikacji była rodzina Cyprinidae (81 sekwencji) podzielona na sześć rodzajów. Dla każdego zestawu danych przetestowaliśmy wszystkie sześć klasyfikatorów, a maksymalne wyniki dokładności klasyfikacji dla każdego z nich zostały przedstawione w tabeli 4.
Zauważ, że na każdym poziomie taksonomicznym maksymalne wyniki dokładności klasyfikacji (wśród sześciu klasyfikatorów) dla każdej z trzech rozważanych reprezentacji numerycznych są wysokie, wahając się od 91.4% do 100%, przy czym tylko trzy wyniki są poniżej 95%. Ponieważ analiza ta również nie ujawniła wyraźnego zwycięzcy wśród trzech najlepszych reprezentacji numerycznych, pojawiło się pytanie, czy używana przez nas reprezentacja numeryczna ma w ogóle znaczenie. Aby odpowiedzieć na to pytanie, przeprowadziliśmy dwa dodatkowe eksperymenty, które wykorzystują fakt, że współczynnik korelacji Pearsona jest niezależny od skali i szuka jedynie wzorca podczas porównywania sygnałów. W pierwszym eksperymencie wybraliśmy trzy najlepsze reprezentacje numeryczne („PP”, „Just-A” i „Real”) i dla każdej sekwencji w danym zbiorze danych, z równym prawdopodobieństwem, losowo wybieraliśmy reprezentację numeryczną spośród tych trzech, jako sygnał cyfrowy, który ją reprezentuje. Wyniki zostały przedstawione w kolumnie „Random3” w Tabeli 4: Maksymalny wynik dokładności dla wszystkich zbiorów danych wynosi 96%. Jest to prawie taka sama dokładność jak dokładność uzyskana, gdy użyto jednej konkretnej reprezentacji liczbowej (o 1% niższa, co mieści się w granicach błędu eksperymentalnego). Następnie powtórzyliśmy ten eksperyment, tym razem wybierając losowo dowolną z trzynastu rozważanych reprezentacji numerycznych. Wyniki pokazane są w kolumnie „Random13” w Tabeli 4, a średni wynik dokładności tabeli wynosi 88,1%.
Ogółem, nasze wyniki sugerują, że wszystkie trzy reprezentacje numeryczne „PP”, „Just-A” i „Real” mają bardzo wysokie wyniki dokładności klasyfikacji (średnio >97%), a nawet losowy wybór jednej z tych reprezentacji dla każdej sekwencji w zbiorze danych nie wpływa znacząco na wynik dokładności klasyfikacji ML-DSP (średnio 96%).
Zauważamy również, że oprócz wysokiej dokładności klasyfikacji, ML-DSP jest ultraszybki. Rzeczywiście, nawet dla największego zbioru danych w Tabeli 2, subphylum Vertebrata (4322 kompletne genomy mtDNA, średnia długość 16,806 bp), obliczenia macierzy odległości (które stanowią większość obliczeń klasyfikacyjnych) trwały poniżej 5 s. Klasyfikacja nowego genomu mtDNA naczelnych trwała 0,06 s, gdy trenowano na 148 genomach mtDNA naczelnych, a klasyfikacja nowego genomu mtDNA kręgowców trwała 7 s, gdy trenowano na 4322 genomach mtDNA kręgowców. Wynik ten został zaktualizowany eksperymentem, w którym QSVM została wytrenowana na 4322 kompletnych genomach kręgowców z Tabeli 2, i poddana kwerendzie na 694 nowych genomach mtDNA kręgowców wgranych na NCBI między 17 czerwca 2017 a 7 stycznia 2019. Dokładność klasyfikacji wyniosła 99,6%, przy czym tylko trzy genomy mtDNA gadów zostały błędnie sklasyfikowane jako genomy płazów: Bavayia robusta, robust forest bavayia – gatunek gekona, NC_034780, Mesoclemmys hogei, Hoge’s toadhead turtle, NC_036346, oraz Gonatodes albogularis, yellow-headed gecko, NC_035153.
Wizualizacja MoDMap vs. ML-DSP quantitative classification results
W kolejnych eksperymentach testowano hipotezę, że dokładność ilościowa klasyfikacji sekwencji DNA przez ML-DSP będzie istotnie wyższa niż sugerowana przez wizualne grupowanie taksonów w MoDMap wytworzonej przy użyciu tej samej macierzy odległości parami.
Jako przykład, MoDMap na Rys. 4a, wizualizuje macierz odległości genomów mtDNA z rodziny Cyprinidae (81 genomów) z jej rodzajami Acheilognathus (10 genomów), Rhodeus (11 genomów), Schizothorax (19 genomów), Labeo (19 genomów), Acrossocheilus (12 genomów), Onychostoma (10 genomów); uwzględniono tylko rodzaje z co najmniej 10 genomami. MoDMap wydaje się wskazywać na nakładanie się na siebie gromad Acheilognathus i Rhodeus, co jest biologicznie prawdopodobne, gdyż rodzaje te należą do tej samej podrodziny Acheilognathinae. Jednak po powiększeniu mapy MoDMap tylko dla tych dwóch rodzajów, jak pokazano na Rys. 4b, można zauważyć, że klastry są wyraźnie rozdzielone wizualnie. Potwierdzeniem tej separacji jest fakt, że wynik dokładności klasyfikatora Quadratic SVM dla zbioru danych na Rys. 4b wynosi 100%. Ten sam ilościowy wynik dokładności dla klasyfikacji zbioru danych na Rys. 4a z Quadratic SVM wynosi 91.8%, co intuicyjnie jest znacznie lepsze niż sugerowałaby to odpowiednia MoDMap. Wynika to prawdopodobnie z faktu, że MoDMap jest trójwymiarową aproksymacją położenia punktów reprezentujących genom w przestrzeni wielowymiarowej (liczba wymiarów wynosi (n-1), gdzie n to liczba sekwencji).
Jak już wspomniano, MoDMapy mogą nadal służyć do celów eksploracyjnych. Na przykład, MoDMap na Rys. 4a sugeruje, że gatunki z rodzaju Onychostoma (podrodzina wymieniona jako „nieznana” w NCBI) (żółty), mogą być genetycznie spokrewnione z gatunkami z rodzaju Acrossocheilus (podrodzina Barbinae) (magenta). Przy dalszej eksploracji macierzy odległości okazuje się, że rzeczywiście odległość między centroidami tych dwóch skupień jest mniejsza niż odległość między każdym z tych dwóch centroidów skupień a innymi centroidami skupień. Potwierdza to hipotezę, opartą na dowodach morfologicznych, że rodzaj Onychostoma należy do podrodziny Barbinae, odpowiednio, że rodzaj Onychostoma i rodzaj Acrossocheilus są blisko spokrewnione. Zauważmy, że ta eksploracja, zasugerowana przez MoDMap i potwierdzona obliczeniami opartymi na macierzy odległości, nie mogłaby zostać zainicjowana w oparciu o sam ML-DSP (lub inne nadzorowane algorytmy uczenia maszynowego), ponieważ ML-DSP przewiduje jedynie klasyfikację nowych genomów do jednego z taksonów, na których był szkolony, i nie dostarcza żadnych innych dodatkowych informacji.
Jako kolejny punkt porównawczy między MoDMapami i wynikami nadzorowanego uczenia maszynowego, Rys. 5a pokazuje MoDMapę nadrzędu Ostariophysi z jego rzędami Cypriniformes (643 genomy), Characiformes (31 genomów) i Siluriformes (107 genomów). MoDMap pokazuje te klastry jako nakładające się, ale klasyfikator Quadratic SVM, który ilościowo klasyfikuje te genomy, ma dokładność 99%. Rzeczywiście, macierz konfuzji na Rys. 5b pokazuje, że Quadratic SVM błędnie klasyfikuje tylko 8 sekwencji z 781 (przypomnijmy, że dla m klastrów, macierz konfuzji m×m ma wiersze oznaczone klasami prawdziwymi i kolumny oznaczone klasami przewidywanymi; komórka (i,j) pokazuje liczbę sekwencji, które należą do prawdziwej klasy i, a zostały przewidziane jako należące do klasy j). Wskazuje to, że gdy wizualna reprezentacja w MoDMapie pokazuje nakładanie się klastrów, może to wynikać jedynie z redukcji wymiarowości do trzech wymiarów, podczas gdy ML-DSP w rzeczywistości zapewnia znacznie lepszą klasyfikację ilościową w oparciu o tę samą macierz odległości.
Aplikacje do innych zbiorów danych genomowych
Dwa eksperymenty w tej sekcji wskazują, że stosowalność naszej metody nie ogranicza się do sekwencji mitochondrialnego DNA. Pierwszy eksperyment, Rys. 6a, przedstawia MoDMapę wszystkich 4721 kompletnych sekwencji wirusa dengi dostępnych w NCBI w dniu 10 sierpnia 2017 roku, sklasyfikowanych na podtypy DENV-1 (2008 genomów), DENV-2 (1349 genomów), DENV-3 (1010 genomów), DENV-4 (354 genomy). Średnia długość tych kompletnych genomów wirusowych wynosi 10,595 bp. Pomimo tego, że genomy wirusów dengi są bardzo podobne, dokładność klasyfikacji tego zbioru danych na podtypy przy użyciu klasyfikatora Quadratic SVM wyniosła 100%. Drugi eksperyment, Rys. 6b, przedstawia MoDMapę 4710 genomów bakteryjnych, zaklasyfikowanych do trzech filii: Spirochaetes (437 genomów), Firmicutes (1129 genomów) i Proteobacteria (3144 genomy). Średnia długość tych kompletnych genomów bakteryjnych wynosi 104 150 bp, przy czym maksymalna długość wynosi 499 136 bp, a minimalna 20 019 bp. Dokładność klasyfikacji klasyfikatora Quadratic SVM dla tego zbioru danych wyniosła 95,5%.
Porównanie ML-DSP z najnowocześniejszymi narzędziami opartymi na wyrównaniu i bez wyrównania
Eksperymenty obliczeniowe w tej sekcji porównują ML-DSP z trzema najnowocześniejszymi metodami opartymi na wyrównaniu i bez wyrównania: narzędziem opartym na wyrównaniu MEGA7 z wyrównaniem przy użyciu MUSCLE i CLUSTALW , oraz metodą bez wyrównania FFP (Feature Frequency Profiles) .
Do analizy wydajności wybraliśmy trzy zestawy danych. Pierwsze dwa zbiory danych są wzorcowymi zbiorami danych używanymi w innych badaniach nad porównywaniem sekwencji genetycznych: Pierwszy zestaw danych obejmuje 38 genomów wirusów grypy, a drugi zestaw danych obejmuje 41 kompletnych sekwencji mtDNA ssaków. Trzeci zbiór danych, wybrany przez nas, jest znacznie większy, składa się z 4,322 kompletnych sekwencji mtDNA kręgowców i został wybrany do porównania skalowalności.
Dla metod opartych na wyrównaniu, użyliśmy macierzy odległości obliczonej w MEGA7 z sekwencji wyrównanych za pomocą MUSCLE lub CLUSTALW. Dla bezrównoległego FFP użyliśmy domyślnej wartości k=5 dla k-merów (k-mer to dowolna sekwencja DNA o długości k; każde zwiększenie wartości parametru k, dla pierwszego zbioru danych, skutkowało obniżeniem wyniku dokładności klasyfikacji dla FFP). Dla ML-DSP wybraliśmy numeryczną reprezentację Integer i obliczyliśmy średnią dokładność klasyfikacji dla wszystkich sześciu klasyfikatorów dla dwóch pierwszych zbiorów danych oraz dla wszystkich klasyfikatorów z wyjątkiem Subspace Discriminant i Subspace KNN dla trzeciego zbioru danych.
Tabela 5 pokazuje porównanie wydajności (dokładność klasyfikacji i czas przetwarzania) tych czterech metod. Czas przetwarzania obejmował wszystkie obliczenia, począwszy od wczytania zbiorów danych, a skończywszy na utworzeniu macierzy odległości – wspólnego elementu wszystkich czterech metod. Podane czasy przetwarzania nie zawierają czasu potrzebnego na obliczenie drzew filogenetycznych, wizualizacji MoDMap czy klasyfikacji.
Jak widać w Tabeli 5 (kolumny 3, 4 i 6) ML-DSP zdecydowanie przewyższa pod względem czasu przetwarzania oprogramowanie oparte na wyrównaniu MEGA7(MUSCLE/CLUSTALW). Pod względem dokładności, dla mniejszych zbiorów danych wzorcowych wirusów i ssaków, średnie dokładności ML-DSP i MEGA7(MUSCLE/CLUSTALW) były porównywalne, prawdopodobnie ze względu na mały rozmiar zbioru treningowego dla ML-DSP. Przewaga ML-DSP nad narzędziami opartymi na wyrównaniu stała się bardziej widoczna dla większego zbioru danych kręgowców, gdzie dokładności ML-DSP i narzędzi opartych na wyrównaniu nie mogły być nawet porównane, ponieważ narzędzia oparte na wyrównaniu były tak powolne, że musiały zostać przerwane. W przeciwieństwie do tego ML-DSP sklasyfikował cały zestaw 4322 genomów mtDNA kręgowców w 28 s, ze średnią dokładnością klasyfikacji 98,3%. Wskazuje to, że ML-DSP jest znacznie bardziej skalowalny niż oparty na wyrównaniu MEGA7(MUSCLE/CLUSTALW), ponieważ może szybko i dokładnie klasyfikować zestawy danych, których narzędzia oparte na wyrównaniu nie są w stanie przetworzyć.
Jak widać w Tabeli 5 (kolumny 5 i 6), ML-DSP znacznie przewyższa wolne od wyrównania oprogramowanie FFP pod względem dokładności (średnia dokładność klasyfikacji 98.3% dla ML-DSP vs. 48.3% dla FFP, dla dużego zbioru danych kręgowców), będąc jednocześnie ogólnie szybszym.
Porównanie to wskazuje również, że dla tych zbiorów danych, obie metody bez wyrównywania (ML-DSP i FFP) mają przytłaczającą przewagę nad metodami opartymi na wyrównywaniu (MEGA7 (MUSCLE/CLUSTALW)) pod względem czasu przetwarzania. Ponadto, gdy porównuje się te dwie metody bez wyrównywania, ML-DSP znacząco przewyższa FFP pod względem dokładności klasyfikacji.
Jako kolejny kąt porównania, Rys. 7 pokazuje MoDMapy pierwszego zestawu danych wzorcowych (38 genomów wirusa grypy) wyprodukowane z macierzy odległości wygenerowanych odpowiednio przez FFP, MEGA7 (MUSCLE), MEGA7 (CLUSTALW) i ML-DSP. Rysunek 7a pokazuje, że w przypadku FFP trudno jest zaobserwować jakiekolwiek wizualne rozdzielenie zbioru danych na klastry podtypów. Rys. 7b, MEGA7 (MUSCLE), i Rys. 7c MEGA7 (CLUSTALW) pokazują nakładanie się skupisk punktów reprezentujących podtypy H1N1 i H2N2. W przeciwieństwie do tego, Rys. 7d, który wizualizuje macierz odległości utworzoną przez ML-DSP, pokazuje wyraźną separację pomiędzy wszystkimi podtypami.
Finally Figs. 8 i 9 przedstawiają drzewa filogenetyczne wygenerowane przez każdą z czterech rozważanych metod. Rysunek 8a, drzewo wygenerowane przez FFP, ma wiele błędnie sklasyfikowanych genomów, czego można się było spodziewać, biorąc pod uwagę wizualizację MoDMap jego macierzy odległości na Rys. 7a. Rysunek 9a przedstawia drzewo filogenetyczne wygenerowane przez MEGA7, które było takie samo zarówno dla MUSCLE jak i CLUSTALW: ma tylko jeden błędnie sklasyfikowany genom H5N1, umieszczony pośrodku genomów H1N1. Rysunki 8b i 9b przedstawiają drzewa filogenetyczne wygenerowane przy użyciu odległości uzyskanych przez ML-DSP (pokazane dwukrotnie, równolegle z innymi drzewami, dla ułatwienia porównania). ML-DSP poprawnie sklasyfikował wszystkie genomy.
Dyskusja
Wydajność obliczeniowa ML-DSP wynika z faktu, że jest on wolny od wyrównywania (stąd nie wymaga wielokrotnego wyrównywania sekwencji), podczas gdy kombinacja reprezentacji numerycznych 1D, Dyskretnej Transformaty Fouriera i Współczynnika Korelacji Pearsona czyni go niezwykle wydajnym obliczeniowo czasowo, a przez to skalowalnym.
ML-DSP nie jest pozbawiony ograniczeń. Przewidujemy, że konieczność stosowania sekwencji o jednakowej długości i użycie normalizacji długości może wprowadzić problemy z badaniem małych fragmentów większych sekwencji genomowych. Zazwyczaj genomy różnią się długością i dlatego normalizacja długości zawsze powoduje dodanie (up-sampling) lub utratę (down-sampling) pewnych informacji. Chociaż współczynnik korelacji Pearsona może rozróżnić wzorce sygnałów nawet w małych fragmentach sekwencji, a my nie znaleźliśmy żadnych znaczących wad podczas rozważania kompletnych genomów mitochondrialnego DNA z ich nieuniknionymi zmianami długości, normalizacja długości może powodować problemy, gdy mamy do czynienia z fragmentami genomów i znacznie większymi sekwencjami genomów jądrowych.
Na koniec, ML-DSP ma dwie wady, nieodłączne dla każdego nadzorowanego algorytmu uczenia maszynowego. Pierwszą z nich jest to, że ML-DSP jest metodą typu black-box, która, choć daje bardzo dokładne przewidywania klasyfikacji, nie oferuje (biologicznego) wyjaśnienia dla swoich wyników. Po drugie, opiera się na istnieniu zbioru treningowego, z którego czerpie swoją „wiedzę”, czyli zbioru składającego się ze znanych sekwencji genomowych i ich etykiet taksonomicznych. ML-DSP wykorzystuje taki zestaw treningowy do „uczenia się”, jak klasyfikować nowe sekwencje do jednej z klas taksonomicznych, na których był szkolony, ale nie jest w stanie przypisać ich do taksonu, z którym nie miał do czynienia.
.