Thursday, 4 August 2016

Arg - max 84






+

Vorhersage von RNA-Sekundärstruktur durch die Maximierung Pseudo erwartete Genauigkeit Abstrakt Hintergrund Jüngste Studien haben die Bedeutung der Berücksichtigung der gesamten Verteilung möglicher Sekundärstrukturen in der RNA Sekundärstrukturvorhersagen ergab; deshalb eine neue Art von Schätzer einschließlich der maximal zu erwartende Genauigkeit (MEA) Schätzfunktion vorgeschlagen. Die MEA-basierte Schätzer wurden entwickelt, um die erwartete Genauigkeit der Basenpaare zu maximieren und haben den höchsten Grad an Genauigkeit erreicht. Diese Methoden geben jedoch nicht die einzige beste Vorhersage der Struktur, sondern Parameter verwenden, um den Kompromiss zwischen der Empfindlichkeit zu steuern und der positive prädiktive Wert (PPV). Es ist unklar, welchen Wert Parameter, den wir nutzen sollten, und auch die gut ausgebildeten Standardparameterwert nicht im Allgemeinen geben das beste Ergebnis in der populären Genauigkeit Maßnahmen zu jeder RNA-Sequenz. Ergebnisse Stattdessen der erwarteten Werte der populären Genauigkeit Maßnahmen für RNA Sekundärstrukturvorhersage verwendet, die schwierig zu berechnen ist, die Pseudogenauigkeit - Erwartete, die leicht von Basenpaarung Wahrscheinlichkeiten berechnet werden kann, eingeführt wird. Es wird gezeigt, dass die Pseudo erwartete Genauigkeit hinsichtlich der Empfindlichkeit, PPV, MCC, oder F-Score eine gute Näherung ist. Der Pseudo erwartete Genauigkeit kann etwa für jede RNA-Sequenz durch stochastische Abtastung maximiert werden. Es ist auch, dass ausgewogene Sekundärstrukturen zwischen Empfindlichkeit und PPV mit einem kleinen Rechenaufwand kann vorhergesagt werden, gezeigt durch die Pseudo erwartete Genauigkeit von MCC oder F-Score mit dem γ-Schwerpunktschätzer kombiniert. Schlussfolgerungen Diese Studie gibt nicht nur ein Verfahren zur Bestimmung der Sekundärstruktur die Vorhersage, dass für etwa die Maximierung der (pseudo-) erwartete Genauigkeit in Bezug auf verschiedene Evaluierungsmaßnahmen einschließlich MCC und F-Score zwischen Empfindlichkeit und PPV, sondern auch ein allgemeines Verfahren ausgleicht. Hintergrund Um die Sekundärstruktur eines RNA-Sequenz vorherzusagen, ist ein klassisches Problem der Sequenzanalyse in der Bioinformatik. Die Bedeutung einer genauen Vorhersage von Sekundärstrukturen zugenommen hat aufgrund der jüngsten Entdeckung von funktionellen nicht-kodierenden RNAs, deren Funktionen sich eng auf ihre Sekundärstrukturen [1 - 3]. Sekundärstrukturvorhersage spielt auch eine wichtige Rolle in der Forschung auf die virale RNAs [4]. Es gibt viele Tools und Algorithmen für die Sekundärstruktur Vorhersage [5-11]. Die beliebteste Methode ist mit dem Zuker Algorithmus [12], um die minimale freie Energie (MFE) Struktur vorherzusagen. Bekannte Software (Mfold [13], RNAfold [14] und RNAstructure [15]) verwendet diesen Ansatz. Von einem probabilistischen Sicht ist die MFE-Struktur äquivalent zu der Sekundärstruktur des Maximum-Likelihood (ML) Schätzung für die Wahrscheinlichkeitsverteilung der Sekundärstrukturen durch das McCaskill Modell gegeben [16]. Es ist jedoch bekannt, dass die MFE / ML Struktur Nachteile hat: Es gibt eine große Anzahl von suboptimale Strukturen sind, deren frei Energien ähnlich der minimale freie Energie und die Wahrscheinlichkeit der MFE-Struktur ist äußerst gering [17]. Darüber hinaus ist die ML-Schätzer nicht genauigkeit Maßnahmen in dem Zielproblem optimiert [10]. Daher ist ein weiterer Ansatz, der die gesamte Verteilung der möglichen Sekundärstrukturen einer bestimmten Sequenz eingeführt wurde, hält. Ding et al. [18] vorgeschlagen, die Schwerpunktschätzer, der die erwartete Hamming Verlust minimiert. Auf der anderen Seite, Do et al. [7] vorgeschlagen, die maximal zu erwartende Genauigkeit (MEA) Schätzfunktion, die eine Vorhersage auf der Maximierung des erwarteten Wert eines Genauigkeitsfunktion unter einer Wahrscheinlichkeitsverteilung von Sekundärstrukturen auf Basis verleiht. Die MEA-basierte Schätzer haben zu viele Probleme in der Bioinformatik angewendet wurde, Sequenz, einschließlich Analysen für die RNA-Sequenzen [6. 7. 10. 19-22], die Ausrichtung der biologischen Sequenzen [23 - 25] und andere Schätzprobleme [26 - 28]. Für die RNA-Sekundärstrukturvorhersagen, zwei MEA-basierte Schätzer vorgeschlagen worden: (i) der Schätzer Vorschlag [7] und (ii) der γ-Schwerpunktschätzer vorgeschlagen durch [10]. Beide Schätzer nicht die Genauigkeit Maßnahmen einzusetzen, die in der tatsächlichen Bewertung der RNA-Sekundärstruktur verwendet werden, nämlich Empfindlichkeit (SEN), der positive prädiktive Wert (PPV), Matthews Korrelationskoeffizient (MCC) und F-Score, in Bezug auf vorausgesagt Base - Paaren. Von einem View - Punkt MEA, ist es sinnvoll, die Schätzer zu berücksichtigen, die Erwartung dieser Genauigkeit Maßnahmen zu maximieren. Da die Berechnung dieser Schätzer im Allgemeinen große Rechenzeit erfordert, konnten die bisherigen Studien nicht direkt diese Genauigkeit Maßnahmen verwenden. Darüber hinaus enthalten die vorherigen MEA-basierten Schätzer einen Parameter, der die Balance zwischen SEN und PPV von Basenpaaren in einem vorhergesagten Sekundärstruktur steuert. Es ist jedoch unklar, wie die Parameter zu wählen, um eine angemessene Sekundärstruktur (z eine ausgewogene Sekundärstruktur zwischen SEN und PPV) zu erhalten, obwohl es Situationen gibt, die nur eine Sekundärstruktur vorhergesagt wird, erforderlich. Es gibt auch eine Möglichkeit, dass die optimalen Parameter von der Länge der Sequenz und / oder der Art der RNA Familie abhängen könnte, obwohl die γ-Zentroid-Schätzer (und der Schätzer Vorschlag [7]) einen Standardparameter verwendet, mit einer Benchmark bestimmt Datenmenge, die für alle Sequenzen gleich ist. In dieser Studie, die Nachteile der aktuellen MEA-basierten Verfahren, die oben beschrieben zu lösen, führen wir die Pseudo - Erwartete Genauigkeit einer Sekundärstruktur in Bezug auf eine Genauigkeit Maßnahme gegeben, die eine Funktion der Anzahl der richtig positiven Basenpaaren ist (TP), richtig-negativ Base - Paare (TN), falsch-positive Basenpaare (FP) und falsch - negativen Basenpaare (FN). Der Pseudo erwartete Genauigkeit wird dann unter Verwendung von erwarteten TP, TN, FP und FN definiert. Da die Genauigkeit Maßnahmen nutzen wir SEN, PPV, MCC und F-Score in Bezug auf Basenpaaren, die Vorhersagen der Sekundärstruktur in den Auswertungen von RNA häufig verwendet werden, da die Base - Paare wesentlich sind für sekundäre / tertiäre Strukturen bilden, von denen bekannt ist biologisch wichtig. Die pseudo-erwartete Genauigkeit wird leicht unter Verwendung der Basenpaarungswahrscheinlichkeitsmatrix berechnet, und kann viel effizienter als die erwartete Genauigkeit berechnet werden. Obwohl die Pseudo-erwartete Genauigkeit nicht gleich der erwarteten Genauigkeit eines vorhergesagten Sekundärstruktur ist, fanden wir, dass die pseudo-erwartete Genauigkeit eine gute Annäherung der erwarteten Genauigkeit in unserer Situation gibt. Dementsprechend stellen wir auch die angenäherte Schätzern, die die erwartete Genauigkeit eines gegebenen Genauigkeitsmessung maximieren. Darüber hinaus wird durch die Pseudo erwartet MCC / F-Score mit dem γ - Schwerpunkt Schätzer Kombination ist es möglich, die ausgewogene Sekundärstruktur zwischen SEN und PPV vorherzusagen (die eine angemessene Sekundärstruktur in vielen Situationen zu sein scheint, wenn nur eine sekundäre vorhergesagt Struktur) erforderlich, obwohl es einen kleinen Rechenaufwand ist. Die Techniken, die in diesem Dokument beschrieben wird, die maximal zu erwartende Genauigkeit Schätzer für verschiedene Evaluierungsmaßnahmen (vgl [29]) zu entwerfen, erweitert werden. Methoden Im folgenden stellen wir eine Sekundärstruktur eines RNA-Sequenz x als Dreiecks Binärmatrix: θ = θ ij> i j. hat Einträge p i j = Σ θ ∈ S (x) I (θ i j = 1) p (θ | x). genannt Basenpaarung Wahrscheinlichkeiten, wobei I (·) ist die Indikatorfunktion, die 1 zurückgibt, wenn die Bedingung anders wahr und 0 ist. Die Basenpaarungswahrscheinlichkeit Matrix einer RNA-Sequenz gegebenen x kann mit dem McCaskill berechnet werden (Inside-Outside) Algorithmus, dessen Komplexität sind O (| x | 3) und O (| x | 2) für Zeit und Raum, bzw. ( siehe zB [16 30]). Erwartete Genauigkeit und Pseudo erwartete Genauigkeit von RNA-Sekundärstruktur Genauigkeit Maßnahmen für RNA Sekundärstrukturvorhersage TP = TP (θ. Σ) = Σ i j I (σ i j = 1) I (θ i j = 1). F-Score = F-Score (θ. Σ) = 2 · TP 2 · TP + FP + FN. Wenn θ ist eine Referenz (korrekte) Sekundärstruktur und ist eine vorhergesagte Sekundärstruktur von x. Gl. (1), (2), (3), (4), (5), (6), (7) und (8) sind die Anzahl der richtig positiven Basenpaare ist die Zahl der richtig negativ Basenpaare die Zahl der falsch-positiven Basenpaare, die Zahl der falsch-negativen Basenpaare, die SEN, der PPV, die MCC und die F-Score sind. Da die Basenpaare in einer Sekundärstruktur biologisch wichtig sind, Genauigkeit Maßnahmen beruhen auf Basenpaare sind nützlich und SEN, PPV, MCC und F-Score um die Genauigkeit der Maßnahmen für die Sekundärstrukturvorhersagen-weit verbreitet. Beachten Sie, dass MCC und F-Score ausgewogene Maßnahmen zwischen SEN und PPV sind. (F-Score ist gleich einem harmonischen Mittelwert von SEN und PPV.) Im Folgenden bedeutet Acc eine der SEN, PPV, MCC und F-Score. Erwartete Genauigkeit der Sekundärstruktur Bei einer Wahrscheinlichkeitsverteilung p (θ | x) für S (x) berechnen wir die erwarteten Werte von Gl. (1) Gl. (4). T P ^ (σ) = E θ | x [TP (θ. σ)] = Σ i j p j i I (σ i j = 1). TN ^ (σ) = E θ | x [TN (. θ σ)] = | x | (| X | - 1) 2 - Σ i j p j i I (σ i j = 1). FP ^ (σ) = E θ | x [FP (. θ σ)] = Σ i j (1 - p i j) I (σ i j = 1). FN ^ (σ) = E θ | x [FN (. θ σ)] = Σ i j p i j (1 - I (σ i j = 1)). Wo p ij> zeigt die Basenpaarung Wahrscheinlichkeitsmatrix. Darüber hinaus berechnen wir (Acc gleich SEN, PPV, MCC oder F-Score) die erwartete Genauigkeit einer Genauigkeit messen Acc von σ wie folgt: A c c ^ (σ) = E θ | x [A c c (. θ σ)] = Σ θ ∈ S (x) A c c p (θ | x) (θ σ.). Um die erwartete Acc für eine bestimmte Sekundärstruktur σ (dh A cc ^ (σ)), ist es notwendig, Summe über alle Sekundärstrukturen der RNA-Sequenz x weil kein effizienter Algorithmus (wie einem dynamischen Programmieralgorithmus) zu berechnen, wurde gemeldet. Die Anzahl der Kandidatensekundärstrukturen steigt exponentiell mit der Länge der RNA-Sequenz (genauer gesagt, gibt es etwa 1,8 L möglichen Strukturen für eine Sequenz der Länge L), so berechnet die erwartete Acc ein unlösbares Problem. Daher nähern wir es stochastische Abtastung verwendet wird. Für N Sekundärstrukturen n = 1 N durch stochastische Abtastung gegeben [30 31] von Sekundärstrukturen definieren wir A c c ^ N (σ) = 1 N Σ 1 ≤ n ≤ N A c c (θ (n). Σ) für σ ∈ S (x). A c c ^ N (σ) konvergiert gegen A c c ^ (σ), wenn N durch die Eigenschaften der stochastischen Probenahme ausreichend groß ist. Es sollte beachtet werden, dass die Probengröße N bis A c c ^ N (σ) eine sichere Annäherung an den erwarteten Acc von σ exponentiell mit der Sequenzlänge wächst. Pseudo erwartete Genauigkeit der Sekundärstruktur In unserem Fall wird Acc allgemein als Funktion der TP, TN, FP und FN geschrieben: Dann wird für eine sekundäre Struktur σ, - Erwartete die Pseudo Acc von definiert ist durch A c c ^ 0 (σ) = f (TP ^. ^ TN. FP ^. ^ FN). PPV ^ 0 (σ) = Σ i j I (σ i j = 1). Daher angesichts der Sekundärstruktur von Pseudo erwarteten SEN maximiert (Eq. (20) mit SEN)) entspricht der Sekundärstruktur, die die Summe der Basis paring Wahrscheinlichkeiten der vorhergesagten Basenpaaren maximiert. Die Sekundärstruktur ist daher äquivalent zu der von der γ-Zentroid-Schätzer mit einem ausreichend großen γ gegeben [10]. Auf der anderen Seite, da die Sekundärstruktur von Pseudo erwarteten PPV maximiert (Eq. (20) mit PPV)) auf die Sekundärstruktur ist äquivalent dem von (nur) einem Basenpaar besteht, das die höchste Basenpaarungswahrscheinlichkeit hat. (Die Struktur scheint nicht sinnvoll zu sein.) Es sollte beachtet werden, dass beide Strukturen können leicht unter Verwendung der Basis-paring Wahrscheinlichkeitsmatrix der Ziel-RNA-Sequenz berechnet werden. Vorhersage der Sekundärstruktur durch die Maximierung Pseudo erwartet MCC / F-Score mit stochastischen Probenahme (Methode M1) Aufgrund der Rechen Schwierigkeiten bei der Berechnung von "argmax" in Gl. (20) mit MCC und F-Score (siehe "Diskussion" Abschnitt für weitere Details), müssen wir alle Sekundärstrukturen in S (x) zu bewerten. Die Anzahl der Sekundärstrukturen von einer RNA-Sequenz gegeben ist jedoch so groß, dass es nicht praktisch ist, alle von ihnen aufzuzählen. Deshalb beschäftigen wir wieder die stochastische Abtastung von Sekundärstrukturen und annähernd der Schätzer von Gl. (20) σ ^ = arg max σ ∈ S A c c ^ 0 (σ) wobei S eine Reihe von Sekundärstrukturen durch stochastische Abtastung gegeben. Beachten Sie, dass der Rechenaufwand dieses Schätzers ist viel kleiner als der Vorhersagen basierend auf der erwarteten MCC / F-Score zu maximieren. Wenn die Pseudo-erwartete MCC / F-Score ergibt eine gute Annäherung des erwarteten MCC / F-Score und wir verwenden, um eine ausreichend große Stichprobengröße, dann die Schätzer in Gl. (23) sollte eine zuverlässige Annäherung an die Schätzfunktion in Gl. (19), die die erwartete MCC / F-Score maximiert. Vorhersage der Sekundärstruktur mit γ - centroid Schätzer und pseudo erwartet MCC / F-Score (Methode M2) In der γ-Zentroid-Schätzer [10] Gl. (17) in der Software implementiert CentroidFold [32], gibt es ein Parameter γ, die das Gleichgewicht zwischen SEN und PPV einstellt. Es ist jedoch unklar, wie der γ-Parameter auszuwählen, der eine angemessene Struktur erzielt, obwohl es gibt mehrere Situationen, die nur eine Sekundärstruktur vorhergesagt wird, erforderlich. Wie im vorhergehenden Abschnitt beschrieben, können wir die Sekundärstrukturen vorhersagen, die (pseudo-) maximieren SEN oder PPV erwartet, aber die ausgewogene Sekundärstruktur zwischen SEN und PPV wird als jene Strukturen, die in vielen Fällen sinnvoller sein. Gl. (18), die in Form der γ - Zentroid Schätzers entspricht, zeigt an, dass die γ-Zentroid-Schätz willkürlich die Anzahl / Verhältnis der wahren Vorhersagen und die falschen Vorhersagen unter Verwendung der Parameter steuern kann. Durch die Kombination des Pseudo erwartet MCC / F-Score mit der γ-Schwerpunktschätzer, ist es möglich, die ausgewogene Sekundärstruktur zwischen SEN und PPV vorherzusagen, wie folgt. Zunächst berechnen wir die Basenpaarung Wahrscheinlichkeitsmatrix der RNA-Sequenz gegeben, und dann unter Verwendung der γ-Schwerpunktschätzer mit 17 γ-Parameter eine Reihe von Sekundärstrukturen S g x vorhersagen: γ ∈ k. -5 ≤ k ≤ 10, k ∈ ℤ> ∪, die die SEN-PPV-Kurve zu erhalten, die in unseren früheren Papier verwendet wurden [7 10]. Hier ist die Sekundärstruktur des γ-Zentroid-Schätzer mit γ ∈ k. 0 k ≤ 10, k ∈ ℤ> ∪ wird berechnet durch Nussinov-Stil dynamische Programmierung mit, aber die Sekundärstruktur des γ-Schwerpunktschätzer mit γ ∈ k. -5 ≤ k ≤ 0, k ∈ ℤ> kann durch Auswahl aller Basenpaaren, deren Wahrscheinlichkeit größer ist als 1 / (γ + 1) [10] ohne dynamische Programmierung vorhergesagt werden. Zweitens wählen wir die Sekundärstruktur in S g, die die beste Pseudo erwartet MCC / F-Score hat: σ ^ = arg max σ ∈ S g A c c ^ 0 (σ). wo Acc gleich MCC oder F-Score. Der Pseudo erwartet MCC / F-Score von jeder ∈ S g Sekundärstruktur σ berechnet leicht, weil die Basenpaarung Wahrscheinlichkeitsmatrix bereits berechnet worden ist. In diesem Fall wird die γ-Zentroid-Schätzer unter Verwendung besser geeignet als die Verwendung des MEA-basierten Schätzer Vorschlag [7], der auch einen Parameter hat, die das Gleichgewicht zwischen SEN und PPV steuert, weil dieser eine Vorspannung an MCC und F - score (siehe [10] für Details). Ergebnisse Wir haben alle Versuche einer Linux-OS ma-Maschine in Betrieb nehmen, die eine 2 GHz AMD Opteron Modell 246 Prozessor und 4 GB Arbeitsspeicher. Experimentelle Einstellungen Für den Datensatz, wir die S-151Rfam-Datensatz verwendet [7], die 151-RNA-Sequenzen mit Referenzstrukturen enthält, von denen jede aus einer anderen Familie in der Rfam Datenbank aufgenommen wurde [1] Dieser Datensatz in früheren Studien von RNA wurde weit verbreitet Sekundärstrukturvorhersage, zum Beispiel [7. 10. 11]. Für die Wahrscheinlichkeitsverteilung p (θ | x) der Sekundärstrukturen von RNA-Sequenz x. wir haben das CONTRAfold-Modell (Version 2.02) [7] und die McCaskill Modell [16] (in der Wiener RNA-Pack-Age-Version 1.8.3 [14]). Für die Bewertung, beschäftigten wir SEN, PPV, MCC und F-Score in Bezug auf die Basenpaare, die durch die Gleichungen definiert sind. (5), (6), (7) und (8) sind, wobei σ eine vorhergesagte Struktur und θ eine Referenzstruktur. Vergleich zwischen Pseudo erwartete Genauigkeit und erwarteten Genauigkeit In diesem Experiment verglichen wir die Pseudo erwarteten Acc (Gl. (15)) mit der erwarteten Acc (Gl. (13)), wobei Acc SEN, PPV, MCC oder F-Score. Erstens erhalten wir eine Reihe von Sekundärstrukturen aus der S-151Rfam-Datensatz in der folgenden Art und Weise. Für jede RNA-Sequenz in der S-151Rfam-Datensatz, sagten wir voraus, die Sekundärstrukturen der γ-Schwerpunktschätzer mit [10] (in CentroidFold implementiert) mit 17 γ Parameter, γ ∈ k. - 5 ≤ k ≤ 10> ∪ und zwei Modelle (die McCaskill [16] und CONTRAfold [7] Modelle). Dann doppelte Sekundärstrukturen wurden aus der Menge entfernt. Die Menge der Sekundärstrukturen enthält verschiedene Sekundärstrukturen, weil der γ-Schwerpunktschätzer mit kleinen γ eine kleine Anzahl von Basenpaaren prognostiziert und die mit großen γ prognostiziert eine große Anzahl von Basenpaaren [10]. Wie im vorherigen Abschnitt beschrieben wurde, ist es nicht möglich, die erwartete Acc (Eq. (13)) einer bestimmten Sekundärstruktur zu berechnen, da die Anzahl der möglichen Sekundärstrukturen immens. Daher aufgetragen wir eine cc ^ 0 (σ) (dh Pseudo erwartete Acc; Eq. (15)) und einem cc ^ 1 M (σ) (dh erwartete Acc von σ angenähert von 1 M (1.000.000) Proben; Gl . (14) in dem Satz von Sekundärstrukturen für jede σ Sekundärstruktur). Das Ergebnis ist in Abbildung 1 gezeigt, die die Pseudo-erwartete SEN anzeigt, PPV, MCC und F-Score von der vorhergesagten Sekundärstruktur ist eine zuverlässige Annäherung an den erwarteten SEN, PPV, MCC und F-Score, respectively. Die gemittelten quadrierten Fehler der Pseudo erwartet SEN, PPV, MCC und F-Score in Bezug auf das CONTRAfold Modell und dem McCaskill Modell sind in den weiteren Datei 1. Tabelle S1 gezeigt. Vergleich zwischen Pseudo erwartete Genauigkeit und erwartete Genauigkeit. Vergleich zwischen dem pseudo - Erwartete SEN, PPV, MCC und F-Punktzahl (die horizontale Achse) und die erwartete SEN, PPV, MCC und F-Punktzahl, die durch stochastische Abtastung mit einer Probengröße von n = 1 M (die vertikale berechnet werden Achsen). Wir haben das McCaskill Modell (obere Reihe) und die CONTRAfold Modell (untere Reihe). Die 1., 2., 3. und 4. Spalten zeigen SEN, PPV, F-Score und MCC sind. Siehe Zusätzliche Datei 1. Abbildung S1 und Abbildung S2 für andere Probengrößen. Die Ergebnisse der Sekundärstrukturvorhersage durch die Maximierung Pseudo erwartete Genauigkeit Wir haben die Versuche an RNA Sekundärstrukturvorhersage durch die Pseudo erwartet MCC / F-Score von der vorhergesagten Sekundärstruktur mit stochastischen Abtastung zu maximieren (der Schätzer in Gl. (23)). Beachten Sie, dass die Ergebnisse in dem vorangegangenen Abschnitt zeigen, dass die Schätzfunktion von Gl. (23) mit einer ausreichend großen Probengröße ist eine gute Annäherung an die Schätzfunktion von Gl. (19), die die erwartete MCC / F-Score maximiert. Die Ergebnisse sind in Abbildung 2 (MCC) und zusätzliche Datei 1. Abbildung S1 (F-Score) gezeigt. Da die Probengröße erhöht wird, um die Leistung der Vorhersage des Schätzers in Gl. (23) konvergiert, um die Punkte auf der SEN-PPV Kurven des γ-Zentroid-Schätzer [10] und günstige MCC / F-Werte wurden erzielt (Tabelle 1). Auf der anderen Seite brauchen wir eine große Anzahl von Sekundärstrukturen zu probieren (mehr als 1 Million), um die Sekundärstruktur zu erhalten, die eine gute MCC / F-Score hat. Die Berechnungszeit des Schätzers von Gl. (23) erhöht sich linear mit der Probenmenge (Tabelle 2). Das Ergebnis zeigt auch, dass es schwierig ist, die Leistung des γ-Zentroid-Schätzer zu verbessern, auch wenn wir den Schätzer von Gleichung einzusetzen. (19), das heißt, Maximierung des MCC / F-Score erwartet. Durchführung von RNA-Sekundärstruktur Vorhersage durch die Pseudo erwartet MCC mit dem stochastischen Probenahme zu maximieren (Methode M1). Durchführung von RNA-Sekundärstrukturvorhersage von "X-Max-pMCC (N)" bedeutet die Schätzer von Gl. (23) mit dem Modell X und Anzahl der Proben N in Bezug auf MCC. In der Figur haben wir aufgetragen auch die SEN-PPV Kurven des γ-Schwerpunktschätzer [10] mit dem CONTRAfold Modell ( "CONTRAfold-gCentroid", die schwarze Linie) und mit dem McCaskill Modell ( "McCaskill-gCentroid", die graue Linie). Die Punkte und die Kurve in grau und die in schwarz zeigen den McCaskill [16] und CONTRAfold [7] Modelle sind. Siehe Zusätzliche Datei 1. Abbildung S3 in den Zusatzpapier für die Ergebnisse der F-Score. SEN, PPV, MCC und F-Score für jede Vorhersage-Algorithmus Gesamtrechenzeit in Sekunden für Sekundärstrukturen aller RNA-Sequenzen in der S-151Rfam-Datensatz vorherzusagen. Die erste Zeile gibt die γ-Schwerpunktschätzer [10] mit einem festen γ-Parameter (1 für McCaskill Modell und 2 für CONTRAfold-Modell). Die zweite Reihe zeigt die Vorhersage von RNA-Sekundärstruktur mit der γ-Schwerpunkt-Schätzer und pseudo erwartet MCC (Methode M2). "Max-pMCC (N)" vom 3. bis 6. Reihen zeigen die Schätzer von Gl. (23), das heißt, RNA Sekundärstrukturvorhersage von mit stochastischen Probenahme Pseudo erwarteten MCC maximiert (Methode M1), wobei N die Anzahl der Proben ist. Es sollte beachtet werden, dass die Leistung des Schätzers, der die Pseudo erwarteten SEN (PPV) entspricht der am weitesten links stehende (äußerst rechten) Punkt in der SEN-PPV Kurve der γ-Zentroid Schätzern maximiert. Die Ergebnisse der Sekundärstrukturvorhersage mit γ - Schwerpunkt Schätzer und pseudo erwartete Genauigkeit Figur 3 zeigt die Leistung von RNA Sekundärstrukturvorhersage mit dem γ-Zentroid Schätzer und dem pseudo-erwartete MCC / F-Score (Methode M2). Wenn das McCaskill Modell verwendet wird, ist Methode M2 ​​geringfügig schlechter als der γ-Zentroid-Schätzer. Allerdings ist die Leistung der Methode M2 ​​mit dem CONTRAfold Modell etwas besser als die Leistung des γ-Schwerpunktschätzer mit dem CONTRAfold Modell. (Ein Beispiel für beide pre-hersagen ist in der Zusätzlichen Datei 1. Abbildung S5 gezeigt.) Durchführung von RNA-Sekundärstrukturvorhersage mit dem γ-Schwerpunktschätzer und dem Pseudo erwartet MCC / F-Score (Methode M2). Durchführung von RNA-Sekundärstrukturvorhersage mit dem γ-Schwerpunktschätzer und dem Pseudo erwartet MCC (F-score) (der Schätzer Gleichung (24) mit MCC (F-Score.), Methode M2); "X-gCentroid-pMCC" ( "X-gCentroid-pF"), wobei X die McCaskill oder CONTRAfold Modell. Die Kurven (X-gCentroid) zeigen die Leistung des γ-Zentroid-Schätzer [10] mit dem McCaskill Modell und dem CONTRAfold Modell. Zum Vergleich haben wir geplottet auch die Leistung RNAfold [14], Sfold [5] und Simfold [11] (rote Punkte). Siehe Zusätzliche Datei 1. Abbildung S4 für Aufführungen von MEA Schätzern verwendet in Do et al. [7]. Es ist auch viel besser als die Leistung von RNAfold, Sfold und Simfold, die alle eine einzige Vorhersage zurück. Beachten Sie, dass Verfahren M2 mit einem festen Wahrscheinlichkeitsmodell (zum Beispiel das McCaskill Modell oder das CONTRAfold Modell) in der Regel Leistung erreicht, die für jede γ-Wert von dem des γ-Schwerpunktschätzer mit dem gleichen Modell unterscheidet. Dies liegt daran, Verfahren M2 automatisch die Sekundärstruktur mit der besten Pseudo erwartet MCC / F-Ergebnis aus einem Satz von Sekundärstrukturen durch das γ-Zentroid-Schätzer 17 γ angegebenen Werte auswählt, während jeder Punkt in einer SEN-PPV-Kurve des γ - Schwerpunkt Schätzer kommt von einem festen γ-Wert. Tabelle 2 zeigt, dass die Rechenzeit der Methode M2 ​​ist viel kürzer als für Methode M1. Dies, weil wir jede stochastische Abtastung in Methode M2 ​​nicht ausführen müssen. In Figur 3 wir geplottet auch die Leistung Sfold [5], Simfold [11] und RNAfold [14] (die Punkte in Rot). Die Ergebnisse zeigen, dass die Sekundärstruktur vorhergesagt durch das Verfahren M2 bessere Genauigkeit als die Verfahren erreicht. Der Vergleich zwischen den zweiten und dritten Reihen in der Tabelle 2 zeigt an, dass für die Berechnung der Schätzfunktion der Methode M2, verglichen mit dem γ-Zentroid-Schätzer mit einem festen Parameter γ [10] nur geringen Overhead ist. Die Gründe dafür können wie folgt zusammengefasst werden. Der CYK-Typ-Algorithmus der Nussinov Stil dynamischen Programmierung für eine konsistente RNA Sekundärstruktur der Berechnung ist schneller als die Inside-Outside-Typ-Algorithmus zur Berechnung der Basenpaarung Wahrscheinlichkeitsmatrix in der γ-Schwerpunktschätzer, obwohl beide Algorithmen haben die gleiche Rechenkomplexität. Darüber hinaus brauchen wir nicht mit γ ≤ 1 die CYK-Typ-Algorithmus für die γ - Schwerpunkt Schätzer zu beschäftigen, weil wir nur die Basenpaare, deren Basenpaarung Wahrscheinlichkeit größer ist als 1 / (γ + 1) wählen Sie [10]. Auch die Berechnung der Pseudo erwartet MCC / F-Wert von einer gegebenen Sekundärstruktur ist schnell genug, wenn die Basenpaarungswahrscheinlichkeit Matrix vorab berechnet wird. Zusammengefasst durch die Pseudo erwartete Genauigkeit mit der γ-Schwerpunktschätzer Kombination erwarten wir erfolgreich auf die ausgewogene Sekundärstruktur zwischen SEN und PPV (mit Overhead klein CentroidFold Vergleich) und die Leistung (mit CONTRAfold Modell) ist besser als die von RNAfold, Simfold, Sfold und CentroidFold. Diskussion und Schlussfolgerung In dieser Studie haben wir die Pseudo - Erwartete Genauigkeit (in Bezug auf allgemein Genauigkeit Maßnahmen in der RNA-Sekundärstruktur Vorhersage verwendet: Empfindlichkeit, PPV, MCC oder F-Score) einer bestimmten RNA-Sekundärstruktur unter einer Wahrscheinlichkeitsverteilung möglicher Sekundärstrukturen . Die pseudo-erwartete Genauigkeit kann viel leichter als die erwartete Genauigkeit berechnet werden, da sie die Basenpaarungswahrscheinlichkeitsmatrix der RNA-Sequenz berechnet wird, verwendet wird. Obwohl die Pseudo-erwartete Genauigkeit einer bestimmten Sekundärstruktur nicht gleich der erwarteten Genauigkeit der Struktur ist, haben unsere computational Experimente zeigten, dass die pseudo-erwartete Genauigkeit einer bestimmten Sekundärstruktur eine gute Näherung der erwarteten Genauigkeit der Struktur ist, wenn SEN, PPV, MCC und F-Score wurden als die Genauigkeit mea-sicher verwendet. Dieser Befund ist einer der Beiträge dieser Studie, die nicht in früheren Forschungen berichtet. Basierend auf dieser Erkenntnis haben wir die ungefähren Schätzfunktion, die die Pseudo-erwartete Genauigkeit einer Vorhersage durch stochastische Abtastung maximiert, die günstige Genauigkeit in unseren Experimenten computational erreicht. Obwohl die Berechnungskosten dieses Schätzers viel kleiner als der Schätzfunktion ist, die die erwartete Genauigkeit maximiert, ist es immer noch unannehmbar langsam. Daher schlugen wir dann die Kombination der pseudo-erwartet MCC / F-Score und der γ-Zentroid-Schätzer, der eine gut ausgewogene Sekundärstruktur mit kleinen Rechenaufwand erzeugt. Die rechnerische Experimente zeigen, dass dieser Ansatz die beste Genauigkeit bei state-of-the-art-Tools erreicht. Um die γ-Schwerpunktschätzer in Methode M2 ​​beschäftigen, ist geeignet, da die γ-Schwerpunktschätzer der Lage ist, eine sekundäre Strukturen mit einer beliebigen Balance zwischen dem erwarteten TP darstellen, TN, FP und FN durch den Parameter γ eingestellt (siehe Gl. (18 )). Dies ist jedoch nicht beweisen, dass es existiert immer ein γ, so dass die γ-Schwerpunktschätzer die besten Pseudo erwartet MCC oder F-Punktzahl erreicht. Man beachte, dass die Kombination der pseudo-erwartet MCC / F-Score mit dem MEA-basierten Schätzer Vorschlag [7] nicht geeignet ist, weil die Schätzfunktion eine Vorspannung an MCC und F-Score hat, im Vergleich zu dem γ-Zentroid-Schätzer [10 ]. Obwohl der Handel-ff zwischen SEN und PPV inhärent ist, und MCC oder F-Score ist nicht immer die beste Wahl des Qualitätsmaßes für vorhergesagten Sekundärstrukturen kann das vorgeschlagene Verfahren (Verfahren M2) anwendbar sein, wenn nur eine einzige Struktur erforderlich ist. Der Pseudo erwartet MCC / F-Score wird auch als Ranking-Maßnahme von mehreren vorhergesagten Sekundärstrukturen eingesetzt. Hinweise zur Terminologie: "maximal zu erwartende Genauigkeit" Wie wir in der Einleitung Abschnitt, der Begriff "Maximum (Maximierung) erwartete Genauigkeit" (MEA) beschrieben wurde in einer Reihe von früheren Studien verwendet worden [6. 7. 10. 26] sowie dieser Studie. Aus mathematischer Sicht ist die MEA (Schätzer) ist ein (Punkt) Schätzer wie folgt beschrieben. Bei einer prädiktiven Raum Y, die alle möglichen Kandidatenlösungen der Zielproblem enthält, eine Funktion Acc (θ, y) für θ ∈ Y und y ∈ Y. und eine Wahrscheinlichkeitsverteilung p (θ | D) auf Y-Daten D gegeben. dann der Schätzer y ^ = arg max y ∈ Y ∫ A c c (θ y.) p (θ | D) d θ ist vorgestellt. Wenn dieses Schätzers a "maximal erwartete Genauigkeit" bezeichnet wird (MEA) Schätzer, Acc (θ, y) gleich einer Genauigkeit measure (oder ist nach einer Genauigkeitsmessung) für eine Referenz θ und einer Prädiktion y. Dies bedeutet auch, dass p (θ | D) wird als eine Wahrscheinlichkeitsverteilung von Referenzen zu sein. die ist irreführend, weil p (θ | D) in der Regel nicht die Verteilung darstellen. In RNA Vorhersage der Sekundärstruktur, zum Beispiel, bietet das McCaskill Modell nicht eine Wahrscheinlichkeitsverteilung von Referenzsekundärstrukturen, sondern ein vollständiges Ensemble möglicher Sekundärstrukturen [16]. Der Schätzer von Gl. (25) mit einem gut gestalteten Funktion Acc (θ, y) nach Genauigkeits Maßnahmen für ein Zielproblem und eine Wahrscheinlichkeitsverteilung p (θ | D) von Lösungen erzielt empirisch bessere Leistung als andere Schätzern wie der Maximum-Likelihood-Schätzeinrichtung und die Zentroid-Schätzer (dh den Schätzern, die das erwartete Hamming Differenz minimieren) in RNA Sekundärstrukturvorhersagen [7. 10] und in Ausrichtungen für biologische Sequenzen [25]. Die Schwierigkeit der Rechen Gl. (20) mit MCC und F-Score Gl. (20) mit MCC und F-Score kann wie folgt umgeschrieben werden y ^ = arg max σ ∈ S (x) Σ i j I (σ i j = 1) und y ^ = arg max σ ∈ S (x) 2 × Σ i j p i j. beziehungsweise. Beachten Sie, dass Gl. (26) ist eine Annäherung der Gl. (20) mit MCC da TN (d. h. die Zahl der richtig-negativ Basenpaare) ist viel größer als die anderen in RNA Sekundärstrukturvorhersagen. Die Nenner in beiden Gleichungen verhindern Division dieses Optimierungsproblem in Teilprobleme, die einen dynamischen Programmieralgorithmus zu entwerfen erforderlich ist, und daher keine effiziente Algorithmen Gln zu berechnen. (26) und (27) sind noch entwickelt worden. Man beachte, dass die "argmax" - Operation für Nur der Zähler effizient durch dynamische Programmierung gelöst werden [33]. (Diese Beobachtung beweist nicht, dass es für die Berechnung der Gleichung nicht effizient (Polynomzeit) Algorithmus existiert. (20) mit MCC und F-Score.) Die vorgeschlagenen Verfahren sind erweiterbar auf andere Situationen Wir können die Pseudo erwartet ac-curacy für gemeinsame Sekundärstrukturvorhersage von multiplen Alignments von RNA-Sequenzen einzuführen, da es mehrere Wahrscheinlichkeitsverteilungen für die gemeinsamen Sekundärstrukturen sind, beispielsweise das Modell RNAalifold [34 35] und der PFOLD Modell [36]. Auch kann der γ-Schwerpunktschätzer gemeinsame Sekundärstruktur Vorhersage verlängert werden [10], und die Pseudo erwartet MCC / F-Score mit dem Schätzer kombiniert ist nützlich, um die gemeinsame Sekundärstruktur vorherzusagen, die zwischen SEN und PPV ausgleicht (siehe [ 37]). Kürzlich, Lu et al. [6] vorgeschlagen, die entspannte SEN, PPV und MCC, wo Schlupf von Basenpaar-al-lowed ist es, diese Maßnahmen bei der Berechnung. Es ist möglich, die γ-Schwerpunkt-Typ-Schätzer zu entwerfen, die mit diesen Maßnahmen passt und auch Pseudo erwartete Genauigkeit dieser Maßnahmen einzuführen. Erklärungen Danksagungen Autoren Original vorgelegt Dateien für Bilder Hier sind die Links zu den Original eingereichten Dateien für Bilder der Autoren. Referenzen Copyright Dieser Artikel ist unter der Lizenz von BioMed Central Ltd. veröffentlicht Dies ist ein Open Access-Artikel unter den Bedingungen der Creative Commons Attribution License (Creative. Org / Lizenzen / von / 2. 0), die uneingeschränkte erlaubt Verwendung, Verbreitung und Vervielfältigung in jedem Medium, sofern die ursprüngliche Arbeit richtig zitiert.


magasinloos.blogspot.com


No comments:

Post a Comment