Neue Methode bei der Suche nach Deletionen und Duplikationen im menschlichen Genom

Eine neue machine-learning-Verfahren genau identifiziert Regionen des menschlichen Genoms, wurden dupliziert oder gelöscht werden—bekannt als copy number Varianten sind oft mit Autismus und anderen Entwicklungsstörungen Störungen. Die neue Methode, entwickelt von Forschern an der Penn State, integriert die Daten aus mehreren algorithmen, die versuchen zu identifizieren copy number Varianten von exome-sequencing-Daten—high-throughput-DNA-Sequenzierung nur die protein-kodierenden Regionen des menschlichen Genoms. Ein Papier beschreibt die Methode, mit deren Hilfe ärzte eine genauere Diagnosen für genetische Krankheiten, die erscheint in der Juli-Ausgabe der Zeitschrift Genome Research.

„Exom-Sequenzierung wird schnell zu der gold-standard für die Identifizierung von genetischen Variationen in den klinischen Einstellungen, weil es schneller und weniger teuer als andere Methoden“, sagt Santhosh Girirajan, außerordentlicher professor von Biochemie und von Molekularbiologie an Penn State und führen Autor des Papiers. „Allerdings sind die aktuellen algorithmen für die Identifizierung von copy number variation von exom-Sequenzierungs-Daten leiden unter den sehr hohen falsch-positiv-raten—viele der Varianten, die Sie identifizieren, sind nicht wirklich real. Mit unserer neuen Methode namens „CN-Lernen,“ rund 90 Prozent der copy number Varianten berichten wir real sind.“

Das menschliche Genom enthält im Allgemeinen zwei Kopien von jedem gen, eines auf jedes Mitglied ein Chromosom-paar. Wenn eine Zelle sich teilt in zwei, das Genom repliziert wird, so dass jede der beiden Tochterzellen erhält einen kompletten Satz an Genen, aber gelegentlich treten Fehler während der Genom-Replikation, die, wenn anwesend in einer Sperma-oder Eizelle, kann führen zu einer individuellen, immer mehr oder weniger als zwei Kopien des Gens.

Zu identifizieren copy number Varianten von exome-sequencing-Daten, die Forscher betrachten die relative Menge der DNA-Sequenzen hergestellt, die aus jeder gen. Wenn es nur eine Kopie eines Gens in einem einzelnen, Sie erwarten, um zu sehen, weniger Sequenzierung liest, als wenn es zwei Kopien, und drei Kopien eines Gens würden dazu führen, dass mehr liest. Aber es ist nicht ganz so einfach, da eine Reihe von anderen Faktoren können beeinflussen, wie viele Sequenzierung liest erzeugt aus jeder gen. Forscher haben deshalb entwickelte mehrere algorithmen, um zu versuchen, richtig zu identifizieren, copy number Varianten von exome-sequencing-Daten. Individuell, aber diese algorithmen sind nicht besonders zuverlässig.

„Im Allgemeinen, der hohen Anzahl von false positives, die von copy-number-Variante algorithmen behandelt wurde durch die Verwendung mehrerer algorithmen, und nur das zählen der Varianten identifiziert, die von allen Methoden, die—wie ein Venn-Diagramm“, sagte Vijay Kumar Pounraja, ein student an der Penn State und der erste Autor des Papiers. „Dieser Ansatz hat mehrere Nachteile und Einschränkungen, so dass wir beschlossen, die Entwicklung einer neuen machine-learning-Verfahren statt.“

CN-Lernen integriert die Daten aus vier verschiedenen copy-number-Variante algorithmen und verwendet eine kleine Gruppe von biologisch validiert Deletionen und Duplikationen zu lernen, die Unterschriften dieser genomische Ereignisse. Dieser Lernprozess wird erleichtert durch ein machine-learning-Algorithmus genannt Random Forest, die die Verwendung von Hunderten von Entscheidungsbäumen zur Modellierung der Beziehung zwischen den genetischen Zusammenhang von Deletionen und Duplikationen, und die Wahrscheinlichkeit, dass Sie validiert sind. CN-Lernen, dann verwendet dieses Modell, um vorherzusagen, Deletionen und Duplikationen in anderen Proben ohne Validierungen.