YFull – Erste Schritte

Löse Dein Y-Chromosom Puzzle mit Yfull!

Yfull ist kein Anbieter von Y-DNA- oder NGS Tests, sondern ein Analyse Service für NGS mit einer Datenbank, in der Daten von NGS Tests, unabhängig vom Anbieter, verglichen und analysiert werden. Dadurch kann man die Ergebnisse von derzeit 13 Quellen miteinander vergleichen. (Kommerzielle Anbieter und wissenschaftliche Studien) Siehe: phylogeographer.com/yfull-cost-benefit-analysis. Die Darstellung der Ergebnisse erfolgt in Form eines Y-Baumes in unterschiedlichen Darstellungen. Die Kits werden anonymisiert dargestellt und der Y-Baum (sowie mt-Baum) ist für jeden öffentlich zugänglich. Dadurch ist dieser nicht nur eine Bereicherung für die Teilnehmer, sondern für jeden, der sich mit dem Thema Y-Baum (sowie mt-Baum) befasst.

1.0 Bestellung der Analyse

  • Vorbereitung: Man lädt die Rohdaten des NGS Tests nicht selber zu Yfull hoch, sondern gibt an, wo diese runtergeladen werden können. Den link hierfür bekommt man beim Anbieter, bei dem man seinen Test gemacht hat. (FTDNA, YSEQ, FGC). Firmen wie Dante Labs bieten solch einen link für Yfull nicht direkt an, so dass man die benötigte Datei über eine Cloud zugänglich machen muss. Eine einfache Anleitung hierzu gibt es unter: Vorbereiten der BAM Datei für YFull
  • Gehe auf die Seite von Yfull und bestelle die Analyse für $49: https://www.yfull.com/order/
  • Die Auswahl von VCF als Datenformat ist nur für FTDNA BigY möglich. Das bevorzugte Datenformat ist BAM. Bei anderen Anbietern ist nur dies auswählbar.
  • Gebe den Anbieter für den Test an.
  • Gebe die URL zu Deiner BAM Datei an.
  • Unter „Comment“ kannst Du dem Yfull Team zusätzliche Informationen zukommen lassen. Dies ist besonders dann Wichtig, wenn man mehrere Kits vom gleichen Teilnehmer übermittelt. (z.B. This is an upgrade of BigY-500 kit YF0815)
  • Order Now!

Man bekommt sogleich eine Bestätigungsemail:

Hello! Your order will be verified by the manager. If the raw data link is correct, your
analysis will be batched. Login and password for new clients to access the site
will be sent. Notification for payment will be sent after completion of the
interpretation. Thanks.

2.0 Analyse der Rohdaten – Der zeitliche Verlauf

2.1 Die SNP Analyse – Gespendete Kits

Nun ist erst mal warten angesagt. Wenn der link funktioniert, wird die Analyse gestartet und man bekommt Zugangsdaten und die „YF-Nummer“ für das Kit. Das kann einige Stunden, aber auch wenige Tage dauern. Die Zahlung, mit der alle Funktionen freigeschaltet werden, erfolgt erst *nach* der Analyse.

Einige Tage später wird das Kit im Y-Baum mit einer vorläufigen Position platziert. Die YF-Nummer ist grau und ein kleiner Kasten mit „new“ befindet sich hinter dem Kit. Die genaue Position bekommt man erst nach der Analyse und dem Update des Baumes (Die Analyse dauert etwa vier Wochen).

2.1.1 Einstellungen:

Man kann und sollte nun einige Einstellungen vornehmen. (Schaltfläche „Settings“, rechts oben).

Account Settings:

  • COUNTRY OF ORIGIN = Herkunftsort des ältesten bekannten Vorfahren in väterlicher Linie (Tab Y).
  • MOST DISTANT ANCESTOR = Ältester bekannter Vorfahre in väterlicher Linie (Tab Y).
  • USERNAME = Name des Teilnehmers oder Spitzname für dieses Kit. Diese Information erleichtert die Auswahl, falls man mehre Kits administriert oder an Gruppen teilnimmt.

Sharing Settings:
Hier kann man die Ergebnisse mit Yfull Teilnehmer teilen, die sich diese dann ansehen dürfen. Dies ist besonders dann interessant, wenn man sich von einem Freund die Ergebnisse erklären lassen will. Um die Ergebnisse mit einem anderen Yfull Teilnehmer zu teilen, schickt man eine Einladung an die Emailadresse, mit der dieser bei Yfull angemeldet ist.

2.1.2 Nutzbare Funktionen in diesem Stadium:

Zwei Funktionen kann man verwenden, solange man auf die Ergebnisse wartet. „Browse raw data“ und „Statistics“.

Mit Hilfe von „Browse raw data“ kann man die Rohdaten untersuchen und einzelne ChrY und ChrM Positionen abfragen. Mit etwas Übung und Kenntnisse über die „novel Variants“ der anderen Teilnehmer, kann man seine terminale SNP ermitteln. (Diese Funktion ist Vergleichbar mit Funktion 3.1.4 Check SNPs)

Auf „Statistics“ erhält man eine kleine Statistik bezüglich der Qualität der Rohdaten.  Die Abbildung zeigt die Statistiken von zwei Männern (TMRCA 50 ybp). Big Y-500, gleicher Mann upgrade zu Big Y-700, Cousin fünften Grades WGS bei Dante Labs.

Abb. 4, NGS-coverage-positive-nocalls
Abb. 1: NGS, coverage – positive – nocalls

2.1.3 Ergebnisse Freischalten, oder „Kit spenden“.

Nach etwa vier Wochen ist der erste Teil der Analyse abgeschlossen und man kann durch die Zahlung die Ergebnisse freischalten lassen. Es besteht jedoch auch die Möglichkeit ein Kit zu „spenden“. Hier erfolgt nur die SNP Analyse, ohne STR Analyse, und das Kit nimmt nicht an der Altersbestimmung teil. Ich persönlich sehe für mich keinen Grund dies zu tun, da ich an der gesamten Analyse interessiert bin. Dennoch ist das ein Zugewinn für den Y-Baum und die Projekte, wenn Leute mit begrenztem Interesse (z.B. WGS Tester mit Fokus auf Gesundheit) auf diese Weise ihre Kits beisteuern.

2.2 Nach der Freischaltung: STR Analyse und Altersbestimmung

Nach der Zahlung der einmaligen Gebühr von $49 werden alle Funktionen freigeschaltet und die STR Analyse und die Altersbestimmung wird angestoßen. Die STR Analyse dauert ein paar Tage. Die Altersbestimmung erfolgt kurz vor dem nächsten update des Baumes, so dass dies einige Wochen dauern kann. Alle anderen Funktionen sind sofort Nutzbar, man sollte sich aber bewusst sein, dass  sich bezüglich der neuen SNPs, bis zum nächsten update des Baumes noch einiges tut.

2.2.1 Hochladen von STR Werten

Hat man zusätzlich zum NGS Test, bei FTDNA oder YSEQ, einen Y-STR Test durchgeführt, so kann man die STR-Werte hochladen. https://www.yfull.com/ls-upload-strs/ STR-Werte, welche nicht aus den NGS Rohdaten extrahiert werden können, werden auf diese Weise hinzugefügt.

2.2.2 Hochladen der MT FASTA Datei

Ein WGS beinhaltet neben dem gesamten Y-Chromosom zusätzlich die gesamte mtDNA, so dass man zusätzlich beim Yfull mt-Baum hinzugefügt wird. Hat man mit einem NGS ohne mtDNA teilgenommen, kann man seine FASTA Datei zusätzlich hochladen. https://www.yfull.com/mt-upload-list/

Man kann und sollte nun einige Einstellungen vornehmen. (Schaltfläche „Settings“, rechts oben).

Account Settings:

  • COUNTRY OF ORIGIN = Herkunftsort der ältesten bekannten Vorfahrin in mütterlicher Linie (Tab mtDNA).
  • MOST DISTANT ANCESTOR = Älteste bekannte Vorfahrin in mütterlicher Linie (Tab mtDNA).
  • USERNAME = Name des Teilnehmers oder Spitzname für dieses Kit. Diese Information erleichtert die Auswahl, falls man mehre Kits administriert oder an Gruppen teilnimmt.

2.2.3 Teilnahme an YFull Gruppen

Schaue Dir die Liste mit den Yfull Gruppen an https://www.yfull.com/groups/list/ und trete der Gruppe bei, die zu Deiner Haplogruppe passt.

2.3 Die Positionierung im Y-Baum

Man bekommt erst eine Vorläufige Position. Nach erfolgreicher SNP Analyse und update des Baumes bekommt man die nächste „Vorläufige“ Position. Welche Positionen man einnehmen kann, wurde bereits in NGS – Nimm Teil am Y-Baum beschrieben. Die endgültige Position im Y-Baum erhält man „nie“, da der Y-Baum lebt. Mit jedem weiteren Kit auf den relevanten Ästen, kann sich die Form des Baumes verändern.

3.0 YFull Funktionen

Es lohnt sich mit dem Mauszeiger über die Yfull Oberfläche zu fahren und selbst zu erleben, welche Informationen und Verknüpfungen durch die Schaltflächen verbunden sind.

3.1 SNPs

3.1.1 Hg and SNPs

Hier werden alle SNPs aufgezählt, die positiv getestet wurden, wahrscheinlich positiv, oder No Calls sind. Der grüne Kasten zeigt Deine terminale SNP, bzw. die Benennung des Blocks Deiner terminalen SNPs (hier I-Y158862). Darunter befinden sich hintereinander alle terminale SNPs dieses Blocks (hier A23501/BY182855 und BY182587/Y158862).

Abb.2: Haplogruppe und SNPs

Unter „Known SNPs“> Positive, sind alle SNPs aufgelistet, die bei diesem Kit positiv getestet wurden und „bekannt“ sind. Das sind die SNPs, welche vorher schon in anderen Kits gefunden wurden. Yfull bewertet die Qualität dieser SNPs mit einem internen Sternsystem.

Auf Abb. 2 sieht man, wie diese Ansicht aussieht, kurz bevor neue Zweige gebildet werden.
Y158878 • BY183648, level I-Y158878, terminal new, fünf Sterne.

  • Y158878 und BY183648 sind zwei unterschiedliche Benennungen für die gleiche SNP.
  • Level I-Y158862 gibt den Block an, zu dem diese SNP (noch) gehört.
  • „Terminal new“ lässt erkennen, dass etwas im Gange ist. Diese SNPs werden erst seit kurzem mit einem anderen Kit geteilt und befanden sich vorher noch unter „Novel SNPs“. Nach dem nächsten update des Baumes werden diese SNPs den neuen Block, der terminalen SNPs ergeben.
  • Fünf Sterne haben nur die oberen zwei SNPs. Eine dieser zwei SNP wird wahrscheinlich für die Benennung dieses neuen Blocks verwendet.
  • SNPs mit dem Zusatz „private“ sind meistens SNPs mit niedriger Qualität, die bereits in mehreren Kits gefunden wurden.

Klickt man auf die Lupe vor den SNPs, sieht man eine Ansicht mit mehr Informationen zu der jeweiligen SNP in einem Kit. (siehe 3.1.4)

3.1.2 Neue SNPs

Die Novel SNPs sind SNPs die nur in Deinem Kit gefunden wurden. Diese werden in fünf Kategorien unterteilt. „Best qual“ und „Acceptable qual“ haben sehr gute oder ausreichende Qualität. „Ambigous qual“ und „Low Qual“ haben nur mäßige Qualität. Man kann sich nicht darauf verlassen, dass diese tatsächlich positiv sind, da sie entweder nicht oft genug gelesen wurden, oder keine eindeutigen Ergebnisse vorweisen. Es ist Empfehlenswert diese bei YSEQ mit „Wish a SNP“ bestellbar zu machen und diese auf ihre Richtigkeit hin zu überprüfen. Mehr zu diesem Thema hier: Bestimme die Verwandtschaft in rein väterlicher Linie, mit bekannter terminaler SNP und privaten SNPs aus NGS.

SNPs, die bei YSEQ bestellbar sind, werden bei Yfull mit einem kleinen Schild gekennzeichnet. Erscheint dieses orange, so wurde diese noch nie positiv getestet. Ein grünes Schild steht für bereits positiv getestete SNPs. Fährt mit der Maus auf dieses Schild erfährt man, wie oft diese getestet wurde. Dieses Schild wird uns noch öfters begegnen.

Abb. 3: Neue SNPs

Klickt man auf die Lupe vor den SNPs, sieht man eine Ansicht mit mehr Informationen zu der jeweiligen SNP in einem Kit. (siehe 3.1.4)

Klickt man auf das blaue „.BAM“ Feld öffnet sich ein Y-Browser.

3.1.3 SNP Matches

Diese Ansicht zeigt die SNP Treffer, wie man diese auch auf dem Y-Baum sieht. Man erhält aber noch etwas mehr Information zum Teilnehmer. Zum Einen, den „Most Distant Ancestor“ und zum Zweiten die Information, welche SNPs man tatsächlich teilt und welche SNPs man nur Wahrscheinlich teilt.

3.1.4 Check SNPs

Diese Funktion ähnelt dem vorher erwähnten „Browse raw data“. Hier kann man jedoch den Namen der SNPs eingeben. Am rechten Rand sieht man auf Anhieb, ob die SNP positiv oder negativ getestet wurde. (Das grüne Schild hinter I-L38 steht für „Verified by Sanger Sequencing, YSEQ tested“.)

Abb. 4: Check SNPs

Klickt man auf die Lupe vor den SNPs, sieht man eine Ansicht mit mehr Informationen zu der jeweiligen SNP in einem Kit.

Abb. 3, Position-L38
Abb. 5: Position-L38

Hier erfährt man die ChrY position (Hg19) und (Hg38) für diese SNP, sowie in welchem Bereich des Y-Chromosoms diese liegt. „Reads“ gibt an, wie oft diese gelesen wurde.
Die ChrY position (Hg38) für L38 ist 13556190 im Bereich Yq11.221. Diese wurde bei diesem Kit 38 Mal gelesen und ergab 38 Mal „G“. Die Referenz hat an dieser Stelle „A“. Die bekannten SNPs an dieser Position sind S154/L38 von A zu G, „Verified by Sanger Sequencing, YSEQ tested“, 5 Sterne Rating, YF= in Yfull Datenbank, YB=in ISOGG YBrowse Datenbank.
Reference sequence (100bp) zeigt, welche Werte die Referenz 50 Basen vor und 49 Basen nach dieser Position hat.

3.1.5 Age Estimation

Die Altersbestimmung eines Zweiges basiert auf die positiven SNPs aller Samples. Auf der Übersicht sieht man gut, welchen Einfluss das eigene Kit auf die Altersbestimmung aller Samples hat. Den weiteren Reitern kann man entnehmen, welche SNPs für die Altersbestimmung genommen wurden und welche, wieso, nicht genommen wurden. Eine genaue Beschreibung zur Methode bekommt man, wenn man den link unter der Tabelle folgt. What is YFull’s age estimation methodology?

Abb. 6: Altersbestimmung

3.1.6 Upgrades

Es gibt zwei Upgrade Möglichkeiten. Dies gilt *nur* für unterschiedlich aufbereitete Rohdaten des gleichen Tests. (Ein „upgrade“ von Big Y-500 auf Big Y-700 ist kein upgrade, sondern ein neuer Test.)

  • Upgrade der Analyse von eines BigY, vom Rohdatenformat VCF zu BAM. Dieses Upgrade ist kostenlos und ist Empfehlenswert, da nur die BAM alle Informationen für eine umfassende Analyse beinhaltet.
  • Upgrade der Analyse von einem NGS, von Hg19 zu Hg38. Dieses Upgrade ist zwar möglich, eine Empfehlung dies zu tun gibt Yfull nicht.

Für jedes Upgrade, welches man durchgeführt hat, bekommt man einen Vergleich der Ergebnisse für:

  • Known SNPs
  • Novel SNPs
  • STRs
  • Statistics

3.1.7 Comparisons

Hat eine Person mehrere Tests durchgeführt, z.B. Big Y-500 vs. Big Y-700 oder Big Y-500 vs. WGS YSEQ, kann man die Ergebnisse hier vergleichen. Diese sind:

  • Known SNPs
  • Novel SNPs
  • STRs
  • Statistics

3.1.8 YReport

Dies ist eine Übersicht aller positiven SNPs eines Kits vom Y-Adam, bis hin zum Tester. Man sieht auf einen Blick, welche SNPs gelesen wurden, welche No Calls oder „Ambigous“ sind. Das auswählen der SNP zeigt uns das Fenster, welches wir bereits von 3.1.4 kennen, mit den Werten zu dieser SNP.

3.2 STRs

Die Rohdaten von NGS enthalten nicht nur Informationen zu SNPs. Yfull kann bis zu 780 STRs auslesen und bietet zusätzlich ein paar nette Funktionen.

3.2.1 STR results

Hier sind die 780 STRs aufgelistet. Die unterschiedlichen Farben der Kästen, stehen für:

  • Weiß = verlässliche STR
  • Grau =  unsichere STR
  • Blau = STR aus YSEQ- oder FTDNA- Datei übernommen.

Diese kann man als .CSV runterladen.

3.2.2 STR matches

Hier werden Treffer auf Basis von STRs aufgelistet. Hierfür werden die STRs, die sich bei den Kits unterscheiden einfach nur aufsummiert. Über Sinn und Unsinn dieser Darstellung kann man sich streiten. Ich finde sie nicht informativ.

3.2.3 STR Variants

Sehr informativ ist hingegen diese Funktion. Hier erhält man den Mutationsverlauf seiner STRs vom Y-Adam bis zu sich selbst. Sie sind von „jung“ nach „alt“ sortiert, verknüpft mit der Information, innerhalb welchen SNP-Blocks diese mutiert sind.

Abb. 7: STR Varianten

Die Abbildung zeigt, zur besseren Übersicht, nur die Auswahl für Y111. In der ersten Spalte steht die Benennungs des SNP-Blocks in welchem die STR mutiert ist. Neben der STR bekommt man die Information, welche anderen Kits diese STR mit einem teilen. Rechts sieht man Werte für:

  • Die Detektionsrate – In welchem Anteil aller Kits wurde diese STR ausgelesen?
  • die Mutationsrate – Fünf Sterne stehen für eine STR, welche selten mutiert. Umso weniger Sterne, desto eher neigt diese STR zum mutieren, so dass zwei Kits zufällig den gleichen Wert haben können.
  • Ursprünglicher (ANC) und veränderter (DER) Wert für diese STR.

Diese Ansicht kann einem dabei helfen die Reihenfolge von STR Mutationen zu erfassen. Unter Umständen kann man Untergruppen anhand von STR Werten bilden, wo bei SNPs keine Unterscheidung möglich ist. Dabei ist jedoch Vorsicht geboten, erst recht, wenn die Mutationsrate niedrig ist.

STRs mit einer Mutationsrate von fünf Sternen und ausreichend Samples werden bei YFull tatsächlich zum Bilden von Untergruppen verwendet.

3.3 Kontaktieren von Mitgliedern

Ist man bei Yfull Mitglied kann man jedes andere Mitglied kontaktieren. Nachdem man auf „New message“ gegangen ist, einfach als „Recepient“ Die Nummer nach „YF“ eingeben (Pfeil 3).

Abb. 8: Private Nachrichten

4.0 Gruppen bei Yfull

Schaue Dir die Liste mit den Yfull Gruppen an https://www.yfull.com/groups/list/ und trete der Gruppe bei, die zu Deiner Haplogruppe passt. Dies ermöglicht Dir und den Administratoren der Gruppe, Untersuchungen innerhalb der Gruppe durchzuführen.

4.1 Y-Browser

Abb. 9: Gruppen, Y-Browser

Mit dem Y-Browser kann man Werte für einzelne Y-Chr HG38 Positionen der Gruppenteilnehmer vergleichen. Man kann auch Positionen wie „Novel Variants“ vergleichen, was mit dem „View SNPs“ von „Y-Results“ nicht geht. So sieht man auf Anhieb, ob es Probanden gibt, welche für diese Positionen No Calls haben und rein theoretisch für diese neuen SNPs positiv sein könnten. Bei erhöhtem Verdacht (z.B. gemeinsame STR Mutationen) kann man die neuen SNPs bei diesen Probanden testen, nachdem man die SNPs mit „Wish a SNP“ bestellbar machte.

4.2 Y-Results

4.2.1 Y-STR Group viewer

Bei “View Y-STRs (classic)” und „View Y-STRs (coloured)” erhält man eine Tabelle mit den 780 STRs aller Gruppenteilnehmer.

  • “View Y-STRs (classic)” zeigt eine klassische Ansicht. Diese beinhaltet die Information, mit welcher Verlässlichkeit eine STR (verlässlich oder unsicher) extrahiert wurde.
  • „View Y-STRs (coloured)” zeigt farbig die Modalwerte, Minimalwerte und Maximalwerte. Hier fehlt die Information bezüglich der Verlässlichkeit der STRs.
  • Diese kann man runterladen und für STR-Untersuchungen verwenden.
Abb. 10: Gruppen, View Y-STR (classic)
Abb. 11: Gruppen, View Y-STR (colourized)

4.2.2 SNPs Group viewer

Diese Funktion ist vergleichbar mit dem Y-Browser, hat aber den Vorteil, dass man die SNPs direkt eingeben kann. Dafür kann man hier keine „Neuen SNPs“ auswählen. Man sieht auf Anhieb, welche SNPs bei welchen Testern *nicht* getestet wurden (No Calls). So kann man potentielle Kandidaten für noch nicht entdeckte Untergruppen ausfindig machen.
Beim Beispiel auf Abbildung 12 wurden die SNPs des Blocks Y177573 abgefragt. Die meisten SNPs wurden bei allen Teilnehmern ausgelesen. Die SNPs Y177575 wurde nur in zwei Kits mit WGS und einem Big Y-700 von insgesamt vier Big Y-700, gelesen. Die SNP Y177577 wurde bisher nur von zwei WGS erkannt (Grüner und roter Pfeil). Bei den Teilnehmern mit Big Y sind diese No Calls. Man könnte nun diese zwei SNPs bei YSEQ mit „Wish a SNP“ bestellbar zu machen und danach prüfen, ob die Kits von Y125026* positiv für diese sind.

Abb. 12: Gruppen, Y-Results – SNPs viewer

Das ist außerdem einer der Gründe, weshalb ich ein WGS einem targetet NGS wie Big Y vorziehe. Die bessere Abdeckung und somit kaum No Calls. (siehe Abb. 1)

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.