Übersicht aller aDNA Proben der Y-Haplogruppe I-L38 bis I-S2599

Die „Onkel und Neffen“ der Lichtensteiner.

Im Jahr 1980 wurden in der Lichtensteinhöhle bei Osterode im Harz, 3000 Jahre alte Skelette von vierzig Individuen gefunden. In der Dissertation „Molekulargenetische Verwandtschaftsanalysen am prähistorischen Skelettkollektiv der Lichtensteinhöhle“ von Felix Schilz im Jahre 2006 wurde die Y-DNA per Y-STR analysiert. Einundzwanzig davon waren Männer und dreizehn davon gehörten zur Y-Haplogruppe I-L38. Dies führte dazu dass die Träger von I-L38 den Spitznamen „Lichtensteiner“ bekamen. Bis 2015 waren dies die einzig bekannten aDNA Proben (alte DNA) von I-L38. Seitdem sind, aufgrund einer Vielzahl von Studien, mehrere Dutzend Proben hinzu gekommen, sozusagen die „Onkel und Neffen“ der Lichtensteiner. Ach übrigens – „Onkel“ Cheddar man, Britanniens ältestes nahezu komplettes 10.000 Jahre altes Skelett, ist genauso „Onkel“ der Lichtensteiner, wie auch aller anderen I-L38 Cousins.

Mit dem Titel „Reconstructing the Journey of Y-DNA Haplogroup I2-S2555 to I2-L38„, ist Hans de Beule, einem Administrator des I-L38 Projekts, eine umfangreiche Zusammenfassung der bisher veröffentlichten Studien gelungen. Diese enthält detailreiche Informationen zu allen aDNA Proben der Y-Haplogruppe I-S2599. Eine absolute Leseempfehlung.

Im Gegensatz zur umfassenden Studie von Hans, geht es in diesem Beitrag nur rein technisch um eine genaue, bzw. alternative Einordnung der Proben in unserem I-S2599 Y-Haplogruppenbaum und der Visualisierung. Dazu habe ich die Rohdaten aller bekannten Proben heruntergeladen, aufbereitet, analysiert und in einer gemeinsamen Tabelle einsortiert. Alle aDNA Proben wurden zusammen mit den Probanden kommerzieller Tests auf einer Karte visualisiert.

Im ersten Teil dieses Artikels geht es speziell über die aDNA Proben von I-S2599. Im zweiten Teil erkläre ich, wie und womit ich die Analysen durchgeführt habe. Somit kann der zweite Teil auch für Leute interessant sein, die mit I-S2599 nichts zu tun haben.

Die Y-Haplogruppenbäume und aDNA

ISOGG

In den meisten Studien wird noch eine alte und eigentlich überholte Benennung für Y-Haplogruppen, Im Fall von I-L38 ist das I2a1b2, verwendet. Diese wurde zuletzt beim ISOGG Haplogruppenbaum benutzt, wobei meistens der aktuellste von 2019 und andere Male sogar eine ältere Version von 2016 verwendet wird, was zur Verwirrung führen kann. Im Artikel I-M170 und die babylonische Y-Haplogruppen Namensverwirrung habe ich aufgezeigt, wie problematisch es ist diese Schreibweise zu verwenden. Hinzu kommt, dass der Baum seit 2019 nicht mehr aktualisiert wird, so dass die zwischenzeitlich entdeckten Äste und Abzweigungen nicht berücksichtigt werden. Yleaf, ein Programm zur Bestimmung von Y-Haplogruppen, das bei vielen Studien verwendet wird, bezog sich bis zur Version 2.3 auf diesen Baum. Ab der Version 3.0 wechselte Yleaf auf den Baum von YFull.com, so dass die Bestimmung der Haplogruppe, bei Zuhilfenahme dieses Werkzeugs, in Zukunft anders aussehen wird.

YFull

Der Y-Haplogruppenbaum von YFull.com ist der flexibelste und transparenteste der Y-Haplogruppen Bäume. Es können alle NGS (Next Generation Sequencing) Tests von den unterschiedlichsten Anbietern hochgeladen werden, unabhängig davon mit welcher Human Genome Referenz die Rohdaten abgespeichert wurden (hg19, hg38, T2T). Da auch WGS Tests (Whole Genome Sequencing) aufgenommen werden, enthält dieser Baum die SNPs, die durch die Ausrichtung auf die T2T Referenz gefunden wurden. Ich empfehle jedem, der ein WGS Test oder ein NGS Test bei FamilytreeDNA (BigY700) gemacht hat die Rohdaten, möglichst die BAM Datei mit T2T Referenz, bei YFull hochzuladen.

Neben kommerzielles Tests lebender Menschen werden auf gleiche Art aDNA Proben dem Baum hinzugefügt. Da aDNA Proben mit niedriger Qualität die Funktion des Y-Baumes negativ beeinträchtigen würden, werden nur aDNA Proben mit ausreichender Qualität hochgeladen. Das führt leider dazu, dass nur wenige aDNA Proben, derzeit nur fünf von über fünfzig, auf dem I-S2555 (S2599) YFull Baum landen. Die Positionierung auf dem Baum erfolgt anhand der jüngsten akkuraten positiven SNP. Sind auch Positionen auf jüngeren Unterzweigen möglich (nocalls bei jüngeren Unterzweigen) so werden die alternativ möglichen Positionen als zusätzliche Information angezeigt.

Administratoren von Gruppen können die aDNA Proben zur Gruppe hinzufügen und deren SNP-Analyse mit den bekannte Funktionen von YFull anschauen.

FTDNA

Der Big Y-700 von FamilyTreeDNA ist der erfolgreichste NGS Test auf dem Markt. Die Ergebnisse dieses Tests werden auf den FTDNA Y-Haplogruppen Baum hochgeladen, so dass dieser Baum derjenige mit den meisten Tests und auch der bekannteste ist. Es ist nicht möglich Tests von anderen Anbietern hochzuladen. Es gibt hier mehrere Ansichten für den Baum. Nur Big Y Nutzer haben die Möglichkeit ihre Ergebnisse auf dem Block tree zu betrachten, da dieser nicht öffentlich ist. Zusätzlich gibt es einen öffentlichen Y-DNA Haplotree der für jeden zugänglich ist.

Seit Sommer 2022 gibt es die Discover Seiten mit zusätzlichen Darstellungen auf denen auch aDNA Proben angezeigt werden. Ich bevorzuge die Darstellung Time Tree. Nahezu alle aDNA Proben werden hier dargestellt. Die Positionierung auf dem Baum erfolgt anhand der jüngsten akkuraten positiven SNP. Es werden keine zusätzlichen Informationen (nocalls bei jüngeren Unterzweigen) mitgeteilt, sodass es nicht möglich ist zu beurteilen, ob eine Positionierung in einem jüngeren Unterzweig möglich wäre.

Administratoren von Projekten haben keine Möglichkeit weitere Daten der SNP-Analyse einzusehen.

Weitere Y-Bäume

Neben den wichtigen großen Y-Haplogruppenbäumen gibt es noch zwei weitere, die ich hier nur kurz erwähnen möchte.

  • Der Y-Baum vom Chinesischen Anbieter dnachron hat nur wenige Kits. Es sind hauptsächlich Kits von Studien mit lebenden Menschen, deren WGS analysiert wurde.
  • Der Y-Baum vom Chinesischen Anbieter theytree hat kaum kommerzielle Kits. Dafür einige Kits von Studien mit lebenden Menschen, deren WGS analysiert wurde und mehrere aDNA Proben. Leider wird hier nicht so sauber gearbeitet und die aDNA Proben landen nicht selten auf der falschen Position. Nichtsdestotrotz schaue ich gelegentlich auf dieser Seite vorbei, um zu schauen, ob neue aDNA Proben vorhanden sind, um diese selbst nochmal genau anzuschauen.

Eingruppierung von aDNA

Mein Hauptgrund für einen Y-DNA Test war ursprünglich die Absicht eine Familienlegende zu verifizieren. Dabei stellte ich fest, dass meine Y-Haplogruppe I-L38 vor etwa 4700 Jahren irgendwo im Norden Europas entstanden ist. Als „Kind der Migration“, meine Eltern kommen aus Griechenland und ich wurde in Deutschland geboren, bin ich auch an dieser alten Migration interessiert und versuche herauszufinden, welchen Weg meine Vorfahren (in männlicher Linie) nahmen.

Anhand von kommerzieller Y-DNA Tests und diversen Y-Bäumen kann man schon einiges nachvollziehen, ist aber von der freiwilligen Selbstauskunft der Tester abhängig. Falsche Informationen inklusive. Bei alter DNA ist das ähnlich schwierig. Der „Getestete“ wird keine Selbstauskunft mehr tätigen können und so ist man von der Richtigkeit der in den Studien getätigten Angaben abhängig. In den meisten Studien hat die genaue Y-Eingruppierung der Proben selten eine hohe Priorität und zum Glück gibt es YFull.com und FTDNA, die sich diesem Punkt widmen und genauer einordnen. Alte DNA-Proben sind in der Regel degradiert und weisen keine ausreichende Abdeckung auf, was nicht selten dazu führt, dass die Haplogruppen-Zuordnungen nicht eindeutig möglich sind. Bei sehr niedriger Abdeckung ist der Nutzen dieser Proben fraglich. Was tun mit diesen Proben?

  1. Diese aDNA Proben nicht mit aufnehmen und ignorieren, wie bei YFull.
  2. Eine weniger spezifische Haplogruppen-Zuordnung angeben, wie bei FamilyTreeDNA.
  3. Eine alternative Eingruppierung wählen, die den Ort und die Zeit berücksichtigt, in der der verstorbene gelebt hat. Das will ich nachfolgend probieren.

Alternative Eingruppierung unter Einbeziehung von Ort und Zeit

Die aDNA Proben nicht mit aufzunehmen empfinde ich als besonders schade. Die aDNA Proben trotzdem aufzunehmen und eine weniger spezifische Haplogruppen-Zuordnung anzugeben ist mir schon lieber, kann aber für Verwirrung sorgen, wenn man die angegebenen Positionierung zu ernst nimmt und keine weiteren Informationen hat, in welchen Unterzweigen eine alternative Positionierung möglich ist. Hier entsteht unnötig Raum zur Fehlinterpretation bezüglich des Ursprungsortes einer Y-Haplogruppe und der Migrationspfade. Dann vielleicht doch lieber weglassen? Aus diesem Grund habe ich mir alle aDNA Proben selbst genau angeschaut und analysiert. Ein besonderes Augenmerk hatte ich hierbei auf nicht getestete Untergruppen, die aufgrund von no calls auch zur Positionierung in Frage kämen und einzelne SNPs, die aufgrund von mehreren Fehlwerten nicht zur Analyse herangezogen werden konnten. Bitte beachtet, dass ich nicht vom Fach bin und mich nur als Laie an das Thema heran gewagt habe.

Das folgende Bild zeigt eine Übersicht über die Einordnung der aDNA Proben in die einzelnen SNP- Blöcke, sprich Unterzweige.

Positive SNP Blöcke sind grün, Negative sind rot, Fett gedruckt ist die Position der bevorzugten Eingruppierung und gelb sind die alternativ möglichen Positionen. Bei diesen wurden auch die TMRCA (Time to Most Recent Common Ancestor) und die Zeitliche Einordnung der Proben berücksichtigt. Man erkennt sehr gut, dass es in einzelnen Fällen zu falsch Positiven und falsch Negativen SNPs kommt. Meistens kann man diese gut erkennen und berücksichtigen, in einigen Fällen ist es dadurch jedoch nicht möglich die Probe eindeutig einzuordnen. Die komplette Tabelle I-S2599 – aDNA – SNPs mit der Master Tabelle, die alle Werte der einzelnen SNPs enthält, könnt Ihr in den Anlagen runter laden.

I-S2599

I-S2599 ist neben I-M223 ein Teil von I-M436 (I-P214) und kann als „Hauptgruppe“ betrachtet werden, zu der I-L38 als größte Gruppe gehört. FTDNA (Bild unten) hat hier 9 Proben eingeordnet. Dies ist sozusagen das „Auffangbecken“ für Proben, die nicht näher spezifiziert werden können. Die vier jüngeren Proben habe ich mir genauer angesehen und weiter unten im Baum platziert (Die Abdeckung dieser Proben ist sehr schlecht und diese hätten genauso gelöscht werden können). Die übrig gebliebenen Proben wurden in Italien, an der Donau am Eisernen Tor und an der westlichen Ostsee gefunden. Interessant ist, dass ein Teil der Proben im Süden Europas gefunden wurden und ein anderer Teil im Norden, bzw. Mittel Europa.

Es gibt keinen heute lebenden Tester, der positiv für den I-S2599 Block, aber negativ für den I-S10728 Block ist. Der Split zwischen diesen zwei Blöcken wurde rein durch diese aDNA Proben bestimmt. Damit ist es nicht möglich alle SNPs in diesen Blöcken eindeutig zuzuordnen.

I-S2599>S10728

Beim Block I-FTG659, der zweiten kleineren Untergruppe von I-S10728, ist dies anders. Hier gibt es einen lebenden Tester aus dem Süden Europas und zwei aDNA Proben aus Mitteleuropa. Leider sind die aDNA Daten von cze001 (Šidelník 1) noch nicht öffentlich zugänglich, so dass ich hier nur die SNPs übernommen habe, die FTDNA zur Verfügung stellt. Der Tester aus Südeuropa hat keinen einzigen Match und ist zusammen mit seinem Sohn ganz alleine auf diesem Zweig. Interessant ist hier, dass dieser einen gemeinsamen Vorfahren I-FTG659, mit zwei alten DNA Proben aus Mitteleuropa teilt, der vor etwa 10.000 Jahren gelebt hat. Wenn mal einer traurig ist, dass er keine oder wenige Matche hat, zeige ich diesem immer gerne diesen Fall.

I-S2599>S10728>S11321

I-S11321 ist eine übergeordnete Gruppe von I-L38, die außer I-S2519, noch eine kleine Untergruppe I-Y63727 enthält. Es gibt zwei Proben die ich hier im Hauptzweig unterbringen möchte, da diese nicht weiter bestimmt werden können. Dies sind Gr1 (Criewen 1) und PER3123, das bei FTDNA nicht enthalten ist. Die Abdeckung bei diesen zwei Proben ist nicht gut.

FTDNA zeigt nur I2977 (Gen Scot 75) unter I-Y63727. Dies ist auch die einzige Probe, die von der Abdeckung her so gut ist, dass man diese ohne Vorbehalt hier platzieren kann. Aufgrund der räumlichen und zeitlichen Nähe würde ich die Proben KD026 (Strathglebe 26) und I3137 (Raschoille 3137) in diesen Unterzweig mit aufnehmen. FTDNA zeigt Raschoille 3137 in I-S2599, bei mir wäre diese Probe wohl komplett raus gefallen, da ich, mit der Methode die ich angewendet habe, kaum brauchbare SNPs finden konnte.

Einige lebende Tester gehören zur Untergruppe I-Y63482. Ein Cluster hiervon in Mitteleuropa und ein weiterer auf der Iberischen Halbinsel und wahrscheinlich von dort aus nach Südamerika und in die Karibik.

Die Proben VO1003 (Vovnigi 3), VO1001 (Vovnigi 1), ukr033 (Nikol’ske 33) und wahrscheinlich auch I4971 (Tiszaszőlős 4971) gehören meiner Meinung nach zu einer anderen Untergruppe unter I-S2519.

I-S2599>S10728>S11321>S2519

Eine sehr interessante Situation haben wir bei I-S2519. SRA62 (Sramore 62), wurde auf Irland gefunden. Diese Probe hat eine sehr gute Abdeckung, so dass auf YFull sogar „novel variants“ mit angegeben werden, was in unserer Y-Haplogruppe einmalig ist. Dadurch lässt sich feststellen, dass SRA62 keine weiteren SNPs, abgesehen derer des I-S2519 Blocks, mit den anderen Untergruppen von I-S2519 teilt. Es gibt zwei weitere Untergruppen, die größere I-S2497 mit I-L38 und die kleinere I-FTA13672.

Dieser kleine Unterzweig ist irgendwo zwischen der Schweiz und dem Karpatenbecken entstanden. Die zwei Proben aus dem Karpatenbecken I10351 (Gubakut 10351) und I7126 (Urziceni 7126) gehören zu I-FTA13672. Hier würde ich noch I4971 (Tiszaszőlős 4971) hinzu nehmen, welches aufgrund der schlechten Abdeckung nicht allzu genau platziert werden kann. Eine große Anzahl an aDNA Proben ist vom Dnepr, nördlich des schwarzen Meeres, wo höchstwahrscheinlich die Untergruppe I-FTE66752 entstanden ist. Es ist nicht auszuschließen, dass mehrere dieser Proben von I-FTA13672 tatsächlich zu I-FTE66752 gehören. Viele Proben haben keine besonders gute Abdeckung und in einem Fall gibt es interessantes zu beobachten. Bei I27994 und ukr161 handelt es sich um die gleiche Probe und dennoch gibt es SNPs, die bei ukr161 positiv sind, bei I27994 jedoch negativ. Das zeigt ein weiteres Mal, dass man einzelne positive oder negative SNPs bei aDNA Proben nicht überbewerten sollte.

Ein weiteres interessantes Bild ergibt sich bezüglich der kommerziellen Tester von I-FTE66752. Diese kommen von der Arabischen Halbinsel.

I-S2599>S10728>S11321>S2519>S2497

1903 wurde das älteste vollständig erhaltene menschliche Skelett Britanniens gefunden, das des etwa 10.000 Jahre alten „Cheddar Man“ aka I6767, welche die berühmteste aDNA Probe von I-S2599, genauer I-S2497, sein dürfte. Die anderen drei Proben, die zu dieser Y-Haplogruppe gehören sind um einiges jünger als Cheddar man. Der Fundort von I19859 (Rowbarrow 19859) ist sehr nah an dessen Fundort, wobei NEO747 (Henriksholm 747) auch nicht weit davonentfernt ist. Lediglich SUC009 (Su Crucifissu Mannu 9) wurde auf einer Insel im Mittelmeer gefunden. Man meint fast, Vertreter von I-S2497 wollten in der „alten Heimat“ vorbeischauen.

Zwischen I-S2497 und I-L38 is es genau so, wie zwischen I-S2599 und I-S10728. Es gibt keinen lebenden Tester der positiv für I-S2497 Block und negativ für I-L38 Block getestet wurde. Der Split zwischen diesen zwei Blöcken wurde rein durch diese aDNA Proben bestimmt. Damit ist es nicht möglich alle SNPs in diesen Blöcken eindeutig zuzuordnen.

I-S2599>S10728>S11321>S2519>S2497>L38

Die Y-Haplogruppe I-L38 ist etwa 4700 Jahre alt. Innerhalb von I-L38 gibt es aDNA Funde, die am Anfang dieser Zeit, andere erst vor wenigen Jahrhunderten, gelebt haben. Bei den älteren Exemplaren ist es in der Tat möglich, dass es sich bei ihnen um „unvollständige“ I-L38 handelt, sprich, dass einige SNPs des I-L38 Blocks negativ sind, oder dass diese zu derzeit unbekannten Unterzweigen von I-L38 gehören. Umso jünger sie sind, desto unwahrscheinlicher ist es, dass es sich um „unvollständige“ oder „unbekannte“ handelt, sondern diese zu bekannten Untergruppen von I-L38 gehören, die aufgrund der schlechten Abdeckung nicht genauer eingruppiert werden können.

Ich würde sogar so weit gehen zu behaupten, dass die Proben poz720, MBG008 und EV18, die jeweils eine negative SNPs im Block I-L38 vorweisen, tatsächlich zu bekannten Untergruppen gehören. (Im Falle von EV18 gleich EV16A) Nichtsdestotrotz kann eine genauere Platzierung nicht vorgenommen werden. Drei weitere Proben aus dem späten Mittelalter (Ellwangen 30, Austin Friary 522 und Santok 385) haben eine sehr schlechte Abdeckung und wurden deswegen nur als I-L38 aufgenommen.

Auf einem Friedhof in Heslerton, England wurden drei aDNA Proben gefunden die zu I-L38 gehören. Eines davon I20641 lässt sich genauer bestimmen und gehört zu I-S2448. Meine erster Ansatz war zu schauen, ob die anderen zwei Proben auch zur selben Untergruppe gehören. Interessanter weise haben beide Proben ausgerechnet für diese Untergruppe negative SNPs. BUK024 (Buckland24) aus Dover, bei FTDNA unter I-L38 sehe ich als Teil von I-BY14044, einer Untergruppe von I-BY14026.

Die Probe PER11, die auch zu I-BY14026 gehört, liegt mir besonders am Herzen. Diese gehört zu meiner Untergruppe I-BY25363, ist vom späten Mittelalter und wurde im Zusammenhang einer Studie analysiert bei der die Überreste vom Báthory Clan analysiert wurden. YFull geht hier noch einen Schritt weiter und platziert die aDNA Probe noch tiefer im Baum in (m)einem Unterzweig I-Y128714, der bisher nur im Norden Griechenlands gefunden wurde. Eine einzige SNP von diesem Block ist positiv bei PER11. Dies ist die SNP A522 (A to G). A to G führt bei aDNA Proben zu Problemen, so dass ich hier der Platzierung von FTDNA den Vorrang gebe.

Karte

Die Karte wurde mit Google My Maps erstellt und ist Selbsterklärend. Es lassen sich Gruppen ein und ausblenden um das Ganze übersichtlicher zu gestalten und es gibt reichlich Informationen für jeden einzelnen Probanden.

Fazit

Löschen, konservative Zuordnung oder doch alternativ? Umso intensiver ich mich mit dem Thema befasste, desto eher war ich der Meinung, dass es gar nicht verkehrt ist, aDNA Proben mit sehr schlechter Abdeckung lieber zu löschen (ignorieren), als zu versuchen eine alternative Zuordnung zu finden. Nichtsdestotrotz habe ich den Versuch gewagt und die Ergebnisse in Tabelle und Karte festgehalten. Der ursprüngliche Grund für eine alternative Platzierung war es, Migrationspfade besser nachbilden zu können, trotzdem will ich hier nicht interpretieren.

Analyse der aDNA Daten – Vorgehen und Werkzeuge

Was die Analyse von DNA-Daten bin ich nur Laie und musste dementsprechend auf Werkzeuge zurückgreifen die ich kenne, bzw. zu denen ich schnell Zugang finde. Nach und nach kam ich drauf, wie ich zum gewünschten Ergebnis kommen kann und war überrascht, als ich feststellte, dass die passenden Programme schon auf meinem Computer installiert waren. Zum Extrahieren der SNPs der einzelnen aDNA Proben habe ich das Programm WGSExtract v4 verwendet. Das Filtern der SNPs erfolgte anschließend mit Microsoft Excel mit Power Query. Diese Anleitung ist als Leitfaden für Leute gedacht, die keine Scheu davor haben sich Problemen zu stellen und Lösungen selbst zu finden. Ein Punkt für Punkt Anleitung kann ich diesem Rahmen leider nicht bieten.

  • WGSExtract runterladen und installieren, incl. Referenz hg19.
  • Study Accession Nummer für die gewünschte Studie und Nummer für die gewünschte aDNA Probe ausfindig machen.
  • Die BAM und die BAI (Indexdatei) der aDNA Proben beim European Nucleotide Archive runterladen.
  • WGSExtract starten, Arbeitsverzeichnis und BAM Datei auswählen.
  • Tab wechseln und Y-Haplogruppe der aDNA Probe bestimmen (Bild unten 1&2). Das Fenster das sich öffnet „nicht“ schließen.
  • Im Hintergrund wurde mit Hilfe von Yleaf die Y-Haplogruppe bestimmt. In einem temporären Verzeichnis befinden sich zwei temporäre Dateien die wir in einen anderen Ordner verschieben, damit diese beim Schließen des Fensters nicht gelöscht werden.
  • Den Dateien mit der Endung .out und .pu per Umbenennen ein .csv hinten anfügen, damit diese von Excel und Google Tabellen gelesen werden können.

Die Datei mit der Endung .pu ist eine Arbeitsdatei von Yleaf. Sie enthält die Informationen, wie oft jede hg19 Position gelesen wurde und die dazugehörigen Ergebnisse A für Ancestral (Negativ) und D für Derived (Positiv). Leider ist diese Datei sehr groß und kann nicht ohne weiteres geöffnet werden, abgesehen davon dass man sich darin nicht zurechtfinden würde.

Die Datei mit der Endung .out ist eine gefilterte Datei. Yleaf filtert die .pu Datei nach einer vorgefertigten Liste an SNPs. Bei der WGSExtract Version die ich verwendet habe wird Yleaf 2.3 verwendet, bei der die Auswahl der zu filternden SNPs dem ISOGG Baum entnommen wurden. Bei späteren Versionen wird Yleaf 3 verwendet und es wird mithilfe der SNPs gefiltert, die auf dem YFull Baum zu finden sind. Dies wird zu genaueren Ergebnissen führen, vorausgesetzt die SNPs sind beim YFull Baum enthalten. Diese .out Datei kann man, indem man diese zu einer .csv Datei macht, mit Excel oder Google Tabellen öffnen und sortieren. So kann man eine grobe Einschätzung auf Basis der gefilterten SNPs treffen.

Mein Ziel war es alle SNPs aller Blöcke von I-S2599, sowie relevante Untergruppen auszulesen, unabhängig davon ob diese „öffentlich bekannt“ sind oder „nur“ private Varianten von lebenden Testern, zu denen ich Zugang habe. (Bei der vorliegenden Tabelle wurden die privaten Varianten vor der Publikation gelöscht und die Links zu den .pu Dateien entfernt) Hierfür habe ich meine eigene Liste zum Filtern erstellt und mit der .pu Datei von Yleaf abgeglichen. Ihr könnte gerne meine fertige Tabelle aus dem Anhang nehmen und diese als Basis verwenden. Schaut euch bitte die Felder und die Formeln an, bevor ihr beginnt. Nicht alle Spalten und Informationen werden unbedingt benötigt.

Hauptdatei erstellen (aDNA-SNPs.xlsx):
  • Eine leere Excel Datei öffnen (oder meine Datei als Basis nehmen).
  • Spalten zum sortieren der Blöcke einfügen. („Haplogroup sort“ zum Sortieren der Blöcke, „Time sort“ zum Sortieren der SNPs innerhalb der Blöcke, falls erwünscht)
  • Block für Block die SNP Daten vom FTDNA Baum (Discover) entnehmen. Discover – Scientific Details – Variants. (Alle Zeilen in Tabelle kopieren, Bei mir wurden es insgesamt über 800 Zeilen). Leider enthält diese Liste nur die Position für hg38.
  • Spalte für Position hg19 hinzufügen.
  • Mithilfe von Lift Genome Annotations für jede h38 Position die Position für hg19 ermitteln und in der hg19 Spalte eintragen.
  • Falls erwünscht den vorherigen Punkt wiederholen um die T2T Position zu erhalten.
  • Die Spalten Ychr Region, FTDNA level und YFull level dienen nur zur Information und sind nicht dringend notwendig.
Datei zum Filtern erstellen (SNPs.xlsx):
  • Die fertige Hauptdatei wegkopieren.
  • Alle Zeilen, die keinen eindeutigen Wert für Position hg19 enthalten löschen.
  • Nur folgende Spalten beibehalten (andere löschen) und in diese Reihenfolge bringen: Position (hg19) – Haplogroup sort – Name – Position (GRCh38) – Anc. – Der. – Synonyms.
Weiter in der Hauptdatei:
  • Datei zum Filtern in Hauptdatei per „Laden in“ hinzufügen (Excel): Daten – Aus Text csv – Datei auswählen und importieren – Laden in – Nur Verbindung erstellen.
  • .pu Dateien in Hauptdatei per „Laden in“ hinzufügen (Excel): Daten – Aus Text csv – .pu Datei auswählen und importieren – Laden in – Nur Verbindung erstellen.
  • Abfragen kombinieren: Daten – Abfragen kombinieren – Zusammenführen.
  • Zuerst in Tabelle SNPs.xlsx die Spalte Position hg19 auswählen, dann in .pu Datei Spalte Position hg19 auswählen, mit ok bestätigen.
  • Im Powerquery Editor die Spalten 4 und 5 der .pu Datei aktivieren und zu den -Zeilen der Tabelle SNPs.xlsx hinzufügen.
  • Kombinierte Abfrage mit aDNA Namen benennen.
  • Mit „Laden in“ beenden
  • In neue Tabelle kopieren. Dieser Tab nach aDNA Namen benennen.
  • In meiner Tabelle bei einem beliebigen aDNA Tab die Formel in der ersten Zeile aus der Spalte „state“ kopieren und in der ersten Zeile in Spalte J einfügen. Spaltenüberschrift setzen. Nun wird die Spalte J aufgefüllt.
  • Im Tab aDNA in der Zeile 3 in gewünschter Spate den gleichen Namen wie den Namen des Tabs eintragen. Somit wird die Spalte automatisch aufgefüllt.

Anhang:

Studien mit aDNA der Y-Haplogruppe I-S2599

referencetitlecitation linkdata avaibilityI-S2599 Samples
Schilz 2006Molekulargenetische Verwandtschaftsanalysen am prähistorischen Skelettkollektiv der Lichtenstenhöhle.http://dx.doi.org/10.53846/goediss-638only STR Markers
Mathieson et al. 2015Mathieson, I., Lazaridis, I., Rohland, N. et al. Genome-wide patterns of selection in 230 ancient Eurasians. Nature 528, 499–503 (2015).https://doi.org/10.1038/nature16152PRJEB11450I0114 (390k)
Haak, Lazaridis et al. 2015Haak, W., Lazaridis, I., Patterson, N. et al. Massive migration from the steppe was a source for Indo-European languages in Europe. Nature 522, 207–211 (2015).https://doi.org/10.1038/nature14317PRJEB8448I0114 (New 840k data added to published 390k data)
Seidenberg 2016Morphologisch-paläogenetische Bearbeitung des Skelettkollektivs aus der Lichtensteinhöhle.http://dx.doi.org/10.53846/goediss-6152only STR Markers
Lipson et al. 2017Lipson, M., Szécsényi-Nagy, A., Mallick, S. et al. Parallel palaeogenomic transects reveal complex genetic history of early European farmers. Nature 551, 368–372 (2017).https://doi.org/10.1038/nature24476PRJEB22629I4971
Mathieson et al. 2018Mathieson, I., Alpaslan-Roodenberg, S., Posth, C. et al. The genomic history of southeastern Europe. Nature 555, 197–203 (2018).https://doi.org/10.1038/nature25778PRJEB22652I4607, I4915, I5401
Olalde et al. 2018Olalde, I., Brace, S., Allentoft, M. et al. The Beaker phenomenon and the genomic transformation of northwest Europe. Nature 555, 190–196 (2018).https://doi.org/10.1038/nature25738PRJEB23635I2977, I3137
Blöcher 2019Genetic variation related to the adaptation of humans to an agriculturalist lifestylehttp://doi.org/10.25358/openscience-3112GR1
Brace et al. 2019Brace, S., Diekmann, Y., Booth, T.J. et al. Ancient genomes indicate population replacement in Early Neolithic Britain. Nat Ecol Evol 3, 765–771 (2019).https://doi.org/10.1038/s41559-019-0871-9PRJEB31249I6767 (Cheddar man)
Antonio et al. 2019Ancient Rome: a genetic crossroads of Europe and the Mediterranean.https://doi.org/10.1126/science.aay6826PRJEB32566R11
Marcus et al. 2020Marcus, J.H., Posth, C., Ringbauer, H. et al. Genetic history from the Middle Neolithic to present on the Mediterranean island of Sardinia. Nat Commun 11, 939 (2020).https://doi.org/10.1038/s41467-020-14523-6PRJEB35094I18945 (SUC009)
Cassidy et al. 2020Cassidy, L.M., Maoldúin, R.Ó., Kador, T. et al. A dynastic elite in monumental Neolithic society. Nature 582, 384–388 (2020).https://doi.org/10.1038/s41586-020-2378-6PRJEB36854SRA62
Brunel, S. et al. 2020Ancient genomes from present-day France unveil 7,000 years of its demographic history.https://doi.org/10.1073/pnas.1918034117PRJEB38152PER3123
Immel et al. 2021Analysis of genomic DNA from medieval plague victims suggests long-term effect of Yersinia pestis on human immunity genes.https://doi.org/10.1093/molbev/msab147PRJEB44124ELW030
Patterson et al. 2021Patterson, N., Isakov, M., Booth, T. et al. Large-scale migration into Britain during the Middle to Late Bronze Age. Nature 601, 588–594 (2022).https://doi.org/10.1038/s41586-021-04287-4PRJEB47891I17327, I19859, I7959, I3137 (new)
Frischalowski 2022Genetische Diversität in der Lichtensteinhöhle – Ableitungen zur Demographie und Interpretationen zu sozialen Strukturen sowie Bestattungssitten in einer bronzezeitlichen Bevölkerung.http://dx.doi.org/10.53846/goediss-9081only STR Markers
Dulias et al. 2022Ancient DNA at the edge of the world: Continental immigration and the persistence of Neolithic male lineages in Bronze Age Orkney.https://doi.org/10.1073/pnas.2108001119PRJEB46830KD026
Hofmanová et al. 2022Between fishing and farming: palaeogenomic analyses reveal cross-cultural interactions triggered by the arrival of the Neolithic in the Danube Gorgeshttps://doi.org/10.1101/2022.06.24.497512PRJEB47916GR1
Fischer et al. 2022Origin and mobility of Iron Age Gaulish groups in present-day France revealed through archaeogenomics.https://doi.org/10.1016/j.isci.2022.104094PRJEB50940GLN32
Lazaridis et al. 2022The genetic history of the Southern Arc: A bridge between West Asia and Europe.https://doi.org/10.1126/science.abm4247PRJEB54831I7126
Gretzinger et al. 2022Gretzinger, J., Sayer, D., Justeau, P. et al. The Anglo-Saxon migration and the formation of the early English gene pool. Nature 610, 112–119 (2022).https://doi.org/10.1038/s41586-022-05247-2PRJEB54899BUK024, I11590, I20641, I20675
Stolarek et al. 2023Stolarek, I., Zenczak, M., Handschuh, L. et al. Genetic history of East-Central Europe in the first millennium CE. Genome Biol 24, 173 (2023).https://doi.org/10.1186/s13059-023-03013-9PRJEB48333PCA0385
Posth et al. 2023Posth, C., Yu, H., Ghalichi, A. et al. Palaeogenomics of Upper Palaeolithic to Neolithic European hunter-gatherers. Nature 615, 117–126 (2023).https://doi.org/10.1038/s41586-023-05726-0PRJEB51862GFW001, VO1001, VO1003
Chyleński et al. 2023Chyleński, M., Makarowicz, P., Juras, A. et al. Patrilocality and hunter-gatherer-related ancestry of populations in East-Central Europe during the Middle Bronze Age. Nat Commun 14, 4395 (2023).https://doi.org/10.1038/s41467-023-40072-9PRJEB53670poz498, poz720
Mattila et al. 2023Mattila, T.M., Svensson, E.M., Juras, A. et al. Genetic continuity, isolation, and gene flow in Stone Age Central and Eastern Europe. Commun Biol 6, 793 (2023).https://doi.org/10.1038/s42003-023-05131-3PRJEB59598ukr33, ukr159, ukr160, ukr161
Hui at al. 2023Medieval social landscape through the genetic history of Cambridgeshire before and after the Black Death.https://doi.org/10.1101/2023.03.03.531048PRJEB59976522
Gînguță et al. 2023Genetic identification of members of the prominent Báthory aristocratic family.https://doi.org/10.1016/j.isci.2023.107911PRJEB63184PER11
Gelabert et al. 2024Social and genetic diversity among the first farmers of Central Europe.https://doi.org/10.1101/2023.07.07.548126PRJEB64177I10351
Allentoft et al. 2024Allentoft, M.E., Sikora, M., Refoyo-Martínez, A. et al. Population genomics of post-glacial western Eurasia. Nature 625, 301–311 (2024).https://doi.org/10.1038/s41586-023-06865-0PRJEB64656NEO254, NEO270, NEO502, NEO514, NEO528, NEO552, NEO747
Allentoft et al. 2024bAllentoft, M.E., Sikora, M., Fischer, A. et al. 100 ancient genomes show repeated population turnovers in Neolithic Denmark. Nature 625, 329–337 (2024).https://doi.org/10.1038/s41586-023-06862-3PRJEB64656NEO254, NEO747
Gretzinger et al. 2024Gretzinger, J., Schmitt, F., Mötsch, A. et al. Evidence for dynastic succession among early Celtic elites in Central Europe. Nat Hum Behav (2024). https://doi.org/10.1038/s41562-024-01888-7https://doi.org/10.1038/s41562-024-01888-7PRJEB73566MBG008
Ravasins et al. 2024Ravasini, F., Kabral, H., Solnik, A. et al. The genomic portrait of the Picene culture provides new insights into the Italic Iron Age and the legacy of the Roman Empire in Central Italy. Genome Biol 25, 292 (2024).https://doi.org/10.1186/s13059-024-03430-4PRJEB77116EV18, EV16A
Niktin et al. 2024A genomic history of the North Pontic Region from the Neolithic to the Bronze Agehttps://doi.org/10.1101/2024.04.17.589600PRJEB81468I27994
George et al. 2025forthcoming studycze001

Links der Dateien zum runterladen

I-S2599 – aDNA – SNPs – Eine wahre „wall of SNiPs“, Master SNP Tabelle, SNP Block Übersicht und SNP Tabellen aller aDNA Proben.

I-S2599 – aDNA – Samples – Alle Studien und aDNA Proben von I-L38 bis I-S2599.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert