Workshop Eurogenes G25


Presentation and discussion in Italian

Workshop Pratico con Eurogenes G25

Per chi possiede un risultato di test del DNA autosomico (MyHeritage, FamilyTreeDNA FamilyFinder, Ancestry.com, 23andMe, WGS). Per chi è fortemente interessato ad approfondire l’analisi di campioni di DNA antichi e moderni attraverso l’admixture.

Vicinanze Antiche e Moderne del Tuo DNA: Workshop Pratico con Eurogenes G25

Questo workshop è pensato per chiunque possieda un risultato di test del DNA autosomico (ottenuto da servizi come MyHeritage, FamilyTreeDNA FamilyFinder, Ancestry.com, 23andMe, o tramite sequenziamento dell’intero genoma – WGS) e per coloro che sono fortemente interessati ad approfondire l’analisi comparativa del proprio DNA con campioni antichi e moderni attraverso modelli di admixture.

Folder Google Drive


1) Introduzione: Concetti Fondamentali per Comprendere l’Analisi del DNA

Prima di addentrarci negli aspetti pratici del workshop, è essenziale comprendere alcuni concetti chiave che costituiscono le fondamenta dell’analisi genetica dell’ascendenza.

  • DNA Autosomico: Il DNA autosomico è costituito dalle 22 coppie di cromosomi non sessuali (autosomi) che erediti da entrambi i genitori (metà da tua madre e metà da tuo padre). Questo tipo di DNA contiene informazioni genetiche provenienti da tutti i rami del tuo albero genealogico, pezzi recenti più lunghi e pezzi anziani piú corti. A differenza del DNA mitocondriale (ereditato solo dalla madre) o del cromosoma Y (ereditato solo dal padre al figlio maschio), il DNA autosomico fornisce una visione più ampia e completa della tua ascendenza. È particolarmente utile per identificare parenti fino a cugini di 5°-7° grado e per esplorare le proprie origini biogeografiche. Conviene tenere in mente che gli antenati genetici diminuiscono rapidamente rispetto agli antenati genealogici a partire dalla 5a generazione ancestrale e sono solo poco più dell’1% di questi ultimi alla 15a generazione ancestrale.
  • Test del DNA Autosomico: Aziende come MyHeritage, FamilyTreeDNA (Family Finder), Ancestry.com, e 23andMe analizzano centinaia di migliaia di marcatori specifici (chiamati SNP, Single Nucleotide Polymorphisms) sul tuo DNA autosomico. I risultati di questi test includono tipicamente una stima delle tue origini etniche (admixture) e una lista di corrispondenze genetiche (persone con cui condividi segmenti di DNA). Il sequenziamento dell’intero genoma (WGS) fornisce una visione ancora più dettagliata, analizzando l’intero genoma anziché solo SNP selezionati.
  • Eurogenes G25 (Global 25): Eurogenes G25, sviluppato nel 2019 da Davidski (David Wesolowski) del blog Eurogenes, è un potente strumento di analisi dell’ascendenza basato sull’analisi delle componenti principali (PCA). Non è un tradizionale calcolatore di “etnicità” fornito dalle compagnie di test del DNA, ma piuttosto un sistema di coordinate che descrive la posizione genetica di un individuo (o di una popolazione) in uno spazio multidimensionale definito da 25 componenti principali. Queste componenti catturano le direttrici di variazione genetica umana a livello globale. Utilizzando le coordinate G25, è possibile confrontare il proprio profilo genetico con quello di migliaia di campioni moderni e antichi e comparare i risultati sia con i risultati di compagnie di test che con studi scientifici.
  • Admixture (Mescolanza Genetica): L’admixture si riferisce al processo per cui individui o popolazioni precedentemente separate si incrociano, dando origine a una nuova popolazione con antenati provenienti da più fonti. L’analisi di admixture stima le proporzioni del tuo DNA che meglio si adattano a un insieme di popolazioni di riferimento predefinite (antiche o moderne). Questo ti permette di capire, ad esempio, quale percentuale del tuo genoma assomiglia a quella di antichi agricoltori neolitici, cacciatori-raccoglitori mesolitici o popolazioni moderne specifiche.
  • Coordinate Genetiche: Nel contesto di G25, le coordinate genetiche sono un insieme di 25 valori numerici che rappresentano la tua posizione nello “spazio genetico” globale definito da questo modello. Ogni valore corrisponde a una delle 25 componenti principali. Più simili sono le coordinate G25 di due individui o popolazioni, più stretta è la loro relazione genetica.
  • DNA Antico (aDNA) e DNA Moderno: Il DNA antico (aDNA) è materiale genetico estratto da resti archeologici di individui vissuti nel passato (da poche centinaia a decine di migliaia di anni fa). Lo studio dell’aDNA ha rivoluzionato la nostra comprensione della preistoria umana, delle migrazioni e dell’evoluzione delle popolazioni. Il DNA moderno, invece, si riferisce al DNA di persone viventi. Confrontare il proprio DNA con campioni sia antichi che moderni permette di tracciare le proprie radici ancestrali attraverso il tempo e lo spazio, collegando la propria storia familiare ai grandi movimenti di popolazioni del passato.

2) Creare le Tue Coordinate Genetiche Eurogenes G25 (Originali e Simulate)

Per utilizzare gli strumenti di analisi basati su G25, hai bisogno delle tue coordinate G25. Queste possono essere “originali”, calcolate direttamente dai tuoi dati grezzi del DNA, o “simulate”, stimate a partire dai risultati di altri calcolatori di admixture.

  • Coordinate G25 Originali:
    • Richiesta tramite G25requests.app: Il metodo più diretto per ottenere le coordinate G25 originali è attraverso il servizio (a pagamento) G25requests.app. Dovrai fornire i tuoi dati grezzi del DNA (scaricabili dalla piattaforma del tuo provider di test). Il server di Davidski stesso processerà i tuoi dati per generare le tue coordinate G25.
  • Coordinate G25 Simulate: Se non vuoi o non puoi ottenere le coordinate originali, puoi generare delle coordinate simulate. Queste sono generalmente meno precise delle originali ma possono comunque fornire risultati utili.
    • LLM/AI per l’ordinamento e la conversione: Servizi di intelligenza artificiale linguistica (LLM/AI) possono essere utili per compiti di formattazione. (Google Ai Studio / Gemini, etc.). Ad esempio, se hai i risultati di un calcolatore di admixture in un formato verticale, un LLM potrebbe aiutarti a riordinare alfabeticamente le componenti e a convertirle nel formato orizzontale richiesto da alcuni strumenti G25 (es. Popolazione,Componente1,Componente2,...,Componente25).
    • Allelocator Simulated G25: Questo strumento online permette di generare coordinate G25 simulate a partire dai risultati di vari calcolatori di admixture (come quelli disponibili su GEDmatch / Eurogenes K36).
    • ExploreYourDNA Average G25: Questo strumento è utile per creare coordinate G25 medie per una popolazione. Se hai le coordinate G25 di più individui appartenenti a una specifica popolazione o famiglia, puoi usarlo per calcolare un profilo medio rappresentativo.
  • Strumenti Aggiuntivi (Menzionati per completezza, ma la creazione diretta di G25 può variare):
    • Admixture Studio: Admixture Studio è un software che permette di eseguire analisi di admixture utilizzando diversi calcolatori. Sebbene non generi direttamente coordinate G25, può essere uno strumento utile nel processo di comprensione della propria admixture, i cui risultati potrebbero poi essere usati con cautela per tentare simulazioni G25 tramite altri metodi o per informare la selezione di popolazioni di riferimento.
    • GEDmatch.com: GEDmatch è una piattaforma di genealogia genetica che offre una vasta gamma di strumenti di analisi, inclusi molti calcolatori di admixture (come i modelli Eurogenes K13, K15, ecc.). I risultati di questi calcolatori “K” possono talvolta essere utilizzati come base per la simulazione delle coordinate G25 attraverso strumenti come Allelocator o tramite script personalizzati, sebbene la precisione possa variare. È importante notare che i calcolatori K di Eurogenes su GEDmatch sono distinti e precedenti al sistema G25.

Formato delle Coordinate G25:
Le coordinate G25 sono tipicamente presentate in un formato testuale semplice, separato da virgole (CSV). Ad esempio:
Nome_Campione,0.0123,-0.0456,0.0789,... (fino a 25 valori numerici dopo il nome).


3) Reperire Fonti per Coordinate G25 (Antiche e Moderne)

Una volta ottenute le tue coordinate G25, il passo successivo è confrontarle con un vasto database di campioni di riferimento, sia antichi che moderni. Fortunatamente, esistono diverse risorse online dove puoi trovare questi dati.

  • Vahaduo G25 Download: Questa è una delle risorse principali e più aggiornate per scaricare ampie raccolte di coordinate G25. Troverai datasheet contenenti migliaia di campioni antichi (etichettati con il loro contesto archeologico e datazione) e moderni (provenienti da diverse popolazioni attuali). I dati sono solitamente disponibili in formato CSV, pronti per essere utilizzati con strumenti di analisi come Vahaduo.
  • Blog Eurogenes e Aggiornamenti di Davidski: Il blog Eurogenes è la fonte primaria per annunci e discussioni relative a G25. Un post particolarmente utile è “Getting the most out of Global25“, che fornisce contesto e link a fogli di calcolo con coordinate. Davidski (e collaboratori come “Brazorf”) rilasciano periodicamente aggiornamenti e nuove raccolte di dati.
    • Aggiornamenti “Brazorf”:
      • Ancients (Antichi): Questi aggiornamenti, spesso linkati all’interno del blog Eurogenes (come nel post menzionato sopra), includono nuove coordinate di campioni antichi man mano che vengono pubblicati studi accademici.
      • Ancients Undated (Antichi Non Datati): A volte vengono rilasciati set di dati specifici, come la collezione di campioni antichi non precisamente datati, disponibile tramite link diretti come questo file Dropbox per “Ancients-Undated.txt”.
  • Moriopoulos G25 Collection (su GenArchivist): Il forum GenArchivist è un’altra risorsa comunitaria dove gli appassionati di genetica e genealogia condividono informazioni e dati. Il thread “Moriopoulos G25 Collection” è un esempio di come la comunità raccolga e organizzi set di coordinate G25, spesso aggregando dati da varie fonti o contribuendo con nuove scale e medie.

Consigli per la gestione dei dati:

  • Scarica i datasheet più recenti.
  • Organizza i file in cartelle tematiche (es. “Antichi”, “Moderni”, “Europa”, “Cultura-X”).
  • Presta attenzione alla nomenclatura dei campioni, che spesso include informazioni utili (es. ITA_Bergamo per l’Italia, Bergamo; RUS_Srubnaya_Alakul per un campione della cultura Srubnaya-Alakul in Russia).

4) Analizzare Similitudini: Confronti, Proporzioni Admixture e Distanze Euclidee con Vahaduo

Con le tue coordinate G25 e una buona raccolta di campioni di riferimento, sei pronto per l’analisi. Lo strumento online Vahaduo è eccellente per questo scopo.

  • Interfaccia di Vahaduo: https://vahaduo.github.io/vahaduo/
    • Target: Incolla qui le tue coordinate G25 (o quelle del campione che vuoi analizzare).
    • Source: Incolla qui le coordinate G25 dei campioni di riferimento (antichi e/o moderni) che hai scaricato. Puoi anche selezionare popolazioni specifiche da un vasto database integrato.
    • Distance: Questo calcola la “distanza genetica” tra il tuo campione “Target” e ogni campione/popolazione nel “Source”. La distanza più comune usata è la distanza euclidea. Più piccolo è il valore della distanza, maggiore è la somiglianza genetica.
  • Tipi di Analisi con Vahaduo:
    • Confronti Diretti (Distance): Semplicemente incollando le tue coordinate G25 nel campo “Target” e una lista di popolazioni o individui antichi/moderni nel campo “Source”, Vahaduo calcolerà la distanza genetica tra te e ciascuno di essi. Questo ti darà una classifica delle popolazioni/individui più simili a te.
    • Modellazione dell’Admixture (nMonte): Vahaduo integra un potente algoritmo chiamato nMonte (o variazioni) per modellare il tuo profilo genetico come una miscela di un numero selezionato di popolazioni di riferimento.
      • Seleziona le tue coordinate come “Target”.
      • Nel campo “Source”, puoi inserire un elenco di popolazioni antiche o moderne che ritieni possano aver contribuito alla tua ascendenza.
      • Utilizzando le opzioni “Single” o “Multi” nella sezione “Admixture”, puoi specificare quante popolazioni sorgente utilizzare nel modello (es. modellarti come una miscela di 2, 3, 4 o più popolazioni).
      • Il risultato mostrerà le proporzioni stimate di ciascuna popolazione sorgente che meglio approssimano il tuo profilo genetico, insieme a una “distanza” del modello complessivo (più bassa è, meglio il modello si adatta).
    • Distanze Euclidee: Come accennato, la distanza euclidea è una misura geometrica della dissimilarità tra due punti (in questo caso, profili genetici) nello spazio G25 a 25 dimensioni. Un valore di 0.01 è più vicino di 0.05. Queste distanze sono fondamentali per quantificare le relazioni genetiche.

5) Costruire Calcolatori di Admixture Personalizzati

Mentre Vahaduo e altri strumenti offrono potenti funzionalità di modellazione con set di dati preesistenti, potresti voler creare dei “calcolatori” di admixture personalizzati, focalizzati su specifiche domande genealogiche o antropologiche. Vedi anche https://www.exploreyourdna.com/calculators.aspx

  • Perché Personalizzare?
    • Focus Geografico/Temporale: Potresti essere interessato a esplorare l’ascendenza all’interno di una regione geografica specifica (es. Italia meridionale, Scandinavia) o in un particolare periodo storico (es. Età del Ferro, periodo Romano).
    • Ipotesi Specifiche: Potresti voler testare ipotesi specifiche sulla tua ascendenza (es. “Ho antenati Celti?” o “Qual è la mia proporzione di ascendenza anatolica neolitica vs. cacciatore-raccoglitore occidentale?”).
  • Come Procedere (Concettualmente, spesso usando Vahaduo):
    1. Definisci il Tuo Obiettivo: Cosa vuoi scoprire? Quali popolazioni sono rilevanti per la tua domanda?
    2. Seleziona Attentamente le Popolazioni di Riferimento (“Source”):
      • Scegli campioni antichi e/o moderni che rappresentino le componenti ancestrali che vuoi investigare. Ad esempio, per un’analisi dell’ascendenza europea, potresti includere:
        • Cacciatori-raccoglitori europei (WHG, EHG)
        • Agricoltori neolitici anatolici (ANF) o primi agricoltori europei (EEF)
        • Pastori delle steppe pontico-caspiche (Yamnaya, Steppe MLBA)
        • Popolazioni specifiche dell’Età del Bronzo o del Ferro rilevanti per la tua area di interesse.
      • Evita di usare troppe popolazioni sorgente strettamente correlate tra loro, poiché ciò può rendere il modello instabile o difficile da interpretare (“overfitting”).
    3. Utilizza Vahaduo (o strumenti simili):
      • Carica le tue coordinate G25 come “Target”.
      • Carica le tue popolazioni di riferimento selezionate come “Source”.
      • Esegui l’analisi di admixture (nMonte) specificando il numero di popolazioni sorgente da utilizzare nel modello (es., se hai 5 sorgenti, potresti voler vedere modelli a 2, 3, 4 vie).
    4. Itera e Affina: Analizza i risultati. Le proporzioni hanno senso? La distanza del modello è buona (bassa)? Potrebbe essere necessario aggiungere o rimuovere popolazioni sorgente e rieseguire l’analisi finché non ottieni un modello che sia informativo e statisticamente ragionevole.

Questo processo è più un’arte che una scienza esatta e richiede una certa familiarità con la storia genetica delle popolazioni.


6) Visualizzare con Mappe Genetiche Bidimensionali PCA

Le Analisi delle Componenti Principali (PCA) sono strumenti statistici che permettono di ridurre la complessità di dati multidimensionali (come le 25 dimensioni di G25) in un numero inferiore di dimensioni (solitamente 2 o 3) che catturano la maggior parte della varianza. Queste nuove dimensioni possono essere rappresentate graficamente come mappe bidimensionali (o tridimensionali).

  • Cosa Mostra una PCA Genetica?
    • Una PCA genetica visualizza la somiglianza e la dissimilarità genetica tra individui e popolazioni.
    • I punti che sono vicini sulla mappa PCA sono geneticamente più simili.
    • I punti che sono distanti sono geneticamente più diversi lungo le componenti principali visualizzate.
    • Spesso, le componenti principali (PC1, PC2, ecc.) si correlano con gradienti geografici (es. Nord-Sud, Est-Ovest) o con antiche discendenze (es. una componente potrebbe distinguere i gruppi con alta ascendenza da cacciatori-raccoglitori da quelli con alta ascendenza da agricoltori neolitici).
  • Vahaduo G25 Views: Questo strumento online, collegato a Vahaduo, offre visualizzazioni PCA precalcolate basate su coordinate G25 per diverse regioni del mondo.
    • Come Usarlo:
      1. Seleziona una vista PCA predefinita (es. Europe1, EurasiaWest1, EastAsia1, ecc.).
        Usato primariamente per le Alpi: https://vahaduo.github.io/g25views/#Europe1
      2. Nella casella di testo “USER INPUT”, puoi incollare le tue coordinate G25 (formato: TuoNome,PC1,PC2,...,PC25).
      3. Clicca “Run”.
      4. La mappa PCA verrà visualizzata, con le popolazioni di riferimento del dataset e il tuo campione (“TuoNome”) plottato sulla mappa.
  • Interpretare le PCA:
    • Osserva dove si colloca il tuo campione rispetto alle popolazioni di riferimento.
    • Identifica i “cluster” di popolazioni e come il tuo campione si relaziona ad essi.
    • Considera quali gradienti o direttrici di variazione (cline) sono visibili sulla mappa e come si allineano con la geografia o con note migrazioni storiche.
    • Ad esempio, in una PCA europea, potresti vedere un gradiente da sud-est (vicino a popolazioni del Vicino Oriente/Anatolia) a nord-ovest, e un altro da est (vicino a popolazioni dell’Europa orientale/steppe) a ovest. La tua posizione su questa mappa ti darà un’idea visiva delle tue affinità genetiche principali.

Ricorda che una PCA è una semplificazione: mostra solo le 2 (o 3) principali fonti di variazione. Le analisi di admixture e le distanze numeriche in G25 forniscono un quadro più completo utilizzando tutte le 25 dimensioni.