Her nokta bir bireyi temsil eder. Genetik olarak benzer bireyler bir arada kümelenir.
PC1 (yatay eksen) en büyük genetik varyasyonu yakalar — genellikle coğrafi/kıtasal farkı temsil eder.
PC2 (dikey eksen) ikinci en büyük varyasyonu yakalar.
Karma bireyler (Türkiye simülasyonu), ana kümeler arasında bir yerde konumlanır — bu onların çoklu ata popülasyonlarından gen taşıdığını gösterir.
En basit f-istatistik: A ve B popülasyonlarının alel frekansları arasındaki ortalama karesel farktır. Filogenetik ağaçta iki popülasyon arasındaki dal uzunluğuna karşılık gelir. f2 ne kadar büyükse, iki popülasyon o kadar uzun süredir birbirinden ayrıdır.
X popülasyonunun alel frekansı, A ve B'nin arasında mı? Eğer öyleyse, f3 negatif çıkar — bu, X'in A ve B'nin karışımı olduğunun istatistiksel kanıtıdır. Sezgisel olarak: bir SNP pozisyonunda A'nın frekansı 0, B'nin 1, X'in 0,5 ise → (0,5-0)(0,5-1) = -0,25 → negatif katkı.
Burada X bir dış gruptur (örneğin Mbuti Pigmeleri — herkesin uzak akrabası). f3 değeri ne kadar büyükse, A ve B o kadar çok ortak genetik sürüklenme paylaşır — yani yakın zamana kadar aynı popülasyonun parçasıydılar.
Eğer dört popülasyon basit bir ağaç oluşturursa, A-B arasındaki frekans farkları C-D arasındaki farklardan bağımsız olmalıdır → f4 = 0. Sıfırdan sapma, gen akışı olduğunu gösterir.
f4-oranı, karışım oranını doğrudan hesaplar. X popülasyonu B ve C'nin karışımı ise, α B'nin katkı oranını verir. Bu, ADMIXTURE'ın yapabildiğinin formal istatistiksel versiyonudur — varsayımlara dayalı bir model değil, doğrudan ölçüm.
| Kaynak | Oran | Standart hata | Görsel |
|---|---|---|---|
| Neolitik Anadolu | 0,48 | ±0,04 | %48 |
| Yamnaya | 0,21 | ±0,03 | %21 |
| CHG | 0,31 | ±0,04 | %31 |
| p-değeri: 0,12 (model uyuyor: p > 0,05) | |||
| Kaynak | Oran | Standart hata | Görsel |
|---|---|---|---|
| Neolitik Anadolu | 0,43 | ±0,04 | %43 |
| Yamnaya | 0,18 | ±0,03 | %18 |
| CHG | 0,29 | ±0,03 | %29 |
| Han (D. Asya proxy) | 0,10 | ±0,02 | %10 |
| p-değeri: 0,34 (model uyuyor: p > 0,05) | |||
| Kaynak | Oran | Standart hata | Görsel |
|---|---|---|---|
| Neolitik Anadolu | 0,62 | ±0,03 | %62 |
| Yamnaya | 0,38 | ±0,03 | %38 |
| p-değeri: 0,0003 (model reddedildi: p < 0,05) | |||
| Özellik | PSMC (Li & Durbin 2011) | MSMC (Schiffels & Durbin 2014) |
|---|---|---|
| Girdi | Tek bir diploid genom | 2-8 haploid dizi (1-4 birey) |
| Zaman çözünürlüğü | ~20.000 – 3.000.000 yıl | ~2.000 – 200.000 yıl |
| Güçlü yön | Tek örnekle çalışır (aDNA için ideal) | Yakın geçmiş çözünürlüğü yüksek |
| Zayıf yön | Yakın geçmişi göremez (<20K yıl) | Fazlanmış (phased) veri gerekir |
| Ek yetenek | — | Popülasyon ayrışma zamanı hesaplar |
| Veri kalitesi | Minimum 18× kapsama | Yüksek kalite + fazlama gerekli |
En iyi DNA korunması iç kulak kemiği (petrous bone) ve diş köklerinde bulunur. Petrous bone, vücudun en yoğun kemiğidir ve DNA'yı çevresel bozulmadan korur — %40-80 endojen insan DNA'sı içerebilir (diğer kemiklerde bu oran %0,1-5).
aDNA laboratuvarı modern DNA laboratuvarından fiziksel olarak ayrılmış, pozitif basınçlı, UV-sterilize edilmiş bir ortamdır. Araştırmacılar tam koruyucu kıyafet giyer. Tüm ekipman ve reaktifler DNA'sız (DNA-free) sertifikalıdır. Pre-PCR ve post-PCR alanları kesinlikle ayrılmıştır.
Kemik tozu EDTA ve proteinaz K ile gece boyu inkübe edilir (48-72 saat). Silika kolon veya boncuk tabanlı yöntemlerle DNA izole edilir. Matthias Meyer'in 2010'da geliştirdiği tek iplik kütüphane hazırlama (single-stranded library preparation) protokolü, çift iplik yöntemlerinin kaçırdığı ultra-kısa fragmanları da yakalayarak verimliliği 5-10 kat artırmıştır.
DNA fragmanlarının uçlarına adaptör diziler eklenir. Bu adaptörler dizileme platformunun fragmanları tanımasını sağlar. Her örnğe benzersiz bir barkod (index) eklenir — böylece birden fazla örnek aynı dizileme akışında çalıştırılabilir.
Tüm genom dizileme çok pahalı olduğundan, genellikle "1240K capture" yöntemi kullanılır: ~1,24 milyon bilinen SNP pozisyonuna karşılık gelen RNA probu dizileri, aDNA kütüphanesiyle hibridize edilir ve yalnızca hedef bölgeler yakalanır. Bu, maliyeti 10-50 kat düşürürken popülasyon genetiği için yeterli veri sağlar.
Illumina platformları (NovaSeq, HiSeq) standart araçlardır. Milyarlarca kısa okuma (read) paralel olarak üretilir. Tipik bir aDNA çalışmasında örneklem başına 1-10 milyon eşlenmiş okuma (mapped reads) hedeflenir; tam genom çalışmalarında bu 100+ milyona çıkar.
Ham okumalar BWA (Burrows-Wheeler Aligner) ile insan referans genomuna (hg19/GRCh37) hizalanır. Duplike okumalar kaldırılır (Picard/samtools). Kalite skoru düşük okumalar ve çok kısa fragmanlar (<30 bp) filtrelenir.
mapDamage2 yazılımı, fragman uçlarındaki C→T hasar oranını hesaplar. Gerçek aDNA'da bu oran fragman uçlarında tipik olarak %15-40 arasındadır. Bu patern görülmezse örnek modern kontaminasyon olabilir ve reddedilir. Bu, aDNA'nın en temel doğrulama kriteri.
Erkek bireyler için ANGSD ile X-kromozomu kontaminasyonu hesaplanır (erkekler tek X taşıdığından, heterozigotluk kontaminasyonu gösterir). mtDNA kontaminasyonu schmutzi/ContamMix ile tahmin edilir. Kabul edilebilir eşik genellikle <%5'tir.
Düşük kapsama (low-coverage) verilerde genotip belirleme zordur. Pseudohaploid genotipleme (her SNP pozisyonunda rastgele tek bir okuma seçilir) yaygın bir çözümdür. Ardından PCA, ADMIXTURE, f-istatistikleri ve qpAdm analizleri uygulanır.