PCA

PCA analizinin nasıl çalıştığını gösteren interaktif simülasyon

PC1 — ana varyasyon ekseni PC2

Simüle edilmiş PCA

Her nokta bir bireyi temsil eder. Genetik olarak benzer bireyler bir arada kümelenir.

PC1 (yatay eksen) en büyük genetik varyasyonu yakalar — genellikle coğrafi/kıtasal farkı temsil eder.

PC2 (dikey eksen) ikinci en büyük varyasyonu yakalar.

Karma bireyler (Türkiye simülasyonu), ana kümeler arasında bir yerde konumlanır — bu onların çoklu ata popülasyonlarından gen taşıdığını gösterir.

Nasıl okunur: Türkiye bireyleri (turuncu noktalar) Batı Avrupa, Kafkasya, Levant ve İran kümeleri arasında bir alanda konumlanır — bu, çoklu ata popülasyonlarından gen taşıdıklarını gösterir. Orta Asya kümesine doğru uzanan birkaç Türkiye bireyi, daha yüksek Orta Asya bileşeni taşıyan kişilerdir. PCA'da mesafe = genetik farklılık; iki nokta ne kadar yakınsa, o iki birey genetik olarak o kadar benzerdir.

ADMIXTURE

ADMIXTURE analizi farklı K değerleri ile nasıl çalışır — interaktif gösterim

f-İstatistikleri

f-istatistikleri hiyerarşisi: f2, f3 ve f4 açıklamaları

f2 — genetik mesafe

İki popülasyon arasındaki ayrışmayı ölçer
f2(A, B) = E[(a - b)²]

En basit f-istatistik: A ve B popülasyonlarının alel frekansları arasındaki ortalama karesel farktır. Filogenetik ağaçta iki popülasyon arasındaki dal uzunluğuna karşılık gelir. f2 ne kadar büyükse, iki popülasyon o kadar uzun süredir birbirinden ayrıdır.

Yorum: f2(Fransız, Han) > f2(Fransız, İtalyan) → Fransızlar Han Çinlilerinden, İtalyanlardan daha uzak.
▼ f2 kullanılarak ▼

f3 (admixture) — karışım testi

Bir popülasyonun iki kaynağın karışımı olup olmadığını test eder
f3(A, B; X) = E[(x - a)(x - b)]

X popülasyonunun alel frekansı, A ve B'nin arasında mı? Eğer öyleyse, f3 negatif çıkar — bu, X'in A ve B'nin karışımı olduğunun istatistiksel kanıtıdır. Sezgisel olarak: bir SNP pozisyonunda A'nın frekansı 0, B'nin 1, X'in 0,5 ise → (0,5-0)(0,5-1) = -0,25 → negatif katkı.

Negatif f3 = kanıtlanmış karışım.
Z-skoru ≤ -3 ise istatistiksel olarak anlamlıdır.
Dikkat: f3'ün negatif olmaması, karışım yokluğunu kanıtlamaz! Sürüklenme güçlüyse f3 pozitif kalabilir.
Gerçek örnek: f3(Neolitik_Anadolu, Yamnaya; Türkiye) → negatif (Z = -15,4) → Türkiye popülasyonu Neolitik Anadolu çiftçileri ve bozkır göçmenleri arasında bir karışımdır. Bu, formal olarak kanıtlanmıştır.
▼ alternatif kullanım ▼

f3 (outgroup) — paylaşılan sürüklenme

İki popülasyonun bir dış gruba göre ne kadar ortak tarih paylaştığını ölçer
f3(Outgroup; A, B) = paylaşılan sürüklenme miktarı

Burada X bir dış gruptur (örneğin Mbuti Pigmeleri — herkesin uzak akrabası). f3 değeri ne kadar büyükse, A ve B o kadar çok ortak genetik sürüklenme paylaşır — yani yakın zamana kadar aynı popülasyonun parçasıydılar.

Gerçek örnek: f3(Mbuti; Türkiye, X) değerini tüm X popülasyonları için hesaplarsın. En yüksek değeri veren X, Türkiye'ye genetik olarak en yakın popülasyondur. Sonuç: Güney Avrupalılar (İtalyanlar, Yunanlılar) en yüksek → Türkiye'nin ana genetik yakınlığı güney Avrupa ile.
▼ dört popülasyona genişletme ▼

f4 (D-istatistiği) — gen akışı testi

Dört popülasyon arasında ağaç yapısının bozulup bozulmadığını test eder
f4(A, B; C, D) = E[(a - b)(c - d)]

Eğer dört popülasyon basit bir ağaç oluşturursa, A-B arasındaki frekans farkları C-D arasındaki farklardan bağımsız olmalıdır → f4 = 0. Sıfırdan sapma, gen akışı olduğunu gösterir.

f4 > 0: A↔C veya B↔D arasında gen akışı
f4 < 0: A↔D veya B↔C arasında gen akışı
f4 ≈ 0: Gen akışı yok (ağaç yapısı geçerli)
Gerçek örnek: f4(Mbuti, Türkiye; Han, Karasuk_Bozkır) → pozitif (Z = +8,2) → Türkiye, Mbuti'ye göre Han'dan daha fazla bozkır bileşeni taşıyor. Bu, Türkiye'ye bozkır gen akışı olduğunun doğrudan kanıtıdır.
▼ oran tahmini ▼

f4-oranı — karışım yüzdesi

Karışım oranını nicel olarak hesaplar
α = f4(A, O; X, C) / f4(A, O; B, C)

f4-oranı, karışım oranını doğrudan hesaplar. X popülasyonu B ve C'nin karışımı ise, α B'nin katkı oranını verir. Bu, ADMIXTURE'ın yapabildiğinin formal istatistiksel versiyonudur — varsayımlara dayalı bir model değil, doğrudan ölçüm.

Gerçek örnek: α = f4(Mbuti, Chimp; Türkiye, Neolitik_Anadolu) / f4(Mbuti, Chimp; Yamnaya, Neolitik_Anadolu) → α ≈ 0,15 → Türkiye'nin Yamnaya-ilişkili bozkır katkısı yaklaşık %15.

qpAdm

qpAdm modelinin çalışma mantığı

qpAdm iş akışı

1. Hedef belirle 2. Kaynakları seç 3. Referansları seç 4. Model uyumunu test et 5. Oranları raporla

Örnek: Türkiye'yi modellemek

Hedef (target)
Modern Türkiye popülasyonu
Kaynaklar (left / sources)
Neolitik Anadolu (Barcın)
Yamnaya (Samara)
CHG (Kafkas avcı-toplayıcı)
Han (Doğu Asya proxy)
Referanslar (right / outgroups)
Mbuti
Onge (Andaman)
Papuan
Karitiana (Yerli Amer.)
Ust-Ishim (aDNA)
Model A: 3 kaynaklı (Neolitik + Yamnaya + CHG)
KaynakOranStandart hataGörsel
Neolitik Anadolu0,48±0,04%48
Yamnaya0,21±0,03%21
CHG0,31±0,04%31
p-değeri: 0,12 (model uyuyor: p > 0,05)
Model B: 4 kaynaklı (Neolitik + Yamnaya + CHG + Han)
KaynakOranStandart hataGörsel
Neolitik Anadolu0,43±0,04%43
Yamnaya0,18±0,03%18
CHG0,29±0,03%29
Han (D. Asya proxy)0,10±0,02%10
p-değeri: 0,34 (model uyuyor: p > 0,05)
Model C: 2 kaynaklı — yetersiz (Neolitik + Yamnaya)
KaynakOranStandart hataGörsel
Neolitik Anadolu0,62±0,03%62
Yamnaya0,38±0,03%38
p-değeri: 0,0003 (model reddedildi: p < 0,05)
p-değeri nasıl yorumlanır: qpAdm, modelin veriye ne kadar uyduğunu bir p-değeri ile raporlar. p > 0,05 ise model reddedilmez (kabul edilebilir). p < 0,05 ise model veriye uymaz — eksik veya yanlış kaynaklar var demektir. Model C'nin reddedilmesi, Türkiye'yi yalnızca Neolitik + Yamnaya ile açıklayamayacağımızı gösterir — Kafkas ve/veya Doğu Asya bileşenine ihtiyaç var.

PSMC / MSMC

PSMC/MSMC ile popülasyon büyüklüğü tahmini — simüle edilmiş eğriler

Popülasyon büyüklüğü eğrileri: Afrika en yüksek, Yerli Amerikan en düşük Nₑ gösterir.
Yatay eksen: bin yıl önce (log ölçek) | Dikey eksen: etkin popülasyon büyüklüğü (Nₑ × 10³)
Afrika (Yoruba) Avrupa (Fransız) Doğu Asya (Han) Yerli Amerikan
Nasıl okunur: Eğrilerin ~500K yıl öncesinde birleşmesi, tüm popülasyonların ortak atadan henüz ayrışmamış olduğunu gösterir. ~60-70K yıl öncesinde Afrika dışı eğrilerin düşmesi "Afrika'dan Çıkış" darboğazıdır. Yerli Amerikan eğrisinin en düşük olması, Beringya üzerinden geçişteki ikinci darboğazı yansıtır. Afrika eğrisinin en yüksek olması, Afrika popülasyonlarının darboğaz yaşamamasının sonucudur.
ÖzellikPSMC (Li & Durbin 2011)MSMC (Schiffels & Durbin 2014)
GirdiTek bir diploid genom2-8 haploid dizi (1-4 birey)
Zaman çözünürlüğü~20.000 – 3.000.000 yıl~2.000 – 200.000 yıl
Güçlü yönTek örnekle çalışır (aDNA için ideal)Yakın geçmiş çözünürlüğü yüksek
Zayıf yönYakın geçmişi göremez (<20K yıl)Fazlanmış (phased) veri gerekir
Ek yetenekPopülasyon ayrışma zamanı hesaplar
Veri kalitesiMinimum 18× kapsamaYüksek kalite + fazlama gerekli

aDNA Laboratuvar Süreci

Antik DNA laboratuvar iş akışı — örnekten veriye

Faz 1: Örnek hazırlama
1

Kemik / diş seçimi

En iyi DNA korunması iç kulak kemiği (petrous bone) ve diş köklerinde bulunur. Petrous bone, vücudun en yoğun kemiğidir ve DNA'yı çevresel bozulmadan korur — %40-80 endojen insan DNA'sı içerebilir (diğer kemiklerde bu oran %0,1-5).

Pinhasi et al. (2015): Petrous bone keşfi, aDNA alanını devrim niteliğinde değiştirdi. Önceden yüzlerce milyon okuma gerektiren örnekler, artık birkaç milyon okumayla yeterli kapsama ulaşabiliyor.
2

Temiz oda (clean room) protokolü

aDNA laboratuvarı modern DNA laboratuvarından fiziksel olarak ayrılmış, pozitif basınçlı, UV-sterilize edilmiş bir ortamdır. Araştırmacılar tam koruyucu kıyafet giyer. Tüm ekipman ve reaktifler DNA'sız (DNA-free) sertifikalıdır. Pre-PCR ve post-PCR alanları kesinlikle ayrılmıştır.

3

DNA çıkarma (extraction)

Kemik tozu EDTA ve proteinaz K ile gece boyu inkübe edilir (48-72 saat). Silika kolon veya boncuk tabanlı yöntemlerle DNA izole edilir. Matthias Meyer'in 2010'da geliştirdiği tek iplik kütüphane hazırlama (single-stranded library preparation) protokolü, çift iplik yöntemlerinin kaçırdığı ultra-kısa fragmanları da yakalayarak verimliliği 5-10 kat artırmıştır.

Faz 2: Kütüphane hazırlama ve dizileme
4

Kütüphane hazırlama (library preparation)

DNA fragmanlarının uçlarına adaptör diziler eklenir. Bu adaptörler dizileme platformunun fragmanları tanımasını sağlar. Her örnğe benzersiz bir barkod (index) eklenir — böylece birden fazla örnek aynı dizileme akışında çalıştırılabilir.

UDG (Uracil-DNA Glycosylase) enzimi, sitozin deaminasyonu kaynaklı urasil bazlarını kesip çıkarır. "Half-UDG" protokolü ise fragman uçlarındaki hasarı koruyarak hem kimlik doğrulama hem doğru dizileme sağlar.
5

Hedef zenginleştirme (target enrichment / capture)

Tüm genom dizileme çok pahalı olduğundan, genellikle "1240K capture" yöntemi kullanılır: ~1,24 milyon bilinen SNP pozisyonuna karşılık gelen RNA probu dizileri, aDNA kütüphanesiyle hibridize edilir ve yalnızca hedef bölgeler yakalanır. Bu, maliyeti 10-50 kat düşürürken popülasyon genetiği için yeterli veri sağlar.

Alternatif: Shotgun (tüm genom) dizileme — daha pahalı ama daha kapsamlı. Yüksek endojen DNA oranına sahip petrous bone örneklerinde tercih edilir.
6

Yeni nesil dizileme (NGS)

Illumina platformları (NovaSeq, HiSeq) standart araçlardır. Milyarlarca kısa okuma (read) paralel olarak üretilir. Tipik bir aDNA çalışmasında örneklem başına 1-10 milyon eşlenmiş okuma (mapped reads) hedeflenir; tam genom çalışmalarında bu 100+ milyona çıkar.

Faz 3: Biyoinformatik ve kalite kontrol
7

Hizalama ve filtreleme

Ham okumalar BWA (Burrows-Wheeler Aligner) ile insan referans genomuna (hg19/GRCh37) hizalanır. Duplike okumalar kaldırılır (Picard/samtools). Kalite skoru düşük okumalar ve çok kısa fragmanlar (<30 bp) filtrelenir.

8

Hasar paterni doğrulaması

mapDamage2 yazılımı, fragman uçlarındaki C→T hasar oranını hesaplar. Gerçek aDNA'da bu oran fragman uçlarında tipik olarak %15-40 arasındadır. Bu patern görülmezse örnek modern kontaminasyon olabilir ve reddedilir. Bu, aDNA'nın en temel doğrulama kriteri.

9

Kontaminasyon tahmini

Erkek bireyler için ANGSD ile X-kromozomu kontaminasyonu hesaplanır (erkekler tek X taşıdığından, heterozigotluk kontaminasyonu gösterir). mtDNA kontaminasyonu schmutzi/ContamMix ile tahmin edilir. Kabul edilebilir eşik genellikle <%5'tir.

10

Genotip belirleme ve popülasyon analizi

Düşük kapsama (low-coverage) verilerde genotip belirleme zordur. Pseudohaploid genotipleme (her SNP pozisyonunda rastgele tek bir okuma seçilir) yaygın bir çözümdür. Ardından PCA, ADMIXTURE, f-istatistikleri ve qpAdm analizleri uygulanır.

Kritik kavram — endojen DNA oranı: Bir örnekteki toplam dizilenen okumaların ne kadarının hedef organizmaya (insana) ait olduğunu gösterir. Petrous bone için %40-80, uzun kemikler için %0,5-10, dişler için %5-25 tipiktir. Düşük endojen oranı, yeterli kapsama ulaşmak için çok daha fazla dizileme kapasitesi gerektirir — maliyeti katlar.