İstatistiksel Kritik — Akademik Makale Eleştirel Okuma Rehberi

Bir popülasyon genetiği makalesinde "p < 0.001", "2 kat daha yüksek oran" ya da "istatistiksel olarak anlamlı" ifadesini görünce ne düşünürsünüz? Bu sayfa, bir aDNA veya GWAS makalesini okurken sormanız gereken 15 kritik soruyu öğretir. Kendi verilerinizle oynayabileceğiniz 7 interaktif hesaplayıcı, Python/R kod örnekleri ve Türk etnogenezi çalışmalarının gerçek eleştirileri içerir.

📋 İçindekiler

Giriş — Neden İstatistiksel Eleştiri?
p-değeri: Anlamı, Yanlış Anlamalar, p-Hacking
Çoklu Test Düzeltmesi — Bonferroni, FDR, Holm
Replikasyon — Keşif + Doğrulama Kohortları
Etki Büyüklüğü — Cohen's d, OR, r²
Güven Aralığı — Neden Sadece Ortalama Yetmez?
Güç Analizi — Örneklem Boyutu
Popülasyon Genetiği Pitfalls — Stratifikasyon, qpAdm
aDNA Spesifik Tuzaklar — Coverage, Kontaminasyon
15 Kritik Soru — Eleştirel Okuma Kontrol Listesi
Türk Etnogenezi Çalışmalarının İstatistiksel Eleştirisi
Akademik Kaynaklar

Neden İstatistiksel Eleştiri?

Popülasyon genetiği ve arkeogenomik son 15 yılda devrim geçirdi. Ancak bu alanın büyük veri (milyonlarca SNP, yüzbinlerce birey) ile çalışması, aynı zamanda istatistiksel tuzaklara açık olduğu anlamına gelir. Bir makaleyi okurken en yaygın dört hata:

"p < 0.001, yani bulgu kesin doğru"

p-değeri bir bulgunun doğruluk olasılığı değildir. Sadece null hipotez doğruysa bu sonucu görme olasılığıdır. Etki büyüklüğü ve replikasyon olmadan p-değeri anlamsızdır.

"Anlamlı farklılık bulduk, iki popülasyon farklı"

1 milyon SNP test edilirse, tesadüfen 50.000'i p < 0.05 çıkar. Çoklu test düzeltmesi yapılmadan "anlamlı" kelimesi yanıltıcıdır. GWAS standardı p < 5×10⁻⁸'dir, 0.05 değil.

"Örneklem küçük ama p-değeri küçük, bulgu güçlü"

Küçük örneklemde elde edilen küçük p-değeri, abartılı etki büyüklüğüna işaret eder (winner's curse). Büyük örneklemde replikasyon yapılırsa etki çoğunlukla daralır.

"Makale hakemli dergide yayımlandı, metodoloji sağlam"

Hakemler istatistikçi değildir. Nature, Science ve PNAS dahil büyük dergilerde popülasyon stratifikasyonu, admixture varsayım hataları sıkça yayımlanır. Eleştirel okuma vazgeçilmezdir.

Bu sayfanın hedefi: Bir popülasyon genetiği makalesini okuyan bir üniversite öğrencisi, lise araştırmacısı veya aydın bir okuyucu, metodolojik bölümü (Statistical analysis) anladığında bulguların gerçek anlamını kavrayabilir. Sayfa biter bitmez şunlar elinizde olacak: (a) p-değerini doğru yorumlama refleksi, (b) çoklu test düzeltmesi yapılıp yapılmadığını 10 saniyede kontrol etme, (c) etki büyüklüğü ile istatistiksel anlamlılığı karıştırmama, (d) replikasyon olmayan bulguları haklı şüpheyle ele alma.

p-değeri: Anlamı, Yanlış Anlamalar, p-Hacking

p-değeri nedir, ne değildir?

p-değeri, null hipotezin (H₀) doğru olduğu varsayımı altında, mevcut verileri (veya daha uç bir sonucu) gözlemleme olasılığıdır. Formal tanım:

p = P(Veri | H0 doğru)

Bir 2×2 allel frekans tablosu için (Popülasyon A'da bir allelin 120/800, Popülasyon B'de 90/800 olması) Fisher's exact test veya ki-kare testi kullanılır. Eğer p = 0.003 çıkarsa: "Eğer iki popülasyon gerçekten aynı olsaydı, bu kadar farklı veya daha fark bir örnek görme olasılığı %0.3'tür".

p-değeri ASLA şunu söylemez:

"H₀'ın yanlış olma olasılığı" (posterior olasılık — Bayesian bir kavram)
"Bulgunun doğru olma olasılığı" (bulgunun gözlendiği, doğru olması başka bir sorudur)
"Etki büyüklüğü" (p-değeri büyük örneklemde etki küçük bile olsa küçük çıkar)
"Replikasyon olasılığı" (p < 0.05 olan bulguların sadece %30-50'si replike edilir)

İnteraktif: χ² (Ki-kare) p-değeri Hesaplayıcı

İki popülasyon arasındaki bir SNP'nin allel frekansını karşılaştırın. Örnek: R1a-Z2123 varlığı Kırgızlar ile Sarmatlar arasında farklı mı?

2×2 Allel Frekans Testi

Pop A ve Pop B'de major/minör allel sayılarını girin. Chi-square istatistiği ve p-değeri hesaplanır.

Pop A: Taşıyıcı (n)

Pop A: Taşımayan (n)

Pop B: Taşıyıcı (n)

Pop B: Taşımayan (n)

χ² = __ , p-değeri = __

—

Giriş değerlerini değiştirin, sonuçlar anında güncellenir.

Python kodu — aynı test

# scipy ile 2x2 chi-square testi from scipy.stats import chi2_contingency # Gözlem tablosu: [PopA_tasiyici, PopA_tasimayan], [PopB_tasiyici, PopB_tasimayan] observed = [[380, 220], [150, 450]] chi2, p_val, dof, expected = chi2_contingency(observed) print(f"χ² = {chi2:.2f}, p = {p_val:.2e}, df = {dof}") # Output: χ² = 182.73, p = 1.2e-41, df = 1

p-Hacking: p-değerinin karanlık yüzü

p-hacking, istatistiksel anlamlılığa ulaşana kadar analizi değiştirme pratiğidir. Yaygın tuzakları:

p-Hacking taktiği	Ne yapar	Tespit yöntemi
Multiple testing without correction	100 SNP test eder, sadece p<0.05 olanları rapor eder	Metodolojide "Bonferroni" veya "FDR" arayın
Optional stopping	Veri toplamaya devam eder, p<0.05'e ulaşınca durur	Preregistration yok mu? Şüphe edin
Outlier exclusion	Uç değerleri çıkararak p-değerini düşürür	"Exclusion criteria" önceden belirtilmiş mi?
HARKing	Hipotezi sonuçlara göre yazar ("Hypothesizing After Results Known")	Preregistered hipotez var mı kontrol edin
Forking paths	Analiz seçenekleri arasında en düşük p-değerini seçer	Sensitivity analysis yok mu? Şüphe edin

Türk örneği: Yunusbayev et al. 2015 (PLOS Genetics) — "Türk halklarının genetik yapısı" çalışması 343 bireyden ADMIXTURE analiziyle çalıştı. K = 2'den K = 20'ye kadar farklı küme sayıları test edildi. Eğer sadece K = 7 (en "yorumlanabilir" olan) raporlansaydı, bu bir forking paths örneği olurdu. Ancak makale tüm K'leri Supplementary'de yayımladı — bu iyi bir pratik.

Sorulacak soru: ADMIXTURE makalelerinde, "en iyi K" nasıl belirlenmiş? Cross-validation error'dan mı, yorumlama kolaylığından mı?

Çoklu Test Düzeltmesi — Bonferroni, FDR, Holm

Neden gerekli?

Eğer 1.000.000 SNP'yi α = 0.05 ile test ederseniz, null hipotez her yerde doğru olsa bile tesadüfen 50.000 SNP "anlamlı" çıkar. GWAS analizleri milyonlarca karşılaştırma yapar — düzeltme olmazsa her çalışma "harika bulgular" yayınlar.

Üç ana yaklaşım

Yöntem	Formül	Kontrol ettiği	Ne zaman?
Bonferroni	α' = α / m	FWER (Family-Wise Error Rate) — en az bir yanlış pozitif olma olasılığı	Çok konservatif, az test (≤10-20)
Holm	α' = α / (m − i + 1)	FWER, rank-based	Bonferroni'den daha güçlü, aynı güvence
Benjamini-Hochberg (FDR)	p(i) < (i/m)·q	FDR (False Discovery Rate) — yanlış pozitif oranı	Exploratory, GWAS, yüz binlerce test

GWAS standardı: α = 5 × 10⁻⁸ (Bonferroni ile 1 milyon bağımsız test için)

İnteraktif: Bonferroni & FDR Hesaplayıcı

Çoklu Test Düzeltmesi Hesaplayıcı

p-değerlerinizi girin (virgülle ayırın). Bonferroni, Holm ve BH-FDR düzeltmeleri karşılaştırılır.

p-değerleri (virgülle ayırın)

α (tipik 0.05)

Bonferroni anlamlı kalan

—

p-değerlerini değiştirdiğinizde Bonferroni, Holm ve FDR sonuçları güncellenir.

R kodu — aynı düzeltmeler

# p-değerleri vektörü p_values <- c(0.001, 0.003, 0.008, 0.012, 0.02, 0.03, 0.04, 0.045, 0.06, 0.08) # Bonferroni düzeltmesi p_bonf <- p.adjust(p_values, method = "bonferroni") # Benjamini-Hochberg FDR p_fdr <- p.adjust(p_values, method = "BH") # Holm step-down p_holm <- p.adjust(p_values, method = "holm") data.frame(raw = p_values, bonf = p_bonf, holm = p_holm, fdr = p_fdr)

Manhattan Plot — GWAS'ın standart görselleştirmesi

396 SNP'lik simüle edilmiş bir GWAS'ın Manhattan plot'u. Her nokta bir SNP. Y-ekseni −log₁₀(p): yükseklik arttıkça anlamlılık artar. Kırmızı çizgi p = 5×10⁻⁸ (genome-wide), sarı çizgi p = 10⁻⁵ (suggestive). 5 gerçek sinyal peak'i var (LCT, HLA, HBB, MEFV, EDAR).

Manhattan Plot — Simüle GWAS

396 SNP, 22 kromozom, 5 gerçek pozitif sinyal. Tıklayın/hover edin.

QQ Plot — Dağılım Kontrolü

Null hipotez her yerde doğruysa, p-değerleri [0,1] aralığında uniform dağılır. QQ plot gözlemlenen −log₁₀(p)'leri beklenen −log₁₀(p)'lerle karşılaştırır. Diyagonal çizgiden sapma gerçek sinyalleri (kuyruk yukarı sapar) veya popülasyon stratifikasyonunu (tüm çizgi yukarı kayar) gösterir.

QQ Plot — Aynı GWAS'ın p-değer dağılımı

Diyagonal çizgi: uniform null beklenti. Yukarı sapan sağ kuyruk: gerçek sinyaller.

Lambda (genomic inflation): — — 1.0'a yakın iyi, 1.1+ popülasyon stratifikasyonu şüphesi.

Replikasyon — Keşif + Doğrulama Kohortları

Bir bulgu iki bağımsız örneklem setinde aynı yönde ve büyüklükte görülmelidir. Aksi halde "winner's curse" ya da "random noise" olma ihtimali yüksektir. Modern GWAS metodolojisi:

Keşif + Doğrulama (Discovery + Replication) şeması:

Keşif kohortu: Genellikle büyük (N > 5.000), tüm SNP'ler p < 5×10⁻⁸ eşiğinde test edilir
Doğrulama kohortu: Bağımsız, farklı popülasyon merkezli (N > 1.000), SADECE keşifte anlamlı çıkan SNP'ler test edilir
Meta-analiz: İki kohort birleşerek final p-değeri ve OR hesaplanır
Yön tutarlılığı: Keşifte OR > 1 ise, doğrulamada da > 1 olmalıdır — aksi halde yalancı pozitif

Kars 2021 PNAS (118:e2026076118) — iyi bir replikasyon örneği:

J-PH1795 hattının Osmanlı Hanedanı'nın imzası olduğu iddiası, iki bağımsız test grubuyla doğrulandı:

Keşif: 36 Osmanlı Hanedanı erkek üyesi (Topkapı arşivleri, modern soy takibi). Hepsi J-PH1795+
Doğrulama 1: Kayı boyu iddiası olan modern Türkiye aileleri. %40+ J-PH1795+ (beklenen frekans <%1)
Doğrulama 2: 3.362 birey rastgele Anadolu Türk toplumu baseline. J-PH1795 frekansı <%1

Bu yapı, rastgele hata veya p-hacking'in sonucu olmadığını göstermek için ideal.

Replikasyon başarısızlığı — "Winner's Curse"

Küçük keşif kohortunda elde edilen büyük etki büyüklükleri, replikasyonda küçülme eğilimi gösterir. Bunun nedeni: küçük örneklemde sadece gerçekten büyük etki veya tesadüfi olarak büyük görünen etki p < 0.05'e ulaşabilir. Yayınlanan değer biased'tır.

E[ORgözlenen] > ORgerçek (yayınlanan çalışmalar için)

2013'teki bir meta-analiz (Button et al., Nature Reviews Neuroscience), nöro-görüntüleme çalışmalarındaki ortalama etki büyüklüğünün replikasyonda %40-60 azaldığını gösterdi. aDNA ve popülasyon genetiğinde durum benzer.

Etki Büyüklüğü — Cohen's d, Odds Ratio, r²

p-değeri "fark var mı?" sorusunu cevaplar. Etki büyüklüğü (effect size) ise "fark ne kadar büyük?" sorusunu cevaplar. İkisi farklı bilgi verir.

Cohen's d — İki grup arasındaki standart fark

d = (μ1 − μ2) / SDpooled

d değeri	Yorum	Örnek
0.2	Küçük etki	İki popülasyon arası ortalama boy farkı 1 cm
0.5	Orta etki	Ortalama zeka skoru 7.5 puan fark
0.8+	Büyük etki	LCT laktozu sindirme oranı Avrupalı vs Çinli

Cohen's d Hesaplayıcı

İki grubun ortalama ve standart sapma değerlerini girin.

Grup 1 ortalama (μ₁)

Grup 1 SD

Grup 1 n

Grup 2 ortalama (μ₂)

Grup 2 SD

Grup 2 n

Cohen's d

—

Değerleri değiştirdikçe anında hesaplanır.

Odds Ratio (OR) — Allel/Risk karşılaştırması

Popülasyon genetiği ve GWAS'ın en sık kullanılan etki büyüklüğü. Bir allel Pop A'da Pop B'ye göre kaç kat daha olasıdır?

OR = (a·d) / (b·c) where a,b = Pop1 taşıyıcı/taşımayan; c,d = Pop2 taşıyıcı/taşımayan

OR = 1: Fark yok
OR = 1.5: Pop 1'de %50 daha yaygın (küçük-orta etki)
OR = 2+: Pop 1'de 2 kat yaygın (büyük etki, GWAS'ta nadir)
OR = 10+: Kurucu etki veya güçlü seçilim (HBB, MEFV, LCT gibi)

Türk örneği: Kırgızlarda R1a-Z2123 frekansı %63, Batı Avrupalılarda <%1. OR ≈ 170. Bu kurucu etki + seçilime işaret eder, çünkü normal demografik varyasyon bu büyüklükte OR üretmez.

r² — Açıklanan varyans

Bir prediktörün (örn. SNP, ataçsal soy) fenotipin (boy, hastalık riski, laktaz) varyansının yüzde kaçını açıkladığı. GWAS'ta çoğu SNP r² < 0.001 açıklar — yani klinik olarak anlamsız bile olabilir p < 5×10⁻⁸ çıksa bile.

Güven Aralığı — Neden Sadece Ortalama Yetmez?

%95 güven aralığı (CI), eğer çalışmayı sonsuz kez tekrarlasaydık, bu aralıkların %95'inin gerçek değeri kapsayacağı anlamına gelir. Sadece nokta tahminini raporlamak (örn. "OR = 2.1") yanıltıcıdır — örneklem büyüklüğü hakkında hiçbir bilgi vermez.

%95 CI = tahmin ± 1.96 × SE

Rapor şekli	Ne söyler	Değerlendirme
OR = 2.1	Nokta tahmin	Yetersiz
OR = 2.1, p < 0.01	Nokta + anlamlılık	Hâlâ yetersiz
OR = 2.1, 95% CI [1.4, 3.1]	Güven aralığı ile	İyi
OR = 2.1, 95% CI [0.9, 4.8]	Geniş aralık	Etki büyüklüğü belirsiz

Altın kural: Güven aralığı 1'i içeriyorsa (OR için), bulgu istatistiksel olarak anlamsızdır — p-değeri ne derse desin.

Neden error bar'lar yetmez? Bar chart'larda sadece SEM (standard error of mean) gösterilir. Ancak %95 CI tipik olarak 2 × SEM'dir. Makale sadece SEM gösteriyorsa, gözünüzde bar'ı 2 kat uzatın.

Güç Analizi — Örneklem Boyutu

İstatistiksel güç (power), gerçekten var olan bir etkiyi (H₁ doğruysa) tespit etme olasılığıdır. Formal olarak power = 1 − β, burada β tip II hata oranıdır. Standart hedef: güç ≥ 0.80.

Güç = f(örneklem boyutu N, etki büyüklüğü, α, testin tipi)

Güç analizi çalışmadan ÖNCE yapılır — hangi örneklem boyutunun hangi etki büyüklüğünü tespit edebileceğini belirler. Retrospektif güç analizi (post-hoc power) metodolojik olarak problemlidir.

İnteraktif: Güç Analizi Hesaplayıcı

Güç & Örneklem Hesaplayıcı (Ki-kare, 2×2)

Örneklem boyutu ve beklenen etki büyüklüğünden gücü hesaplar. Veya güç hedefinden gerekli N'i.

Etki büyüklüğü (w)

α (anlamlılık)

Örneklem (N)

Serbestlik derecesi (df)

İstatistiksel güç (1 − β)

—

Güç < 0.80 ise örneklem yetersiz. Büyük etki için küçük N yeterli; küçük etki için çok büyük N gerekli.

R kodu — pwr paketi

library(pwr) # Kİ-kare testi için güç analizi pwr.chisq.test(w = 0.3, N = 200, df = 1, sig.level = 0.05) # Output: # Chi squared power calculation # w = 0.3 # N = 200 # df = 1 # sig.level = 0.05 # power = 0.9699 # Alternatif: güç hedefinden N hesaplama pwr.chisq.test(w = 0.3, power = 0.80, df = 1, sig.level = 0.05) # N = 87.2

aDNA çalışmalarının ciddi sorunu: Antik numune sayısı sınırlı (N = 5-50 tipik). Küçük örneklemde sadece büyük etkiler tespit edilebilir. Yayınlanan makaledeki "anlamlı" bulgu, çoğunlukla winner's cursetur — replikasyonda daralır veya kaybolur.

Popülasyon Genetiği Pitfalls — Stratifikasyon, qpAdm

Popülasyon Stratifikasyonu

Eğer vaka ve kontrol grupları arasında atasal farklılık varsa (örn. vaka %80 Avrupalı, kontrol %40 Avrupalı), hastalıkla ilgili olmayan tüm farklı-frekanslı SNP'ler yalancı pozitif üretir. Bu sorunu çözmek için:

PCA (Principal Component Analysis): İlk 5-10 PC regresyona covariate olarak eklenir
Genomic Control (λ): QQ plot'tan inflation faktörü hesaplanır
Mixed Models (LMM): Akrabalık matrisi (kinship) model içinde — BOLT-LMM, SAIGE
Family-based designs: TDT — akrabalar arasında segregation test edilir, stratifikasyon etkilenmez

qpAdm / ADMIXTURE varsayımları

Antik DNA makalelerinde sık kullanılan qpAdm ve ADMIXTURE araçları, bir hedef popülasyonu referans kaynakların karışımı olarak modeller. Ancak temel varsayımlar sıklıkla ihlal edilir:

Varsayım	Nasıl ihlal edilir?	Sonuç
Kaynaklar (references) tüm gerçek ata popülasyonları temsil eder	Eksik kaynak kullanılır (örn. "Sibirya Neolitiki" eksik)	Farklı oranlar, yanlış yorumlanma
Genetik drift sabit	Dar darboğazdan geçmiş popülasyonlarda yüksek drift	p-değeri şişer, yanlış reddetme
Hedef "temiz karışım"dır	Çoklu admixture dalgaları olmuş (Anadolu gibi)	Basit 2/3 kaynak modeli uymaz
p > 0.05 → "model uyuyor"	Küçük örneklemde güç düşük, p büyük çıkar	Zayıf güvene dayanan yorumlamalar

qpAdm p-değeri paradoksu: Bu araçta p tersine yorumlanır. p > 0.05 "model kabul edilir" anlamına gelir, p < 0.05 "reddedilir". Bu nedenle büyük örneklem (N > 50) ile test edilmeyen modeller "başarılı" görünebilir sadece güç düşük olduğundan.

Türk örneği — Lazaridis 2022: Anadolu Türkleri'nin qpAdm ile modellemesi. Önerilen karışım: ~%60 Anadolu-Bizans + ~%30 Orta Asya Türk + ~%10 Kafkas. Sorulması gereken sorular:

Hangi "Orta Asya Türk" referansı kullanıldı? Göktürk mü, Uygur mı, Oğuz mu? Farkları büyüktür.
Alternatif modeller test edildi mi (örn. 4 kaynaklı, Selçuklu öncesi Bizans dahil)?
Güven aralıkları ne kadar geniş? %30 ± %5 mi, ±%15 mi?
Karışım tarihi (12.2 ± 1.4 nesil ≈ 11. yy) DATES programı ile mi hesaplandı, hangi varsayımlarla?

aDNA Spesifik Tuzaklar — Coverage, Kontaminasyon, Küçük N

Düşük Kapsama (Low Coverage)

Antik DNA'da sekans kapsama derinliği genellikle 0.1x - 1x, nadiren 3x+ olur. Düşük kapsama:

Genotip çağırma belirsizliği: 0.5x coverage'ta heterozigotu homozigot olarak çağırma riski yüksek
Imputation gerekli: Çoğu SNP "eksik", referans panellerle (1000 Genomes) doldurulur — bu kendisi hata kaynağı
F-istatistikleri bias: f3, f4 ve qpAdm testleri coverage'a duyarlı

Modern DNA Kontaminasyonu

Antik numuneler laboratuvarda modern DNA (müze çalışanları, arkeologlar, sekans teknisyenleri) ile kolayca kontamine olur. Kontrol yöntemleri:

Damage patterns: Antik DNA'da C→T ve G→A deaminasyon hasarı birikir. Uç bölgelerde beklenir; yoksa kontaminasyon
mtDNA kontaminasyonu: Schmutzi, ANGSD ile test edilir. %5+ kontaminasyon kabul edilemez
Y-kromozom heterozigotluğu: Erkek numunede X/Y oranı tuhaf mı?
Uzunluk dağılımı: Antik DNA <100bp; kontaminasyon >150bp

Küçük N Sorunu

aDNA çalışmalarında tipik örneklem: 5-50 birey. Bu nedenle:

Tek SNP varyantları aşırı yorumlanmamalı (N = 10'da 1 allel varyansı %10 frekansa karşılık gelir — belirsizlik yüksek)
Haplogrup frekansları geniş CI'larla rapor edilmelidir (örn. "6/9 = %67, 95% CI %30-92")
Temporal clustering: Aynı mezarlığın numuneleri akraba olabilir (soy ağacı çökmesi) — bağımsız olarak sayılamaz

Türk örneği — Ning 2020 Nature Communications (Göktürk J2 baskın):

9 birey analiz edilmiş, 6'sı J2 haplogrubunda. "Göktürk elit J2 hattı" iddiası doğru mu?

Güçlü yön: 9 bireyden 6 (%67) J2 — rasgele seçimden çok uzak. p < 0.001
Zayıf yön: 9 birey hepsi aynı arkeolojik site. Akraba olabilirler — bağımsız örneklem değiller
Zayıf yön: Aynı dönemde başka Göktürk mezarlıkları farklı haplogrup dağılımı gösterebilir. Tek site genelleme için yetersiz
Çözüm: Replikasyon için ek Göktürk mezarlıkları (bugüne kadar yayımlanan 2-3 başka çalışma var, hepsinde J2 baskın — bu artık sağlam bir bulgu)

15 Kritik Soru — Eleştirel Okuma Kontrol Listesi

Herhangi bir popülasyon genetiği veya aDNA makalesini okurken yanıtlamanız gereken 15 soru. Her biri bir "kırmızı bayrak" olabilir.

📋 Kritik Değerlendirme Listesi

Örneklem boyutu nedir? GWAS için N > 5.000, aDNA için N > 20 olmalı. Küçükse winner's curse şüphesi var.
Çoklu test düzeltmesi yapılmış mı? "Bonferroni", "FDR", "Benjamini-Hochberg" veya "p < 5×10⁻⁸" aranır. Yoksa büyük kırmızı bayrak.
Replikasyon kohortu var mı? Sadece "keşif" mi, yoksa bağımsız doğrulama da var mı? Replikasyon yoksa bulgu tentatiftir.
Etki büyüklüğü ve güven aralığı rapor edilmiş mi? Sadece p-değeri verilmişse, makale güçlü bir bulguyu gizliyor olabilir.
Popülasyon stratifikasyonu kontrol edilmiş mi? PCA, λ (genomic inflation) rapor edilmiş mi? λ > 1.1 ise şüphe.
Pre-registration var mı? Hipotezler veri görülmeden kayıtlı mı? Modern standart budur.
Veri mevcut mu? Raw data (reads, VCF) paylaşılmış mı (ENA, NCBI)? Reprodüktibilite için şart.
Kod paylaşılmış mı? GitHub, Zenodo gibi arşivlerde analiz kodu var mı?
aDNA için: contamination tests yapılmış mı? Schmutzi, ANGSD gibi araçlarla mtDNA, Y-kromozom kontaminasyonu test edilmiş mi?
aDNA için: damage patterns doğrulanmış mı? C→T, G→A hasarı uç bölgelerde var mı? mapDamage raporu var mı?
qpAdm için: alternatif modeller test edilmiş mi? Sadece 2-kaynaklı değil, 3-, 4-kaynaklı modeller de denenmiş mi? Feasibility rapor edilmiş mi?
qpAdm p-değeri nasıl yorumlanmış? p > 0.05 "model uyuyor" anlamına gelir ancak güç düşükse yanıltıcıdır. N belirtilmiş mi?
Sensitivity analizleri var mı? Alternatif parametrelerle (örn. SNP filter eşiği değişince) sonuçlar değişiyor mu?
Alternatif yorumlar göz önünde bulundurulmuş mu? Aynı veri için başka hipotezler de uyabilir mi? Makale sadece bir hipotez savunuyor mu?
Yazarların çıkar çatışması var mı? Ticari gen testi firmalarıyla bağlantı, siyasi/etnik kuruluşlarla ilişki bildirilmiş mi?

Türk Etnogenezi Çalışmalarının İstatistiksel Eleştirisi

Dört büyük çalışmanın metodolojik güçlü ve zayıf yönleri. Makaleler kendi verilerinden alınmış gerçek metodolojilere dayanmaktadır.

Kars et al. 2021 — "The genetic structure of the Turkish population"

PNAS 118 (36): e2026076118 · 3.362 Türkiye bireyi, tüm ekzom sekanslama · J-PH1795 + Osmanlı Hanedanı testi

✓ Güçlü yönler

Büyük N (3.362) — popülasyon seviyesi güçlü istatistik sağlar
Whole exome sequencing — yalnızca SNP çipine bağlı değil
J-PH1795 için üç bağımsız kohort (Hanedan, Kayı iddiası, rastgele baseline)
Veri NCBI'de açık (accession numaraları rapor edilmiş)
Lazaridis 2022 tarafından bağımsız olarak doğrulanmış ana bulgu (%25-40 Türk ata)

⚠ Metodolojik sınırlılıklar

Popülasyon stratifikasyonu: Türkiye içi coğrafi varyasyon (Doğu vs Batı) için PCA kontrolü sınırlı
Replikasyon kohortu aynı ülkede — farklı bir Türkiye örneklemi yoktur (tamamen ayrı veri için Haber 2022 ile karşılaştırma)
Osmanlı Hanedanı örneklemi 36 kişi — küçük N, akrabalık (soy ağacı çökmesi) olabilir

Turkic DNA Project güncellemesi (2024-2026) — Kars et al. hesabını zenginleştirir

Turkic DNA Project & Turkish DNA Project — 3.424 modern Y-DNA örneği · 11 Türk halk grubu · 49 Anadolu ili · 9 etnik alt-grup

Kars et al. 2021, Türkiye çapında Orta Asya katkısını %8-15 olarak hesapladı — ancak yalnızca C ve O haplogruplarını "Orta Asya özgü" sayarak bu oranı bulmuştu. Turkic DNA Project'in alt-grup düzeyindeki verileri, bu hesabın iki kritik eksiğini ortaya koyar:

✓ TDP'nin sağladığı yeni bilgi

Mikro-örüntü netleşti: Anadolu ortalaması (C2 %3.6, Q %3.9, N %11.1) bölgesel ve alt-grupsal farkları gizler. Çepni'de C2 %11.6, Manav'da N %17.2, Türkmen'de N+Q toplamı %22.
N ve R1a-Z93 de Türk-imzalı: Kars et al. sadece C ve O baktı; N (Baltık-Sibir) ve R1a-Z93 (Andronovo/İskit) bozkır kökenlidir. Bunlar dahil edildiğinde ortalama Türk-imzalı yüzdesi %21 — yani Kars hesabının ~3 katı.
49 il bazında veri: Kahramanmaraş %43.6 vs Edirne %14 gibi farklar, ulusal ortalamanın yanıltıcı olduğunu kanıtlar.

⚠ TDP'nin sınırlılıkları

Seçim yanlılığı: Katılımcılar Türk kimliği bilinçli kişiler — rastgele popülasyon örneği değil
Alt-grup etiketi öz-beyan: "Çepni" kaydı aile geleneğine dayalı, kesin genetik tanım değil
İl kategorisi aile kökenini gösterir: Büyük şehirde oturan ama "Giresun'luyum" diyen kişi o ilde kaydedilmiş olabilir

Sonuç: TDP verisi Kars et al.'ın nicel tahmini (%8-15 C+O) için mükemmel bir yapısal doğrulamadır — ama belirli alt-gruplarda Orta Asya katkısının %30-40'a çıkabildiğini gösterir. Tam tablo: Türk Alt-Grupları Y-DNA Profili →

Zeng et al. 2025 — "7.500 Year Continuity of Western Siberian Q1a2a"

Nature Communications 16: XXXX · Firsovo → Ulaanzuukh → Xiongnu → Türkmen zinciri · 128 antik birey

✓ Güçlü yönler

7.500 yıl boyunca temporal örneklem — en uzun patrilineal takip
Her dönemden birden fazla site (tek-site kısıtlamasını aşıyor)
Damage patterns, contamination tests tam rapor edilmiş
Bağımsız IBD (identity-by-descent) analizi ile hat doğrulanmış

⚠ Metodolojik sınırlılıklar

Her dönem için örneklem nispeten küçük (Firsovo N=12, Ulaanzuukh N=18)
Coğrafi örnekleme eksikliği: Orta Kazakistan, Tian Shan arası "boşluk" var, bu bölgede Q1a2a'nın gerçekten bulunup bulunmadığı açık değil
TMRCA (en yakın ortak ata) güven aralığı geniş (±300 yıl)
Modern Türkmen frekansı %30+ — ancak bu yalnız Q1a2a mı yoksa Q'nun diğer alt dalları dahil mi?

Lazaridis et al. 2022 — "The genomic history of the Mediterranean and Southern Asian region"

Science 377 (6609) · Anadolu Türkleri admixture tarihlendirmesi · qpAdm + DATES

✓ Güçlü yönler

727 antik birey — şimdiye kadar en geniş kronolojik aDNA örneklemi
Admixture tarihi 12.2 ± 1.4 nesil (~11. yy) — Selçuklu ile uyumlu
Multiple qpAdm modellerinin karşılaştırması yapılmış
DATES programıyla bağımsız tarihlendirme

⚠ Metodolojik sınırlılıklar

Admixture tarihi tek bir "göç olayı" varsayar — halbuki Anadolu'ya Türk akını 1071-1300 arası sürmüş, "tek nokta" yerine "dağılım" daha doğru olabilir
"Orta Asya Türk" referansı belirsiz: Hangi dönem, hangi site? Makalede kullanılan referans Xiongnu değil, Göktürk-Uygur dönemi
Anadolu "öncesi" referansı Bizans değil, Roma dönemi — 500+ yıl boşluk
Güven aralığı ±1.4 nesil görünüyor ama bu standart error, %95 CI değil — gerçek CI ±2.8 nesil

Yunusbayev et al. 2015 — "The genetic legacy of the expansion of Turkic-speaking nomads"

PLOS Genetics 11(4): e1005068 · 343 Türk konuşan birey, ADMIXTURE + IBD analizi

✓ Güçlü yönler

ADMIXTURE için K=2-20 tamamı Supplementary'de rapor edilmiş (forking paths'a karşı şeffaflık)
Cross-validation error ile optimal K belirlenmiş
IBD analizi ile ayrı bir doğrulama
Çok sayıda Türk halkı kapsamlı: Yakut, Başkurt, Çuvaş, Türkmen, Kırgız, Karaçay, Türkiye

⚠ Metodolojik sınırlılıklar

N = 343 büyük görünse de, 11 popülasyona bölündüğünde her biri ~30 birey — güç düşük
Antik referans yok: Sonuçlar günümüzdeki popülasyonlara dayanır, eski Xiongnu/Göktürk antik DNA'sı kullanılmamıştır
"Türk atasal bileşeni" olarak yorumlanan K, aslında "Doğu Avrasya genel" olabilir — daha spesifik bir referans eksik
Admixture tarihlendirmesi rapor edilmemiş, sadece oran

Akademik Kaynaklar

Temel metodoloji kitapları

Ziheng Yang — Computational Molecular Evolution, Oxford University Press. İstatistiksel filogenetiğin klasiği.
Graham Coop — Population and Quantitative Genetics. Açık erişim ders notları: cooplab.github.io/popgen-notes
John Novembre — Human Population Genetics. Video serisi UChicago.

İstatistiksel eleştiri klasikleri

Ioannidis JPA (2005) — Why Most Published Research Findings Are False. PLoS Medicine 2(8): e124. DOI
Button KS et al. (2013) — Power failure: why small sample size undermines the reliability of neuroscience. Nat Rev Neurosci 14: 365-376.
Wasserstein RL, Lazar NA (2016) — The ASA's Statement on p-Values. American Statistician 70(2): 129-133. p-değerinin resmi ASA tanımı.
Benjamin DJ et al. (2018) — Redefine statistical significance. Nature Human Behaviour 2: 6-10. α = 0.005 önerisi.

Popülasyon genetiği metodoloji

Patterson N et al. (2006) — Population Structure and Eigenanalysis. PLoS Genetics 2(12): e190. PCA metodolojisinin kurucu makalesi.
Alexander DH, Novembre J, Lange K (2009) — Fast model-based estimation of ancestry in unrelated individuals. Genome Research 19: 1655-1664. ADMIXTURE aracı.
Haak W et al. (2015) — Massive migration from the steppe was a source for Indo-European languages in Europe. Nature 522: 207-211. qpAdm metodolojisi.
Harney É et al. (2021) — Assessing the Performance of qpAdm. Genetics 217(4). qpAdm'ın sınırlılıkları.

Türk etnogenezi spesifik

Kars ME et al. (2021) — PNAS 118: e2026076118. Türkiye genel popülasyon yapısı.
Lazaridis I et al. (2022) — Science 377: eabm4247. Anadolu Türkleri admixture dating.
Yunusbayev B et al. (2015) — PLOS Genetics 11: e1005068. Türk konuşan halklar panoraması.
Ning C et al. (2020) — Nature Communications 11: 1-7. Göktürk aDNA ilk analizi.
Jeong C et al. (2020) — Cell 183(4): 890-904. Moğol bozkırının 6.000 yıllık genetik tarihi.

Pratik araçlar

PLINK 2.0 — cog-genomics.org/plink
PRSice-2 — Polygenic risk score hesaplama
AdmixTools / qpAdm — github.com/DReichLab/AdmixTools
ADMIXTURE — dalexander.github.io/admixture
qqman (R) — Manhattan + QQ plot'lar
statsmodels (Python) — multipletests, power_analysis

← Güncel Bulgular Kaynaklar →