Lisansüstü tezlerde ve hakemli makalelerde p değeri uzun yıllar tek başına yeterli sayıldı; oysa p değeri bir farkın ne kadar büyük olduğunu değil, yalnızca gözlenen verinin sıfır hipotezi altında ne kadar olağandışı olduğunu söyler. Etki büyüklüğü (effect size) asıl araştırma sorusunu yanıtlar: Fark ya da ilişki pratikte ne kadar güçlü? APA 7 raporlama standartları ve çoğu derginin yazar yönergesi artık her testin yanında etki büyüklüğü ve güven aralığı bildirilmesini zorunlu tutuyor. Bu rehber Cohen d, Hedges g, η², ω² ve r ölçülerini tek haritada toplar.
p değeri neden tek başına yanıltır?
Sorun, p değerinin örneklem büyüklüğüne doğrudan bağımlı olmasıdır. Somut bir örnek: 100 puanlık bir ölçekte iki grubun ortalamaları 62,1 ve 61,5 olsun (standart sapma 20). Aradaki 0,6 puanlık fark Cohen d = 0,03'e karşılık gelir — pratikte yok hükmünde. Her grupta 10.000 kişi varsa t ≈ 2,12 ve p ≈ 0,034 bulunur: fark "istatistiksel olarak anlamlı"dır. Aynı d = 0,03, grup başına 100 kişiyle p ≈ 0,83 verir. Etki her iki durumda da eşit derecede önemsizdir; değişen tek şey örneklemdir. Yeterince büyük N, en önemsiz farkı bile anlamlı hâle getirir.
Madalyonun öbür yüzü de geçerlidir: grup başına 20 kişilik bir pilot çalışmada d = 0,45 gibi orta düzeye yakın bir etki t ≈ 1,42; p ≈ 0,16 üretir. Anlamlılığa ulaşmaması etkinin yokluğunu kanıtlamaz; çalışmanın gücü yetersizdir. Bu yüzden anlamlılık ve etki büyüklüğü her zaman birlikte raporlanmalı, örneklem planlaması da G*Power ile beklenen etki büyüklüğü üzerinden yapılmalıdır.
Üç etki büyüklüğü ailesi: d, varyans ve korelasyon
d ailesi: Cohen d ve Hedges g
Cohen d, iki ortalama arasındaki farkı havuzlanmış (birleştirilmiş) standart sapmaya böler: d = (M₁ − M₂) / SS havuzlanmış. d = 0,50, grupların yarım standart sapma ayrıştığı anlamına gelir. Küçük örneklemlerde d etkiyi sistematik biçimde abartır; Hedges g bu yanlılığı yaklaşık J = 1 − 3/(4sd − 1) düzeltme çarpanıyla giderir (sd: serbestlik derecesi). Grup başına 10 kişide düzeltme yaklaşık %4'tür; grup büyüklüğü 20'nin altındaysa g raporlamak standarttır ve meta-analizlerin varsayılan metriği de g'dir.
Varyans ailesi: η², kısmi η² ve ω²
ANOVA ailesinde η² (eta kare), etkinin toplam varyansın yüzde kaçını açıkladığını gösterir: etkiye ait kareler toplamının genel kareler toplamına oranıdır (η² = KT etki / KT toplam). Çok faktörlü desenlerde SPSS'in raporladığı değer kısmi η²'dir; diğer faktörlerin varyansını paydadan çıkardığı için tek faktörlü η²'den büyük çıkar ve iki ölçü birbirinin yerine yorumlanmamalıdır. Her ikisi de pozitif yanlıdır: örneklem küçüldükçe etkiyi şişirirler. ω² (omega kare) hata varyansını hesaba katan, özellikle küçük örneklemlerde belirgin biçimde daha az yanlı bir tahmindir ve hakemlerce giderek daha sık talep edilmektedir.
Korelasyon ailesi: r ve R²
Pearson r, iki sürekli değişken arasındaki doğrusal ilişkinin yönünü ve gücünü −1 ile +1 arasında özetler; karesi R² açıklanan varyans oranını verir. r = 0,30 "orta" görünür ama R² = 0,09'dur: varyansın yalnızca %9'u. Regresyonda model katkıları için Cohen f² = R²/(1 − R²) kullanılır. Mann–Whitney U gibi parametrik olmayan testlerin Z istatistiği de r = Z/√N dönüşümüyle aynı ölçeğe taşınır.
Aileler arası dönüşüm
- r = d / √(d² + 4) (eşit büyüklükte iki grup için); ters yönde d = 2r / √(1 − r²).
- İki gruplu desende η² = r²'dir; dolayısıyla d = 0,50 ≈ r = 0,24 ≈ η² = 0,06 — üç aile aynı etkinin farklı dilleridir.
- Cohen f = √(η² / (1 − η²)). G*Power'ın ANOVA modülü f ister, SPSS η² verir; bu dönüşümü atlamak güç analizini geçersiz kılar.
Hangi test için hangi etki büyüklüğü?
Aşağıdaki tablo en sık kullanılan testleri önerilen etki büyüklüğü ölçüsüyle ve Cohen'in klasik eşikleriyle eşler. Testin kendisini seçme aşamasındaysanız test karar rehberimize bakabilirsiniz.
| Test | Etki büyüklüğü | Küçük | Orta | Büyük |
|---|---|---|---|---|
| Bağımsız / eşleştirilmiş t-testi | Cohen d, Hedges g | 0,20 | 0,50 | 0,80 |
| Tek yönlü / faktöriyel ANOVA | η² (tercihen ω²) | 0,01 | 0,06 | 0,14 |
| Pearson korelasyonu | r | 0,10 | 0,30 | 0,50 |
| Çoklu regresyon | f² | 0,02 | 0,15 | 0,35 |
| Ki-kare bağımsızlık testi | Cramér V (2×2'de φ) | 0,10 | 0,30 | 0,50 |
| Mann–Whitney U / Wilcoxon | r = Z/√N | 0,10 | 0,30 | 0,50 |
Cohen eşikleri ve alan bağımlılığı eleştirisi
Cohen'in 0,20 / 0,50 / 0,80 eşikleri pratik bir başlangıç noktasıdır; ancak Cohen bunları başka hiçbir dayanak yoksa kullanılacak son çare olarak önermiştir. Eşikleri alanlar arasında taşımak yanıltıcıdır: eğitim araştırmalarında bir öğretim yılının tipik kazanımı d ≈ 0,40 civarındadır ve bu büyüklükte bir müdahale etkisi o bağlamda "orta" değil, dikkat çekici sayılır. Kişilik psikolojisinde r = 0,30 üst sınıra yakındır; epidemiyolojide kitlesel sonuçları olan ilişkiler r = 0,05 düzeyinde kalabilir. Doğru ölçüt, kendi alanınızdaki meta-analizlerin ve benzer çalışmaların raporladığı dağılımdır: bulgunuzu bu dağılımın neresine düştüğüyle yorumlayın ve tartışma bölümünde bu karşılaştırmayı açıkça yapın.
p değeri bir etkinin var olduğunu, etki büyüklüğü ise umursamaya değer olup olmadığını söyler.
Güven aralıkları ve raporlama zorunluluğu
Etki büyüklüğü de bir örneklem tahminidir; belirsizliği vardır ve nokta değerle birlikte %95 güven aralığı raporlanmalıdır. d ve η² için aralıklar merkezi olmayan dağılımlar üzerinden hesaplanır; R'daki effectsize ve MBESS paketleri ile JASP ve jamovi bunu otomatik verir, SPSS'te ise çoğu durumda ek sözdizimi gerekir. d = 0,45; %95 GA [0,02; 0,88] gibi bir sonuç etkinin yönü hakkında fikir verse de büyüklüğü hakkında neredeyse hiçbir şey söylemez — bunu dürüstçe yazmak gerekir.
Örnek raporlama formatı: t(58) = 2,31; p = 0,024; d = 0,60; %95 GA [0,08; 1,12]. Eksik etki büyüklüğü, tez jürilerinin ve dergilerin en sık geri gönderme nedenlerinden biri hâline geldi; analiz aşamasında baştan eklemek size bir revizyon turu kazandırır. Hakem sürecinde bu talep geldiyse hakem yanıtı rehberimizdeki stratejiler işinizi kolaylaştırır.
Sık Sorulan Sorular
Etki büyüklüğü kaç olursa iyi sayılır?
Evrensel bir eşik yoktur. Cohen eşikleri (d için 0,20/0,50/0,80) yalnızca başlangıç noktasıdır; doğru yorum, kendi alanınızdaki benzer çalışmaların ve meta-analizlerin tipik değerleriyle karşılaştırmaktır. Maliyeti düşük bir müdahalede küçük bir etki bile pratik olarak değerli olabilir.
SPSS'in verdiği kısmi eta kare ile eta kare aynı şey mi?
Hayır. Tek faktörlü ANOVA'da ikisi eşittir; ancak çok faktörlü desenlerde kısmi eta kare diğer faktörlerin varyansını paydadan çıkardığı için daha büyük çıkar. Hangisini raporladığınızı açıkça belirtin ve çalışmalar arası karşılaştırmalarda aynı ölçünün kullanıldığından emin olun.
Cohen d negatif çıkarsa ne anlama gelir?
Yalnızca farkın yönünü gösterir: ikinci grubun ortalaması birinciden büyüktür. Büyüklük yorumunda mutlak değer kullanılır; raporlarken farkın hangi grubun lehine olduğunu açıkça yazmanız yeterlidir.
Celsus etki büyüklüğü konusunda hangi destekleri sunuyor?
Testlerinize uygun etki büyüklüklerinin hesaplanması, güven aralıklarıyla birlikte APA 7 uyumlu raporlanması, G*Power ile örneklem gerekçelendirmesi ve hakem revizyonlarında eksik etki büyüklüklerinin tamamlanması dahil uçtan uca destek veriyoruz.