Kayıp Veri Analizi: EM ve Çoklu Atama

Q: Yüzde kaç kayıp veri kabul edilebilir?

Tek başına bir yüzde eşiği yoktur; yüzde 5'in altındaki dağınık eksiklikte yöntem seçimi sonucu nadiren değiştirir. Belirleyici olan orandan çok mekanizmadır: yüzde 3'lük MNAR eksiklik, yüzde 15'lik MAR eksiklikten daha tehlikeli olabilir. Oran yüzde 10'u aşıyorsa çoklu atama ve duyarlılık analizi standart beklentidir.

Q: Little MCAR testi anlamlı çıktı, bu MNAR anlamına mı gelir?

Hayır. Anlamlı sonuç yalnızca MCAR'ın reddedildiğini gösterir; MAR ile MNAR arasındaki ayrım veriden test edilemez. Eksikliği gözlenen değişkenler açıklayabiliyorsa MAR varsayımı gerekçelendirilir ve çoklu atama geçerli kalır.

Q: Çoklu atamada kaç veri seti (m) üretmeliyim?

Eski m = 5 önerisi güncelliğini yitirdi; bugünkü standart en az m = 20'dir. Pratik bir kural, m'yi eksik gözlem yüzdesine yaklaştırmaktır: yüzde 30 eksiklik varsa m = 30 civarı seçmek havuzlanmış standart hataların kararlılığını artırır.

Q: Celsus kayıp veri analizinde hangi hizmetleri sunuyor?

Celsus, eksiklik örüntüsü teşhisi ve Little testi, mekanizma gerekçelendirmesi, SPSS veya R mice ile çoklu atama kurulumu, Rubin kurallarıyla havuzlama ve tez ya da makale için yöntem bölümü yazımını kapsayan uçtan uca destek verir. Tüm adımlar yeniden üretilebilir sözdizimle teslim edilir.

Saha verisiyle çalışan hemen her tezde anketlerin bir bölümü eksik döner; asıl soru kayıp olup olmadığı değil, kayıpla ne yapıldığıdır. Doğru bir kayıp veri analizi, eksikliğin mekanizmasını teşhis etmekle başlar ve yönteme bu teşhise göre karar verir. Varsayılan refleks olan listwise silme çoğu durumda hem istatistiksel gücü çöpe atar hem de tahminleri yanlı hâle getirir. Bu rehber, mekanizma teşhisinden EM algoritmasına ve çoklu atamaya uzanan karar zincirini özetler.

Üç kayıplık mekanizması: MCAR, MAR, MNAR

Kayıp veriye verilecek tepki, eksikliğin neden oluştuğuna bağlıdır. Literatür üç mekanizma tanımlar:

MCAR (tamamen rastgele kayıp): Eksiklik hiçbir değişkenle ilişkili değildir. Örnek: anketin son sayfası matbaa hatası nedeniyle bazı kitapçıklarda basılmamıştır. En masum, en nadir durumdur.
MAR (rastgele kayıp): Eksiklik, veri setindeki gözlenen değişkenlerle açıklanabilir. Örnek: yaşı yüksek katılımcılar teknoloji kullanım sorularını daha sık boş bırakıyor; yaş veri setinde mevcut. EM ve çoklu atama bu koşulda geçerlidir.
MNAR (rastgele olmayan kayıp): Eksiklik, eksik değerin kendisiyle ilişkilidir. Örnek: yüksek gelirli katılımcılar gelir sorusunu tam da gelirleri yüksek olduğu için boş bırakıyor. Standart yöntemler yetmez; duyarlılık analizi gerekir.

Little MCAR testi ve mekanizma teşhisi

SPSS'in Missing Value Analysis (MVA) modülündeki Little MCAR testi, eksiklik örüntüsünün MCAR ile tutarlı olup olmadığını sınar: p > 0,05 MCAR varsayımının reddedilemediğini gösterir; p < 0,05 ise eksikliğin sistematik olduğuna işaret eder. İki uyarı önemlidir: test MAR ile MNAR'ı birbirinden ayıramaz (bu ayrım veri ile test edilemez, ancak tasarım bilgisiyle gerekçelendirilir) ve büyük örneklemlerde önemsiz sapmaları bile anlamlı bulabilir. Bu yüzden teste ek olarak eksiklik göstergeleriyle (0/1) diğer değişkenler arasındaki ilişkiler incelenmeli, eksikliğin kimlerde yoğunlaştığı betimlenmelidir.

Silme ve ortalama atama neden savunulamaz?

Listwise silme, herhangi bir değişkeni eksik olan katılımcıyı bütünüyle analizden çıkarır. On değişkenli bir modelde her değişkende yüzde 5'lik bağımsız eksiklik bile örneklemin yüzde 40'ını eritebilir; güç kaybı dramatiktir. Daha kötüsü, mekanizma MAR ise kalan örneklem artık seçilmiş bir alt kümedir ve katsayı tahminleri yanlıdır. Pairwise silme her analizde farklı n kullanarak tutarsız, hatta pozitif tanımlı olmayan kovaryans matrisleri üretebilir. Ortalama atama ise en kötüsüdür: dağılımın ortasına yapay bir yığılma ekler, varyansı küçültür, korelasyonları sıfıra doğru çeker ve standart hataları olduğundan küçük gösterir. Modern literatürde ortalama atamanın savunulabilir hiçbir kullanım senaryosu yoktur. Ayrıca SPSS'in regresyon ve ANOVA prosedürlerinin varsayılan davranışı listwise silmedir; yöntem bölümünde belirtmeden bu seçimi farkında olmadan yapmış olursunuz.

Regresyon katsayısındaki mutlak göreli yanlılık (%): MAR senaryosu (illüstratif simülasyon değerleri)

EM algoritması ve çoklu atama nasıl çalışır?

EM (Expectation-Maximization) algoritması iki adımı yakınsayana dek yineler: E-adımında mevcut parametre tahminleriyle eksik değerlerin beklenen değerleri hesaplanır; M-adımında bu beklentilerle parametreler (ortalamalar, kovaryanslar) yeniden kestirilir. Sonuç, MAR altında etkin parametre tahminleridir. Zayıf noktası, tek bir tamamlanmış veri seti üretmesi ve atama belirsizliğini taşımamasıdır; EM ile doldurulmuş veriden hesaplanan standart hatalar olduğundan küçüktür.

Çoklu atama (multiple imputation) bu eksiği giderir: eksik değerler rastgele bileşen içeren bir modelle m kez doldurulur (güncel öneri en az m = 20, eksiklik oranı yüksekse daha fazla), analiz her veri setinde ayrı ayrı yürütülür ve sonuçlar Rubin kuralları ile birleştirilir. Rubin kuralları, atama içi ve atamalar arası varyansı toplayarak eksikliğin yarattığı belirsizliği standart hatalara dürüstçe yansıtır. Atama modeline, analizde kullanılacak tüm değişkenler ve eksikliği yordayan yardımcı değişkenler dahil edilmelidir. Atama sonrasında, üretilen değerlerin dağılımlarını gözlenen verilerle karşılaştıran tanı grafikleri, atama modelinin makul çalıştığını göstermenin pratik yoludur.

Kayıp veri yöntemlerinin karşılaştırması
Yöntem	Geçerli olduğu mekanizma	Avantaj	Dezavantaj
Listwise silme	Yalnızca MCAR (düşük kayıp oranında)	Basit, her yazılımda var	Ciddi güç kaybı; MAR altında yanlı
Pairwise silme	Yalnızca MCAR	Daha fazla veri kullanır	Analizler arası tutarsız n; bozuk kovaryans matrisi riski
Ortalama atama	Hiçbiri — savunulamaz	Hızlı	Varyansı küçültür, korelasyonları bozar, SE'leri düşürür
EM algoritması	MCAR ve MAR	Etkin parametre tahmini	Tek veri seti; standart hatalar olduğundan küçük
Çoklu atama (MI)	MCAR ve MAR	Belirsizliği yansıtır; geçerli standart hatalar	Hesaplama ve raporlama yükü; model kurma özeni ister

Kayıp veri analizi nasıl raporlanır?

Hakemlerin aradığı asgari set dörtlüdür: (1) değişken bazında eksiklik yüzdeleri ve toplam eksik örüntü sayısı, (2) mekanizma değerlendirmesi (Little testi sonucu ve gerekçeli MAR savunusu), (3) kullanılan yöntem ve ayrıntıları (çoklu atamada m sayısı, atama modelindeki değişkenler, yazılım), (4) tam veri analiziyle duyarlılık karşılaştırması. MNAR şüphesinin ciddi olduğu durumlarda (gelir, madde kullanımı gibi hassas sorular) delta-ayarlı çoklu atama türünden duyarlılık analizleri raporun gücünü artırır; amaç, sonuçların kayıplık varsayımına ne kadar duyarlı olduğunu göstermektir. Yazılım tarafında SPSS'te MVA modülü teşhis, Multiple Imputation menüsü atama ve havuzlama yapar; R'da mice paketi alan standardıdır ve zincirleme denklemlerle (chained equations) kategorik değişkenleri de esnek biçimde işler. Hangi analizi yapacağınızdan emin değilseniz test seçim rehberimize bakabilirsiniz.

Kayıp veri sorunu silmekle ortadan kalkmaz; yalnızca görünmez ve yanlılığa dönüşür.

Sık Sorulan Sorular

Yüzde kaç kayıp veri kabul edilebilir?

Tek başına bir yüzde eşiği yoktur; yüzde 5'in altındaki dağınık eksiklikte yöntem seçimi sonucu nadiren değiştirir. Belirleyici olan orandan çok mekanizmadır: yüzde 3'lük MNAR eksiklik, yüzde 15'lik MAR eksiklikten daha tehlikeli olabilir. Oran yüzde 10'u aşıyorsa çoklu atama ve duyarlılık analizi standart beklentidir.

Little MCAR testi anlamlı çıktı, bu MNAR anlamına mı gelir?

Hayır. Anlamlı sonuç yalnızca MCAR'ın reddedildiğini gösterir; MAR ile MNAR arasındaki ayrım veriden test edilemez. Eksikliği gözlenen değişkenler açıklayabiliyorsa MAR varsayımı gerekçelendirilir ve çoklu atama geçerli kalır.

Çoklu atamada kaç veri seti (m) üretmeliyim?

Eski m = 5 önerisi güncelliğini yitirdi; bugünkü standart en az m = 20'dir. Pratik bir kural, m'yi eksik gözlem yüzdesine yaklaştırmaktır: yüzde 30 eksiklik varsa m = 30 civarı seçmek havuzlanmış standart hataların kararlılığını artırır.

Celsus kayıp veri analizinde hangi hizmetleri sunuyor?

Celsus, eksiklik örüntüsü teşhisi ve Little testi, mekanizma gerekçelendirmesi, SPSS veya R mice ile çoklu atama kurulumu, Rubin kurallarıyla havuzlama ve tez ya da makale için yöntem bölümü yazımını kapsayan uçtan uca destek verir. Tüm adımlar yeniden üretilebilir sözdizimle teslim edilir.