İstatistik Matematik Olasılık

İSTATİSTİKSEL ÇIKARSAMA SÜRECİ VE İSTATİSTİKTE TEMEL KAVRAMLAR

2. İSTATİSTİKSEL ÇIKARSAMA SÜRECİ VE İSTATİSTİKTE TEMEL KAVRAMLAR

2.1. İstatistiksel Çıkarsama Süreci

Örneklemden elde edilen bilgilere dayalı olarak kitleyle ilgili tahmin yapma ve karar verme sürecidir. İstatistiksel çıkarım istatistiğin temel amaçlarından birisidir. Yöneticiler veya karar verme mekanizmaları istatistiksel çıkarım yöntemleri ile aldıkları kararları ve geleceğe dönük olarak yaptıkları tahminleri test ederler. İstatistiksel çıkarım yöntemlerini kullanan yöneticiler firmanın gelecekte üretim düzeyinin ne olacağını, önceki dönemlere ait verileri inceleyerek ve mevcut piyasa koşullarını göz önünde bulundurarak tahmin edebilirler. Yapılan tahminlere dayalı olarak firmanın yönetim, pazarlama, tedarik ve reklam gibi fonksiyonları ve diğer stratejilerine ilişkin kararlar alınabilir. İstatistiksel çıkarım süreci aşağıdaki gibidir:

Şekil.2.1. İstatistiksel Çıkarım Süreci

2.2. İstatistikte Temel Kavramlar

Kitle:

Populasyon, yığın ve anakitle (anakütle) şeklinde de adlandırılan kitle, herhangi bir istatistiksel problemde ilgi alanına giren konu ile ilgili birimlerin tamamının oluşturduğu topluluktur. Büyüklüğü “N” ile gösterilir yani kitle N tane birimden oluşmaktadır.

Bir diğer tanım; kitle, hakkında bilgi edinilmek istenen ve biçimsel homojenliğe sahip (belirli bir tanıma uyan) kollektif olay niteliğindeki birimlerin oluşturduğu topluluğa denir.

Parametre:

Kitle ile ilgili ölçümlere parametre denir. Örneğin kitleye ilişkin varyans (σ2), standart sapma (σ) ve ortalama (µ) birer parametredir. Bir kitle için bu gibi bilgiler tek bir değerden ibaret olduğundan, parametreler sabit bir sayı gibi düşünülebilirler. Parametrelerin hesaplanabilmesi için kitledeki her bir birimin hesaba alınması yani tamsayım yapılması gerekir. Ancak bu durum çoğu kez tercih edilmez, zira hem maddi olanaklar bakımından hem de zaman sorunu göz önüne alındığında, parametreler çoğu kez bilinmeyen, ancak tahmin edilen değerlerdir.

Örneklem:

Kitleden elde edilen ve kitlenin özelliklerini en iyi yansıtan “n” adet birimden oluşan birimler topluluğudur. Kitlenin olası alt kümelerinden her birine örneklem denir. Araştırmalarda kitleyi oluşturan bütün birimlere ulaşmak bazen imkânsız çoğu zaman ise masraflı olabilir. Bu kitleyi iyi temsil edebilen bir alt küme seçilerek incelenir. Bu alt kümeden hareketle kitle için tahminlerde bulunuruz. İşte kitlenin bu alt kümesine “örneklem” adı verilir. Ekonometri bölümü 1. Sınıf öğrencilerinin ağırlıklarını ölçmek istediğimizde, tüm öğrencilerin kilosunu öğrenmek yerine rastsal olarak bir örneklem çekerek de yaklaşık bir değere ulaşabiliriz. Şüphesiz, parametrenin yansız bir tahminin yapmak yani gerçek değerine çok çok yakın bir istatistik elde etmek için seçeceğimiz örneklemin kitleyi çok iyi temsil etmesi ve yeterli büyüklükte olması gerekmektedir. Söz gelimi, 500 öğrencinin ortalama ağırlığını tahmin etmekten bahsediyorsak, 10 öğrencinin ağırlığını ölçerek böyle bir tahmin yapmak uygun olmayacaktır. İlerleyen derslerde ideal örneklem büyüklüğünün nelere bağlı olarak belirlendiğini ve kaç olması gerektiğini öğrenmiş olacaksınız.

İstatistik (örneklem istatistiği):

Örneklemle ilgili tanımsal ölçüme denir. Örneğin örneklem varyansı, standart sapması ve örneklem ortalaması birer istatistiktir. Aynı kitle içinde bir örneklemden diğerine geçildiğinde istatistiklerin aldıkları değerler de değişmektedir. N büyüklüğündeki bir kitleden n hacimli mümkün tüm örnekler çekilse ki bu örneklemlerin sayısı N’in n’li kombinasyonu kadar sayıdadır, her biri için birer ortalama, varyans, vb. hesaplanabilir. Parametreler tek bir değer alırlarken, istatistikler örneklemden örnekleme değişen farklı değerler alabilmektedirler. Bu durumu kısaca bir örnekle açıklayalım. N=5 büyüklüğünde bir kitle olsun ve birimler aşağıdaki gibi olsun:

Kitle ortalaması, bütün bu birimlerin toplamının N’e yani 5’e bölünmesiyle elde edilir ve bu da 5’tir. Şimdi bu kitle ortalamasını örneklemler üzerinden tahmin etmeye çalışalım. n=3 büyüklüğünde mümkün tüm örneklemlerin sayısı 5’in 3’lü kombinasyonu kadardır yani 10 adettir.

Örneklem ortalamalarının ortalaması yani mümkün tüm örneklemlerden hesaplanan örneklem ortalamalarının ortalamasını hesaplarsak 4,997 elde ederiz ki bu da kitle ortalamasına çok yakın bir değerdir. Bu örneği vermekteki amacımız parametrenin örneklemler yoluyla nasıl tahmin edildiğine dair çok temel ve basitçe bir açıklama ihtiyacından ileri gelmektedir. Gerçekte böylesi az sayıda birimden oluşan bir kitle söz konusu olduğunda zaten örnekleme yapılmaksızın her birime kolayca ulaşılabileceği için doğrudan doğruya parametreler hesaplanabilir. Bu örnekten anlamamız gerekenler şöyle özetlenebilir: N büyüdükçe kitle birimlerine ulaşmak maddi olarak ve de zaman kısıdı açısından tercih edilmez, örnekleme yapılarak parametre tahmini yapılır. Elbette mümkün tüm örneklemlerin çekilmesi söz konusu değildir, zaten böyle bir imkân olsa tüm kitleye ulaşılmış demektir ve tamsayım söz konusudur. Gerçekte, kitleye dair bir çıkarsama yapılacağı zaman bir tane örneklem çekilir. Ancak bu örneklemin çekilme yöntemleri ve hacminin ne kadar büyüklükte olması gerektiği hususları önemlidir. Bu konulara ileride ayrıntısıyla değineceğimizi belirterek, şimdilik basitçe şunları söylemekte yarar vardır.

Örneklemin kitleyi en iyi şekilde temsil etmesi gerekir, yani hanelerin aylık kira ödemeleriyle ilgili bir çalışma yapılacaksa, örneğin İstanbul için düşünürsek, sadece Beşiktaş, Florya, Şişli’yi örneklem olarak seçersek İstanbul’u temsil etmiş olmayız. Ya da okulların başarı oranlarının hesaplanmak istendiği bir araştırmada sadece gelişmiş şehir merkezlerindeki okulları örnekleme alıp kırsal kesimi yok sayarsak bu durumda da gerçekten oldukça uzak, taraflı sonuçlar elde etmiş oluruz. Örneklemin temsili olmasının yanında, büyüklüğü de önemlidir. Örneğin 10 bin nüfuslu bir semtte araştırma yaparken 100 kişilik bir örneklem kullanmamalıyız. Çünkü bu rakam kitleyi temsil etmekten uzaktır.

Örneklem büyüklüğünün hesaplanması için çalışmanın başında belirlenen, araştırmacı tarafından kararlaştırılan belirli bir hata düzeyine göre örneklem hacmi hesaplanmaktadır. Basitçe ifade etmek gerekirse, büyük bir kitlenin görece büyük bir örneklemle temsil edilmesi gerekir. Örneğin 500 büyüklüğündeki bir kitle için 30 hacimli bir örneklem yeterli sayılabilirken, 10 bin hacimli bir kitle için örneğin 500 birimlik örneklem gerekebilir. Bu bağlamda, ülkemizde yapılan eğilim anketlerine dair açıklamaları değerlendirirken, ankete kaç kişinin katıldığını yani n örneklem hacmini göz önüne almak ve sonuçlara ancak yeterli örneklem üzerinden ulaşıldı ise güven duymak gerekmektedir. Türkiye’de çeşitli konulara ilişkin yapılan araştırmaların sonuçları medyada sık sık yer almaktadır. Fakat genellikle sadece bulgulara yönelik açıklama yapılırken, örneklemin kaç kişiden oluştuğuna değinilmemektedir. Örneğin toplumun yarısının bayanlardan oluştuğunu düşünürsek bu rakam kabaca 40 milyondur. 20 milyonu çocuklardan oluşsa geriye 20 milyon yetişkin bayan kalır. Bu durumda Türkiye’deki kadınlara ilişkin bir araştırma yapılacağını düşünürsek, söz gelimi 500 kişi 1000 kişi gibi örneklemler ile yapılan araştırmalara pek fazla itibar etmemek gerekmektedir. İstatistiksel araştırmanın temeli örneklemedir. Doğru, güvenilir ve yeterli veri yoksa en gelişmiş teknikler, modellemeler uygulansa dahi, kitleye dair doğru ve geçerli çıkarsama yapılmış olmaz. Gerçeğe yakın ve tutarlı sonuçlar elde etmek, doğrudan doğruya verinin kalitesine bağlıdır.

Birim:

Ölçülmeye ve (ya) sayılmaya elverişli olan canlı veya cansız tüm varlıklar istatistik birim olarak kabul edilebilir. Kişiler, hayvanlar, bitkiler, evler, arabalar, olaylar (evlenme, boşanma, ölüm, deprem, trafik kazaları, seller, çığ düşmeleri) v.b. hakkında ölçüm veya sayım yapılabileceği için istatistiksel birimdirler. Ancak, korku, hayal, rüya, v.b. ölçülemeyen, sayılamayan soyut varlıklar istatistiksel birim değildirler ve istatistiksel çalışmalara konu olamazlar.

Birimler 3 grupta incelenebilirler:[17]

Değişken:

Birimlerin araştırmaya konu olan herhangi bir özelliğine değişken denir. Birimlerimiz her bir öğrenci olduğunda bunların boy ölçüleri, ağırlık ölçüleri birer değişkendir, öğrenciden öğrenciye değişir. Ailelerin gelir düzeyleri, sahip oldukları çocuk sayısı bir değişkendir. Değişkenlerin alabilecekleri her bir değere ise “şık” denir. Örneğin medeni hal bir değişken olarak ele alındığında evli, bekâr, dul, vb. değerlerinin her biri birer şıktır.

Değişkenler;

a. Sayısal (nicel, kantitatif) değişkenler

Boy, ağırlık, alan, hacim, vb.

b. Sayısal olmayan (nitel, kalitatif) değişkenler

Cinsiyet, meslek, göz rengi, memleketi, vb. olarak ikiye ayrılır.

Sayısal değişkenler de;

a.Sürekli

b.Kesikli

olmak üzere ikiye ayrılır. Sürekli değişkenler ölçmeye tabidirler. Kesikli değişkenlerde ise sayma söz konusudur. Ailedeki çocuk sayısı, bir caddedeki evlerin sayısı, bir öğrencinin sahip olduğu kitapların sayısı, vb. bunlar hep sayılabilen yani kesikli değişkenlerdir. Değişkendir çünkü kişiden kişiye, aileden aileye farklı değerler almaktadır. Sürekli değişkenlere örnek verecek olursak, bir kutunun ağırlığı, bir insanın boy uzunluğu, bir arazinin yüz ölçümü, vb. sürekli değişkenlerdir. Özetle, eğer sayısal bir değişken sayılabiliyorsa kesiklidir, ölçülebiliyorsa süreklidir.

Nitel veriler kendi aralarında ikiye ayrılırlar; nominal veri ve ordinal veri.

Nominal veri; kategori ifade eder, Kategoriler arasında bir sıralama veya üstünlük yoktur. İstatistiksel araştırmalara sayısal kodlama yapılarak sayısallaştırılmak suretiyle dâhil edilirler. Örneğin;

Medeni hal: evli (1), bekâr (2), ayrılmış (3)

Göz rengi: siyah (1), yeşil (2), kahverengi (3),vb.

Cinsiyet: Kadın (1), erkek (2)

Meslek: öğretmen (1), bankacı (2), avukat (3), sanatçı (4), vb.

Ordinal veri; verinin sıralanması şeklindedir. Kategoriler arasında bir üstünlük sıralaması söz konusudur.

Örneğin;

Zayıf (1), orta (2), iyi (3), çok iyi (4)

Eğitim durumu: ilkokul (1), ortaokul (2), lise (3), üniversite (4), yüksek lisans (5), doktora (6)

Örnek:

a) Ekonometri bölümünde okuyan öğrencilerin evlerinden fakültelerine olan uzaklıklar

Bir ölçüm söz konusu olduğu için sürekli nicel veridir.

b) Bir okuldaki öğretmenlerin cinsiyetleri

Kategori belirten, nominal veridir.

c) 2014 yılında İstanbul’a düşen kar yağış miktarı

Bir ölçüm söz konusu olduğu için sürekli nicel veridir.

d) Son 5 yılda Tunceli-Erzincan karayoluna düşen çığ sayısı

Sayma işlemine dayandığı için kesikli nicel veridir.

e) Göz rengi

Kategori belirten, nominal veridir.

f) Bir evin tavan yüksekliği

Bir ölçüm söz konusu olduğu için sürekli nicel veridir.

g) Bir ilacın kana karışma süresi

Bir ölçüm söz konusu olduğu için sürekli nicel veridir.

h) Mezun olunan okul, askeri rütbeler, akademik ünvanlar

Sıralama söz konusu, ordinal veridir.

2.3. İstatistikte Hata Kavramı

Genel olarak iki tür istatistik hatadan bahsedilebilir;

1. Rastsal (tesadüfi) hata

2. Sistematik hata

Rastsal hata adı üzerinde, bilinçsizce yani herhangi bir kasıt olmadan yapılan hatalardır. Bu tür hatalar örneklem büyüdükçe artı ve eksi yönde birbirini götürerek etkisiz hale gelecektir. Bu nedenle rastsal hatalar genellikle göz ardı edilirler. Örneğin bir anket uygulamasında kişinin cinsiyeti “kadın” olduğu halde “erkek” şeklinde giriş yapılmış olabilir. Aynı anketör bir başka anket formunda tam tersi bir işaretleme yapmış olabilir veya bir başka anketör onun yaptığının tersi bir veri girişi yapmış olabilir. Yani bu ve benzeri bazen bir yönde bazen de tersi yönde yapılan hatalar gözlem sayısı arttıkça denkleşerek toplamda göz ardı edilebilmektedirler, böyle hatalara rastsal (tesadüfî) hata denir ve sakıncası yok denecek kadar azdır. 16. yy’da Bernoulli ve diğer matematikçiler tarafından yapılan “büyük sayılar kanunu”, gözlem sayısı arttıkça olayların rastsal nedenlerin etkisinden kurtulduğunu ortaya koymaktadırlar.

Sistematik hata ise bazen kasıtlı olarak yapılan bazen ise kullanılan teçhizatın bozukluğundan kaynaklanabilen, hep aynı yönde seyreden ve örneklem büyüse de tolere edilemeyen hatta bu şekilde daha da artan yapıdaki hatalardır. Sonuçların objektifliğini etkileyeceği için kesinlikle düzeltilmeleri gerekir. Örneğin hükümet karşıtı bir anket uygularken soruları hep muhaliflere yöneltmek sonuçların yanlı ve tek yönlü çıkmasına neden olacaktır. Sistematik hatalar bazen de kullanılan teçhizatın bozukluğundan kaynaklanabilir. Örneğin bozuk bir klavyenin “h” harfini devamlı olarak “g” olarak basması, bir tartının ayarının bozuk olması nedeniyle hep 15 gr eksik tartması, vb. Verilen örneklerden de anlaşılacağı üzere, sistematik hatalar yapılan istatistiksel çalışmanın en başından kalitesiz olmasına neden olur. İstatistiksel çalışmaların en temel ihtiyacı öncelikle doğru ve sağlam verilerdir.

Comments