ZORTUK: Profesyonel olmadan tanımlamak: #İstatistik 2

Korelasyon ve Regresyon Formülü

Bir seri yapmak için başladığım ilk yazıda " Profesyonel olmadan tanımlamak: İstatistik " başlığını kullandım. O yazıda genel hatlarıyla istatistikten bahsetmiştim, okuduğumuz bir metne/analize bakınca ne göreceğimiz konusu tartıştım.

Yazının devamı olarak ikinci bir yazı yazıp kendime bir not oluşturmak istedim. Bu yazıda temel istatistik analizleri içeren metinlerde, anlamlılığı belirtmek için sürekli karşımıza çıkan ve harfler ile simgelenen o değerlerin ne anlama geldiğini ve ne zaman bizler için anlamlı oldğunu aktarmak istiyorum.

Hipotez; ilk tanım olarak bilimsel düşüncenin temelindeki kelimeyi paylaşmak istiyorum. Temeli olarak değerlendirmenin en önemli nedeni, akıldaki sorudan gerçekliğe giderken geçişi sağlayan önerme olmasıdır. Kitabi tanıma göre; bilimsel bir yöntem içinden nedenler ve olaylar arasında ilişki kurmaya yarayan önermedir. Bu önerme sınanabilir bir niteliktedir. Bu sınanma, sürekli gerçekleştirlebilen, farklı kişiler tarafından yapılınca aynı sonuç elde edilmesi ile teori olarak adlandırılır ve geçerlilik kazanır.

Hipotezin ortaya atılması ve sınanmasıyla elde edilen iki sonuç bulunur:

H0 hipotezi; varsayılan değişkenler arasında istatistiksel bir farklılık bulunmaması durumunda saptanan önermedir.
H1 hipotezi; varsayılan değişkenler arasında anlamlı bir ilişki saptanması ile oluşturulan hipotezdir. Bilimsel yöntemler ile sınanıp geçerliliği saptanmıştır.

Veri, bir konu hakkında elde edilmiş her bilgi parçacığına verilen isimdir. Elde edilen veriler ise istatistiksel değerlendirme içerisinde farklı gruplar altında incelenmektedir. Bu gruplar:

Kategorik veri; kalitatif (nitel) veri olarak toplanan verilerdir. Bu veriler üzerinde işlem yapılamaz, nesnel özellikleri içerirler. Bu durum verinin sahip olduğu nitelikleri yani sıfatları içerir. Kendi içinde iki grupta incelenir:

Nominal veri; kategori içerisindeki verilerin sınıflandırılması ile elde edilen verilerdir. Hiyerarşik yapı içermezler.
Ordinal veri; anlamlı bir sıralamaya ve hiyerarşik yapıya sahip verilerdir.

Kantitatif veri; numerik değerleri içeren, üzerinde aritmetik işlemler yapılabilen bilgi parçalarıdır. Bu grupta kendi içinde dört grupta incelenmektedir.

Kesikli sayısal veriler; "discrete" verilerdir. Buradaki veriler genellikle tam sayı gibi, sonsuz ya da sonlu ama sayılabilir nitelikteki verileri içerir.
Sürekli sayısal veriler; "continious" verilerdir. Bu veri türü ise kesirli verilerdir. Veri seti içerisinde sonsuz değer alabilen veriler olarak karşımıza çıkarlar.
Aralıklı sayısal veriler; "interval" verilerdir. Dağılım içinde belli aralıkların eşit bölümlenerek temsil edilmesidir.
Oranlı sayısal veriler; "ratio" verilerdir. İki nitelik arasındaki oranın ortaya konulduğu veri türüdür. Lakin bu veri grubunda 0 değeri yokluğu gösterir.

Bir gruba ait verilerin tanımlanmasına yönetil analiz yapıldığında verilerin dağılım şekilleri hakkında bilgi edinme imkanı olur. Verilerin düzenli ve simetrik dağılımı olan "Skewness" yani normal dağılım ile veri dağılımındaki simetrinin tam olmadığı "kurtosis" yapısı meydana gelir. Elde edilen verilerin ayrıntılı incelenmesiyle bazı tanımlayıcı ölçütler saptanır.

Yer gösteren ölçütler

Aritmetik ortalama; tüm verilerin toplamının, veri sayısına oranıdır.
Ortanca (Medyan, median); verilerin büyüklük sıralamasının ortasında bulunan değerdir.
Tepe değer (Mod, mean); en çok tekrarlanan değerdir.
Oran (Ratio); iki veri çeşiti arasındaki orantısal dağılım veya yüzdeliktir.
Çeyrekler (Quarter); verilerin dağılımı sırasında dört eşit parçaya bölen değerlerdir.

Yaygınlık ölçütleri

Standart sapma (SD); dağılım içindeki bir değerin ortalamaya ne kadar uzaklıkta olduğunu gösterir. Bu değerdeki artış, veri setinin yaygınlığını gösterir.
Standart hata (Standart Error Mean SEM); örnek ortalaması ile toplum ortalaması arasındaki tutarlılığın tahminine yarayan ölçümdür.

Simetrik bir dağılım içindeki Standart sapmaların dağılımının bir başka ölçümü de percentil eğrisinin oluşturulmasıdır. Toplum içindeki simetrik dağılımın %68,26'sı ortalamaya yakınlı ile +/-1S percentil içinde temsil edilir. %95,44'ü +/-2SD iken %99,74'ü ise +/-3SD içinde yer alır.

Stardart sapma ve Percentil

Her veri türü için kullanımı ideal olan bir merkezi eğilim ölçütü mevcuttur. Bunları sıralayacak olursak:

Nominal veriler için mod kullanılır.
Ordinal veriler için medyan kullanılır.
Normal dağılım yapan sayısal değelerler için aritmetik ortalama kullanılır.
Normal dağılım göstermeyen sayısal değeler için medyan kullanılır.

ZORTUK

Sayfalar

Bu Blogda Ara

Translate

8 Haziran 2022 Çarşamba

Profesyonel olmadan tanımlamak: #İstatistik 2

Hiç yorum yok:

Yorum Gönder