Multinomial lojistik regresyonda farklı kestirim yöntemleri

Küçük Resim Yok

Tarih

2024

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Tekirdağ Namık Kemal Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Lojistik regresyon analizi, kategorik bir yanıt değişkenin, bir ya da birden çok açıklayıcı değişken yardımıyla tahmin edildiği bir regresyon türüdür. Açıklayıcı değişkenler sürekli, kesikli veya bunların karışımı olabilir. Lojistik regresyon analizi, denetimli bir makine öğrenmesi yöntemi olarak sınıflandırma problemlerinde sıklıkla kullanılır. Yanıt değişkenin iki kategorili olduğu veri setlerinde binary (iki kategorili) lojistik regresyon, üç ya da daha fazla kategorili olduğu verilerde ise multinomial (çok kategorili) lojistik regresyon analizi uygulanır. Bu çalışmada, tüm açıklayıcı değişkenleri sürekli olan dört farklı gerçek veri seti üzerinde yapılan multinomial lojistik regresyon analizinde, açıklayıcı değişkenler arasındaki korelasyonlara bakılıp iç ilişki düzeyi incelenmiş ve tüm veri setleri için Maksimum olabilirlik, Ridge, LASSO, Elastic-net ve Temel Bileşenler Analizi yöntemleriyle kurulan modellerin test veri setindeki tahmin isabet oranları kıyaslanmıştır. Ayrıca, her bir veri setinden rastgele alınan örneklemlerle N/p oranı kontrollü bir şekilde küçültülerek (N: Gözlem sayısı, p: Açıklayıcı değişken sayısı) beş farklı modelin gösterdiği performanslar incelenmiştir.
Logistic regression analysis is a type of regression in which a categorical response variable is estimated with the help of one or more explanatory variables. Explanatory variables can be continuous, discrete, or a mixture of these. Logistic regression analysis is frequently used in classification problems as a supervised machine learning method. Binary (two-category) logistic regression is applied in data sets where the response variable has two categories, and multinomial (multi-category) logistic regression analysis is applied in data with three or more categories. In this study, multinomial logistic regression analysis performed on four different real data sets, all explanatory variables of which are continuous. The correlations between the explanatory variables were checked and multicollinearity was examined. The results were established for all data sets by Maximum Likelihood, Ridge, LASSO, Elastic-net and Principal Component Analysis methods. The prediction accuracy rates of the models in the test data sets were compared. In addition, the performances of five different models were examined by reducing the N/p ratio in a controlled manner (N: Number of observations, p: Number of explanatory variables) with randomly taken samples from each data set.

Açıklama

Anahtar Kelimeler

Matematik, Mathematics

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye