EJONS INTERNATIONAL JOURNAL ON MATHEMATICS, ENGINEERING & NATURAL SCIENCES ISSN 2602 - 4136

Quick Access


Bu Dergi DOI ve Crosscheck üyesidir


KAYIP DEĞERLİ VERİ SETLERİNDE KÜMELEME UYGULAMALARI
(Clustering Practices in Missing Value Data Sets )

Author : SERPİL SEVİMLİ DENİZ  H.Eray ÇELİK - Çağdaş Hakan ALADAĞ  
Type :
Printing Year : 2020
Number : 16
Page : 998-1004
Cite : SERPİL SEVİMLİ DENİZ H.Eray ÇELİK - Çağdaş Hakan ALADAĞ, (2020). KAYIP DEĞERLİ VERİ SETLERİNDE KÜMELEME UYGULAMALARI. EJONS INTERNATIONAL JOURNAL ON MATHEMATICS, ENGINEERING - NATURAL SCIENCES, 16, p. 998-1004. Doi: 10.38063/ejons.365.
    


Summary

Kayıp veri, veri setlerinde bir veya daha fazla değerin elde edilememesi durumudur. Kümeleme analizinin amacı verileri benzerliklerine göre sınıflayarak araştırmacıya özet bilgi sağlamak ve çok fazla olan veri sayısını gruplayarak daha az sayıya indirgemektir. Bu çalışmada, nümerik ve nominal verilerden oluşan on bir ayrı veri setinde farklı kayıp veri oranları kullanılarak üç kümeleme yönteminin performansları karşılaştırılmıştır. Veri setlerinden yüzde beş, yüzde on, yüzde on beş, yüzde yirmi, yüzde yirmi beş ve yüzde otuz oranlarında veriler tamamen rastgele eksiltilerek verilerin doğru kümelenme oranları incelenmiştir. Kayıp veri ile çalışma performansı test edilen yöntemler bölümlemeli kümeleme yöntemlerinden k-ortalamalar ve yapay sinir ağı tabanlı kümeleme yöntemlerinden öz düzenlemeli haritalar- Self Organization Map (SOM) ve doğrusal vektör parçalama modeli- Learning Vektör Quantization (LVQ) dir. Yapılan analizlerin sonuçlarına göre; kayıp veri oranı arttıkça doğru kümelenme oranının azaldığı görülmektedir. Nominal ve nümerik verilerden oluşan iki kümeli dört veri setinde LVQ yönteminin diğer iki yönteme göre daha iyi performans gösterdiği, nümerik verilerden oluşan diğer yedi veri setinde ise SOM yönteminin daha iyi kümeleme yaptığı gözlenmiştir.



Keywords
Kayıp Veri, SOM, LVQ, Kümeleme, k-means

Abstract

Missing data is when one or more values cannot be obtained in the data sets. The purpose of cluster analysis is to provide summary information to the researcher by classifying the data according to their similarities and to reduce the number of data that is too much to less. In this study, the performances of the three clustering methods are compared using different missing data rates in eleven separate data sets consisting of numerical and nominal data. The correct clustering rates of the data were examined by decreasing the data at five percent, ten percent, fifteen percent, twenty percent, twenty five percent and thirty percent of the data sets completely and randomly. The methods whose working performance were tested using missing data are k-means, one of partitioned clustering methods and self-organizing maps, one of artificial neural network-based clustering methods - Self Organization Map (SOM) and linear vector segmentation model - Learning Vector Quantization (LVQ). According to the results of the analysis; it is observed that as the missing data rate increases, the correct cluster rate decreases. It was observed that the LVQ method performed better in four data sets with two sets of nominal and numerical data, while the SOM method performed better clustering in the other seven data sets consisting of numerical data.



Keywords
Missing Data, clustering, SOM,LVQ, k-means

Advanced Search


Announcements

    Mart Sayısı

    VERBİS'E KAYIT S�RELERİ HAKKINDA DUYURU | Kırklareli Ticaret ve ...

    Mart ayında yayınlanacak Sayımız için  25 Şubat Tarihine kadar çalişmanızı Yükleyebilirsiniz



Address :Kazakh National Women's Pedagogical University, Almatı, Kazakhistan
Telephone :+7 778 921 0336 - 0 534 349 92 73 Fax :
Email :ejonsjournal@gmail.com

Web Yazılım & Programlama Han Yazılım Bilişim Hizmetleri