Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması
Yıl: 2023 Cilt: 16 Sayı: 2 Sayfa Aralığı: 147 - 160 Metin Dili: Türkçe DOI: 10.54525/tbbmd.1235547 İndeks Tarihi: 06-12-2023
Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması
Öz: Bilgisayarları ve makineleri çalıştırmak üzere belirli fonksiyonların işletilebilmesi için kullanılan komutlar bütünü yazılım olarak adlandırılmaktadır. Günümüzde birçok alanda yapılan faaliyetler ve kullanılan uygulamalar, içerisinde farklı algoritmalarla tasarlanmış yazılımlar barındırır. Bu yazılımların kusursuz ve ihtiyaçları karşılayacak şekilde olması büyük önem teşkil etmektedir. Yazılımın kalitesi, yazılımın içerisinde hata barındırmaması hem yazılımı geliştiren kişilerin hem de yazılımı kullanan son kullanıcıların önem verdiği konulardır. Yazılım hata tahmini doğası gereği dengesiz sınıf problemi içerir. Bu çalışmada, öncelikle dengesiz sınıf problemi çözülmeye çalışılmıştır. Bu doğrultuda, farklı alt örnekleme ve üst örnekleme yöntemleri, literatürde araştırmacıların kullanımına açık NASA’nın PROMISE veri deposundan alınan CM1, KC1, KC2, JM1 ve PC1 veri kümelerinin üzerinde uygulanmıştır. Yazılım hata tahmini aşamasında ise farklı sınıflandırma algoritmaları karşılaştırılarak her bir veri kümesi için en uygun algoritma belirlenmiştir. Deney sonuçlarında on farklı örnekleme yöntemi ile veri kümelerindeki dengesiz sınıf problemi giderilmiş; on üç farklı sınıflandırma algoritması ile sınıflandırma işlemi yapılmıştır. 0,92 oranında AUC ölçütü ile en iyi sınıflandırma sonucu PC1 veri kümesinde elde edilmiştir. Bu çalışma ile yazılım hata tahmininde örnekleme yöntemleri ve uygun sınıflandırıcılar ile hata tahmininin başarımının daha iyi olabileceği gösterilmiştir. Elde edilen sonuçlar, literatürde yapılan çalışmalar ile karşılaştırılarak önerilen yöntemin üstünlüğü ve etkinliği kanıtlanmıştır.
Anahtar Kelime: Comparison of Different Oversampling and Undersampling Methods in Software Defect Prediction
Öz: The set of commands used to operate certain functions to operate computers and machines is called software. Today, activities and applications used in many fields contain software designed with different algorithms. It is of great importance that these softwares are perfect and in a way that meets the needs. The quality of the software and the absence of errors in the software are issues that both the developers of the software and the end users of the software attach importance to. Software defect prediction inherently involves an imbalanced class problem. In this study, first of all, the imbalanced class problem was tried to be solved. In this direction, different undersampling and oversampling methods were applied on the CM1, KC1, KC2, JM1 and PC1 datasets taken from NASA's PROMISE data repository, which is open to researchers in the literature. In the software defect prediction phase, different classification algorithms were compared and the most suitable algorithm was determined for each data set. In the experimental results, the imbalanced class problem in the datasets was resolved with ten different sampling methods; classification was done with thirteen different classification algorithms. With an AUC of 0.92, the best classification result was obtained in the PC1 dataset. With this study, it has been shown that the performance of defect prediction can be better with sampling methods and appropriate classifiers in software defect prediction. The results obtained were compared with the studies in the literature and the superiority and effectiveness of the proposed method were proven.
Anahtar Kelime: Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
- [1] Yalçın, N., & Şimşek Yağlı, B. Teknoloji mağazalarının ISO 25010 kalite modeline dayalı web sitesi kalite değerlendirmesinin çok kriterli analizi: Türkiye örneği, 2020.
- [2] Bulut, S. Makine öğrenmesi, Algoritmik Habercilik ve Gazetecilikte İşlevsiz İnsan Sorunsalı, Selçuk İletişim, 2020, 13(1), 294-313.
- [3] Aydilek, İ. Yazılım hata tahmininde kullanılan metriklerin karar ağaçlarındaki bilgi kazançlarının incelenmesi ve iyileştirilmesi, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 2018, 24(5), 906-914.
- [4] Çetiner, M. Makine öğrenmesi yöntemleri ile yazılım hata tahmini, Master's thesis, İstanbul Kültür Üniversitesi/Lisansüstü Eğitim Enstitüsü/Bilgisayar Mühendisliği Ana Bilim Dalı/Bilgisayar Mühendisliği Bilim Dalı, 2020.
- [5] Sun, Z., Song, Q., & Zhu, X. Using coding-based ensemble learning to improve software defect prediction, IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2012, 42(6), 1806-1817.
- [6] Eivazpour, Z., & Keyvanpour, M. R. Improving performance in software defect prediction using variational autoencoder, 5th Conference on Knowledge Based Engineering and Innovation (KBEI), 2019, pp. 644-649.
- [7] Malhotra, R., Agrawal, V., Pal, V., & Agarwal, T. Support Vector based Oversampling Technique for Handling Class Imblance in Software Defect Prediction, 11th International Conference on Cloud Computing, Data Science & Engineering (Confluence), 2021, pp. 1078-1083.
- [8] Choirunnisa, S., Meidyani, B., & Rochimah, S. Software Defect Prediction using Oversamling Algorithm: A-SUWO, Electrical Power, Electronics, Communications, Controls and Informatics Seminar (EECCIS), 2018, pp. 337-341.
- [9] Elahi, E., Ayub, A., & Hussain, I. Two staged data preprocessing ensemble model for software fault prediction, International Bhurban Conference on Applied Sciences and Technologies (IBCAST), 2021, pp. 506-511.
- [10] Goyal, S. Handling class-imbalance with KNN (neighbourhood) under-sampling for software defect prediction, Artificial Intelligence Review, 2022, 55(3), 2023-2064.
- [11] Jacob, R. J., Kamat, R. J., Sahithya, N. M., John, S. S., & Shankar, S. P. Voting based ensemble classification forsoftware defect prediction, IEEE Mysore Sub Section International Conference (MysuruCon), 2021, pp. 358-365.
- [12] Cetiner, M., & Sahingoz, O. K. A comparative analysis for machine learning based software defect prediction systems, 11th International Conference on Computing, Communication and Networking Technologies (ICCCNT), 2020, pp. 1-7.
- [13] Pelayo, L., & Dick, S. Applying novel resampling strategies to software defect prediction, NAFIPS 2007-2007 Annual meeting of the North American fuzzy information processing society, 2007, pp. 69-72.
- [14] Aleem, S., Capretz, L. F., & Ahmed, F. Benchmarking machine learning Technologies for software defect detection, arXiv preprint arXiv:1506.07563, 2015.
- [15] Ibrahim, D. R., Ghnemat, R., & Hudaib, A. Software defect prediction using feature selection and random forest algorithm, International Conference on New Trends in Computing Sciences (ICTCS), 2017, pp. 252-257.
- [16] Akmel, F., Birihanu, E., & Siraj, B. A literatüre review study of software defect prediction using machine learning techniques,Int. J. Emerg. Res. Manag. Technol, 2017, 6(6), 300- 306.
- [17] Naidu, M. S., & Geethanjali, N. Classification of defects in software using decision tree algorithm, International Journal of Engineering Science and Technology, 2013, 5(6), 1332.
- [18] «http://promise.site.uottawa.ca/,» google, [Çevrimiçi]. http://promise.site.uottawa.ca/SERepository/datasets- page.html [Erişildi: 7 Ocak 2023].
- [19] Aydin Hakli, D. Sınıf Dengesizliği Sorununu Çözmek için Kullanılan Algoritmaların Farklı Sınıflandırma Yöntemlerinde Performanslarının Karşılaştırılması, 2018.
- [20] Yavaş, M., Güran, A. & Uysal, M. Covid-19 Veri Kümesinin SMOTE Tabanlı Örnekleme Yöntemi Uygulanarak Sınıflandırılması, Avrupa Bilim ve Teknoloji Dergisi Ejosat Özel Sayı 2020 (HORA), 2020, 258-264.
- [21] Çelik, Ö. & Kaplan, G. Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması, Erciyes Üniversitesi Fen Bilimleri Enstitüsü Fen Bilimleri Dergisi, 2020, 36 (3), 433-442.
- [22] Akın, P. & Terzi, Y. Dengesiz Veri Setli Sağkalım Verilerinde Cox Regresyon ve Rastgele Orman Yöntemlerin Karşılaştırılması, Veri Bilimi, 2020, 3 (1), 21-25.
- [23] Öztürk, H. Dengesiz veri setlerinde farklı dengeleme algoritmalarının optimum denge oranlarının sınıflandırma ve regresyon ağaçları yöntemi ile incelenmesi: simülasyon çalışması,2022.
- [24] Dal, A., Gümüş, İ. H., Güldal, S. & Yavaş, M. Dengesiz Veriler İçin Ağırlıklı Geometrik Ortalama Tabanlı Yeni Bir Yeniden Örnekleme Yaklaşımı, Adıyaman Üniversitesi Mühendislik Bilimleri Dergisi, 2021, 8 (15), 343-352.
- [25] Topal, A., & Amasyalı, M. F. Yapay Örnek Üretimi Ne Zaman İşe Yarar? When does Synthetic Data Generation Work?
- [26] UYANIK, F., & KASAPBAŞI, M. C. Telekomünikasyon sektörüiçin veri madenciliği ve makine öğrenmesi teknikleri ile ayrılan müşteri analizi, Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 2021, 9(3), 172-191.
- [27] Mukherjee, M., & Khushi, M. SMOTE-ENC: A novel SMOTE- based method to generate synthetic data for nominal and continuous features, Applied System Innovation, 2021, 4(1), 18.
- [28] Kaba, G. & Bağdatlı Kalkan, S. Kardiyovasküler Hastalık Tahmininde Makine Öğrenmesi Sınıflandırma Algoritmalarının Karşılaştırılması, İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 2022, 21 (42), 183-193.
- [29] Taşcı, E., & Onan, A. K-en yakın komşu algoritması parametrelerinin sınıflandırma performansı üzerine etkisinin incelenmesi, Akademik Bilişim, 2021, 1(1), 4-18.
- [30] Şengül, Z. Makine öğrenmesi algoritmalarını kullanarak bitcoin fiyat tahmini, Master's thesis, Trakya Üniversitesi Sosyal Bilimler Enstitüsü, 2022.
- [31] Gumustekin Aydın, S. & Aydoğdu, G. Makine Öğrenmesi Algoritmaları Kullanılarak Türkiye ve AB Ülkelerinin CO2 Emisyonlarının Tahmini, Avrupa Bilim ve Teknoloji Dergisi, 2022, Ejosat Special Issue (ISAS 2022), 42-46.
- [32] Şenel Ahmet, F. Makine Öğrenmesi Algoritmaları Kullanılarak Kayısı İç Çekirdeklerinin Sınıflandırılması,2020.
- [33] Kalaycı, T. E. Kimlik hırsızı web sitelerinin sınıflandırılması için makine öğrenmesi yöntemlerinin karşılaştırılması, Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi,2020, 24 (5), 870- 878.
- [34] Yavuz, Ö. Ç., Karaman, E. & Yeşilyaprak, C. Makine öğrenmesi algoritmalarıyla astronomik gözlem kalitesi tahminine yönelik karar destek sistemi geliştirilmesi ve uygulanması, Trends in Business and Economics, 2022, 36 (3), 289-303.
- [35] Yıldırım, E. & Çalhan, A. Apache Spark ile Makine Öğrenmesi Destekli Diyabet Rahatsızlığı Tahmini, Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 2022, 10 (3), 1107-1117.
- [36] Sahingoz, O. K., Çebi, C. B., Bulut, F. S., Fırat, H. & Karataş, G. Saldırı Tespit Sistemlerinde Makine Öğrenmesi Modellerinin Karşılaştırılması, Erzincan University Journal of Science and Technology, 2019, 12 (3), 1513-1525.
- [37] Güleş, Ş. Makine öğrenmesi yöntemleri ile zararlı yazılım tespiti,Master's thesis, Konya Teknik Üniversitesi, 2020.
- [38] YILDIRIM, E. Hızlandırılmış Makine Öğrenmesi Algoritmaları İle Türkçe Sahte Haber Tespiti, 2022.
- [39] Serbest, K., & Kılıç, S. A. Diz Eklemi Momentinin Tahmini İçin Makine Öğrenmesi Yöntemlerinin İncelenmesi, Academic Perspective Procedia, 4(1), 341-349, 2021.
- [40] Üstüner, M., Abdikan, S., Bilgin, G. & Balık Şanlı, F. Hafif Gradyan Artırma Makineleri ile Tarımsal Ürünlerin Sınıflandırılması, Turkish Journal of Remote Sensing and GIS, Academic Perspective Procedia, 1 (2), 97-105, 2020.
- [41] Şahinbaş, K. Price Prediction Model for Restaurants In Istanbul By Using Machine Learning Algorithms, Ekonomi İşletme ve Maliye Araştırmaları Dergisi, 4 (2), 159-171, 2022.
- [42] Onan, A. Twıtter Mesajları Üzerinde Makine Öğrenmesi Yöntemlerine Dayalı Duygu Analizi, Yönetim Bilişim Sistemleri Dergisi, 3 (2), 1-14, 2017.
- [43] Selimoglu, M. & Yılmaz, A. Kredi Kartı Dolandırıcılık Tespitinin Makine Öğrenmesi Yöntemleri ile Tahmin Edilmesi, Beykent Üniversitesi Fen ve Mühendislik Bilimleri Dergisi, 13 (2), 28-33, 2021.
- [44] Cıhan, M., & Ceylan, M. Comparison of linear discriminant analysis, support vector machines and naive bayes methods in the classification of neonatal hyperspectral signatures, 29th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4), 2021.
- [45] Çetin, E. Yedinci Servikal Vertebranın Antropometrik Ölçümleri İle Makine Öğrenme Algoritmaları Kullanılarak Cinsiyet Tayini Üzerine Bir Çalışma(Doctoral dissertation), 2021.
- [46] Seçgin, Y. Pelvis bilgisayarlı tomografi görüntülerinden elde edilen parametreler ile makine öğrenme algoritmaları kullanılarak cinsiyet tahmini üzerine bir deneme (Master's thesis, Lisansüstü Eğitim Enstitüsü), 2020.
- [47] Kartal, E., v e Özen, Z. Dengesiz veri setlerinde sınıflandırma), Mühendislikte Yapay Zekâ ve Uygulamaları, 1st ed, 2017.
APA | ŞEN KAYA Ö, Bozkurt Keser S (2023). Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması. , 147 - 160. 10.54525/tbbmd.1235547 |
Chicago | ŞEN KAYA Özge,Bozkurt Keser Sinem Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması. (2023): 147 - 160. 10.54525/tbbmd.1235547 |
MLA | ŞEN KAYA Özge,Bozkurt Keser Sinem Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması. , 2023, ss.147 - 160. 10.54525/tbbmd.1235547 |
AMA | ŞEN KAYA Ö,Bozkurt Keser S Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması. . 2023; 147 - 160. 10.54525/tbbmd.1235547 |
Vancouver | ŞEN KAYA Ö,Bozkurt Keser S Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması. . 2023; 147 - 160. 10.54525/tbbmd.1235547 |
IEEE | ŞEN KAYA Ö,Bozkurt Keser S "Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması." , ss.147 - 160, 2023. 10.54525/tbbmd.1235547 |
ISNAD | ŞEN KAYA, Özge - Bozkurt Keser, Sinem. "Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması". (2023), 147-160. https://doi.org/10.54525/tbbmd.1235547 |
APA | ŞEN KAYA Ö, Bozkurt Keser S (2023). Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması. TBV Bilgisayar Bilimleri ve Mühendisliği Dergisi, 16(2), 147 - 160. 10.54525/tbbmd.1235547 |
Chicago | ŞEN KAYA Özge,Bozkurt Keser Sinem Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması. TBV Bilgisayar Bilimleri ve Mühendisliği Dergisi 16, no.2 (2023): 147 - 160. 10.54525/tbbmd.1235547 |
MLA | ŞEN KAYA Özge,Bozkurt Keser Sinem Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması. TBV Bilgisayar Bilimleri ve Mühendisliği Dergisi, vol.16, no.2, 2023, ss.147 - 160. 10.54525/tbbmd.1235547 |
AMA | ŞEN KAYA Ö,Bozkurt Keser S Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması. TBV Bilgisayar Bilimleri ve Mühendisliği Dergisi. 2023; 16(2): 147 - 160. 10.54525/tbbmd.1235547 |
Vancouver | ŞEN KAYA Ö,Bozkurt Keser S Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması. TBV Bilgisayar Bilimleri ve Mühendisliği Dergisi. 2023; 16(2): 147 - 160. 10.54525/tbbmd.1235547 |
IEEE | ŞEN KAYA Ö,Bozkurt Keser S "Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması." TBV Bilgisayar Bilimleri ve Mühendisliği Dergisi, 16, ss.147 - 160, 2023. 10.54525/tbbmd.1235547 |
ISNAD | ŞEN KAYA, Özge - Bozkurt Keser, Sinem. "Yazılım Hata Tahmininde Farklı Alt Örnekleme ve Üst Örnekleme Yöntemlerinin Kıyaslanması". TBV Bilgisayar Bilimleri ve Mühendisliği Dergisi 16/2 (2023), 147-160. https://doi.org/10.54525/tbbmd.1235547 |