Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi

DENER, Murat; GULBURUN, Sercan

doi:10.31202/ecjse.967919

Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi

Sercan GÜLBURUN, (Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Bilgi Güvenliği Mühendisliği, Ankara, TÜRKİYE)

Murat DENER (Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Bilgi Güvenliği Mühendisliği, Ankara, TÜRKİYE)

El-Cezerî Journal of Science and Engineering

14 3

Yıl: 2021 Cilt: 8 Sayı: 3 Sayfa Aralığı: 1536 - 1549 Metin Dili: Türkçe DOI: 10.31202/ecjse.967919 İndeks Tarihi: 17-10-2022

Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi

Öz:

Bilgi teknolojileri varlıklarının hem bireylerin günlük hayatlarındaki hem de kurum ve kuruluşların işleyişindeki yeri son çeyrek asırda hızlı bir artış göstermiş, bu artışa paralel olarak bilgi varlıklarına yönelik tehditler de artmıştır. Zararlı yazılımlar, bilgi varlıklarına yönelik başlıca tehditlerden biridir. Sürekli olarak kendini yenileyen zararlı yazılımlara karşı geleneksel tespit yaklaşımlarının yetersiz kalması sebebiyle, makine öğrenmesi modelleri kullanan tespit yaklaşımları geliştirilmiştir. Bu çalışmada, zararlı yazılım tespiti maksadıyla kullanılan farklı makine öğrenme algoritmalarının çeşitli büyük veri teknolojileri ve platformları üzerinde ortaya koydukları performanslar incelendi. Modeller, Kaggle Zararlı Yazılım Tespiti veri seti kullanılarak eğitildi. En iyi doğruluk (%98.8), kesinlik (%98.5), f1 skoru (%98.2) ve yanlış pozitif oranı (%2) performansları Google Colaboratory ortamında Sci-Kit Learn kütüphanesi ile çalıştırılan rastgele orman modeli ile elde edildi.

Anahtar Kelime: Büyük Veri Makine Öğrenmesi Zararlı Yazılım Tespiti Bilgi Güvenliği

Analyzing Performance of Machine Learning Algorithms for Malware Detection in Big Data Platforms

Öz:

The place of information technology assets in both the daily lives of individuals and the functioning of institutions and organizations has increased rapidly in the last quarter century and in parallel, threats to information assets have also increased. One of the main threats to these assets is malware. Detection approaches using machine learning models have been developed due to the inadequacy of traditional detection approaches against constantly regenerating malware. In this study, the performances of different machine learning algorithms used for malware detection on various big data technologies and platforms were examined. Models were trained using the Kaggle Malware Detection dataset. The best accuracy (98.8%), precision (98.5%), f1 score (98.2%) and false positive rate (2%) performances were obtained with the random forest model run with the Sci-Kit Learn library in the Google Colaboratory environment.

Anahtar Kelime: Big Data Machine Learning Malware Detection Information Security

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık

[1]. Beraa, D. and Mallikb, S., “Importance of information product for economic development”, Library Philosophy and Practice, 2021:1–11.
[2]. Luftman, J., Lyytinen K. and Zvi, T.B., “Enhancing the measurement of information technology (IT) business alignment and its influence on company performance”, Journal of Information Technology, 2017, 32(1):26-46.
[3]. Ellitan, L., “The importance of entrepreneurship and information technology for SMEs strategic planning”, International Journal of Trend in Scientific Research and Developmen, 2021, 5 (4):1003-1009.
[4]. Khan, S. A. R., Golpîra, H. and YU, Z., “The importance of advanced information technology and green vehicles in supply chain management”, International Conference on Computer, Communications and Mechatronics Engineering, 2018, 351–355.
[5]. FireEye M-Trends 2021, https://content.fireeye.com/m-trends/rpt-m-trends-2021, Son erişim: 26 Ağustos 2021.
[6]. Idika, N. and Mathur, A.P., “A survey on malware detection techniques”, Purdue University, 2007, 48.
[7]. Gandotra, E., Bansal, D. and Sofat, S., “Malware analysis and classification: A survey”, Journal of Information Security, 2014, 05(02):56–64.
[8]. S. Sagiroglu and D. Sinanc, "Big data: A review", International Conference on Collaboration Technologies and Systems (CTS), 2013, 42-47.
[9]. Alguliyev, R. and Imamverdiyev, Y., “Big data: Big promises for information security”, 8th IEEE International Conference on Application of Information and Communication Technologies, AICT 2014, 13–16.
[10]. Abawajy, J. H., and Kelarev, A., “Large iterative multitier ensemble classifiers for security of big data”, IEEE Trans. Emerg. Top. Comput., 2014, 2(3):352–363.
[11]. Bocchi, E., Grimaudo, L., Mellia, M., Baralis, E., Saha, S., Miskovic, S., Modelo-Howard, G. and Lee, S.J., “MAGMA network behavior classifier for malware traffic” Comput. Networks2016, 109:142–156.
[12]. Gupta, D., and Rani, R., “Big data framework for zero-day malware detection” Cybern. Syst.,2018, 49(2):103–121.
[13]. Gupta, D., and Rani, R., “Improving malware detection using big data and ensemble learning,” Comput. Electr. Eng., 2020, 86.
[14]. Abawajy, J. H., Chowdhury, M., and Kelarev, A., “Hybrid consensus pruning of ensemble classifiers for big data malware detection”, IEEE Trans. Cloud Comput., 2020, 8(2):398–407.
[15]. Usman, N., Usman, S., Khan, F., Jan, M.A., Saj,d, A., Alazab, M. and Watters, P., “Intelligent dynamic malware detection using machine learning in IP reputation for forensics data analytics”, Futur. Gener. Comput. Syst., 2021, 118:124–141.
[16]. Sahoo, A. K., Sahoo, K. S., and Tiwary, M., “Signature based malware detection for unstructured data in Hadoop”, 2014 Int. Conf. Adv. Electron. Comput. Commun. (ICAECC) 2014.
[17]. Suhasini, N. S., Hirwarkar, T., and Ashok, J., “Big data analytics for malware detection in a virtulaized framework”, 2020, 7(14):3184-3191.
[18]. Vinayakumar, R., Alazab, M., Soman, K. P., Poornachandran, P., and Venkatraman, S., “Robust intelligent malware detection using deep learning”, IEEE Access, 2019, 7:46717- 46738.
[19]. De Paola, A., Gaglio, S., Lo Re, G., and Morana, M., “A hybrid system for malware detection on big data”, INFOCOM 2018 - IEEE Conf. Comput. Commun. Work., 2018, 45–50.
[20]. Masabo, E., Kaawaase, K. S., and Sansa-Otim, J., “Big data: Deep learning for detecting malware”, Proc. - Int. Conf. Softw. Eng., 2018, 20-26.
[21]. Yousefi-azar, M., Hamey, L. G. C., Varadharajan, V., and Chen, S., “Malytics : A malware detection scheme”, IEEE Access, 2018, 6:49418-49431.
[22]. Mao, W., Cai, Z., Yang, Y., and Shi, X., “From big data to knowledge : A spatio- temporal approach to malware detection”, Comput. Secur., 2018, 74:167-183.
[23]. Niveditha, V. R., Ananthan, T. V. , Amudha, S., Sam, D., and Srinidhi, S., “Detect and classify zero day malware efficiently in big data platform”, Int. J. Adv. Sci. Technol., 2020, 29(4):1947-1954.
[24]. Libri, A., Bartolini, A., and Benini, L., “pAElla: Edge AI-based real-time malware detection in data centers”, IEEE Internet Things J., 2020, 7(10):9589-9599.
[25]. Wu, W. C., and Hung, S. H., “DroidDolphin: A dynamic android malware detection framework using big data and machine learning”, Proc. 2014 Res. Adapt. Converg. Syst. (RACS 2014), 2014, 247-252.
[26]. Wassermann, S., and Casas, P., “BIGMOMAL - Big data analytics for mobile malware detection”, Proc. 2018 Work. Traffic Meas. Cybersecurity, Part SIGCOMM 2018, 2018, 33– 39, 2018
[27]. Memon, L. U., Bawany, N. Z., and Shamsi, J. A., “A comparison of machine learning techniques for android malware detection using apache spark”, J. Eng. Sci. Technol., 2019, 14(3):1572-1586.
[28]. Venkatraman, S., and Alazab, M., “Use of Data Visualisation for Zero-Day Malware Detection”, Secur. Commun. Networks, 2018.
[29]. Modiri, E., Azmoodeh, A., Dehghantanha, A., Ellis, D., Parizi, R. M., and Karimipour, H., “Fuzzy pattern tree for edge malware detection and categorization in IoT”, J. Syst. Archit. Comput., 2018, 97:1-7.
[30]. Kaggle Zararlı Yazılım Tespiti veri seti, https://www.kaggle.com/c/malware-detection, son erişim: 26 Ağustos 2021
[31]. Sessa, J. and Syed, D., "Techniques to deal with missing data", 5th International Conference on Electronic Devices, Systems and Applications (ICEDSA), 2016, 1-4.
[32]. Wan, X., “Influence of feature scaling on convergence of gradient iterative algorithm”, J. Phys.: Conf. Ser., 2019, 1213(3).
[33]. Apache Spark, İkili Sınıflandırıcılar ve Regresyon Analizi, https://spark.apache.org/docs/latest/ml-classification-regression.html, Son erişim: 27 Ağustos 2021.
[34]. Hossin, M., and Sulaiman M.N., “A review on evaluation metrics for data classification evaluations”, International Journal of Data Mining & Knowledge Management Process, 2015, 5(2):01–11.
[35]. Joshi, M.V., “On evaluating perfomrance of classifiers for rare classes”, in Porceedings of the 2002 IEE Int. Conference on Data Mining, 2002, 641-644.
[36]. Landress, A. D., "A hybrid approach to reducing the false positive rate in unsupervised machine learning intrusion detection", SoutheastCon 2016, 2016, pp. 1-6.
[37]. Kong, S., Shen, W., Zheng, Y., Zhang, A., Pu, J. and Wang, J., “False positive rate control for positive unlabled learning”, Neurocomputing, 2019, 367:13-19.
[38]. Jallad, K. A., Aljnidi, M., and Desouki, M. S., “Anomaly detection optimization using big data and deep learning to reduce false-positive”, Journal of Big Data, 2020, 7(68).
[39]. PySpark, https://spark.apache.org/docs/latest/api/python/, Son erişim: 27 Ağustos 2021.
[40]. Scikit-learn, https://scikit-learn.org/stable/, Son erişim: 27 Ağustos 2021.
[41]. Google Colaboratory, https://research.google.com/colaboratory/, Son erişim: 27 Ağustos 2021.
[42]. Azure HDInsight, https://azure.microsoft.com/en-us/services/hdinsight/, Son erişim: 27 Ağustos 2021.
[43]. Amazon EMR, https://aws.amazon.com/emr, Son erişim: 27 Ağustos 2021.
[44]. Google Dataproc, https://cloud.google.com/dataproc, Son erişim: 27 Ağustos 2021.

APA	GULBURUN S, DENER M (2021). Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi. , 1536 - 1549. 10.31202/ecjse.967919
Chicago	GULBURUN Sercan,DENER Murat Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi. (2021): 1536 - 1549. 10.31202/ecjse.967919
MLA	GULBURUN Sercan,DENER Murat Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi. , 2021, ss.1536 - 1549. 10.31202/ecjse.967919
AMA	GULBURUN S,DENER M Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi. . 2021; 1536 - 1549. 10.31202/ecjse.967919
Vancouver	GULBURUN S,DENER M Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi. . 2021; 1536 - 1549. 10.31202/ecjse.967919
IEEE	GULBURUN S,DENER M "Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi." , ss.1536 - 1549, 2021. 10.31202/ecjse.967919
ISNAD	GULBURUN, Sercan - DENER, Murat. "Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi". (2021), 1536-1549. https://doi.org/10.31202/ecjse.967919

APA	GULBURUN S, DENER M (2021). Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi. El-Cezerî Journal of Science and Engineering, 8(3), 1536 - 1549. 10.31202/ecjse.967919
Chicago	GULBURUN Sercan,DENER Murat Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi. El-Cezerî Journal of Science and Engineering 8, no.3 (2021): 1536 - 1549. 10.31202/ecjse.967919
MLA	GULBURUN Sercan,DENER Murat Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi. El-Cezerî Journal of Science and Engineering, vol.8, no.3, 2021, ss.1536 - 1549. 10.31202/ecjse.967919
AMA	GULBURUN S,DENER M Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi. El-Cezerî Journal of Science and Engineering. 2021; 8(3): 1536 - 1549. 10.31202/ecjse.967919
Vancouver	GULBURUN S,DENER M Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi. El-Cezerî Journal of Science and Engineering. 2021; 8(3): 1536 - 1549. 10.31202/ecjse.967919
IEEE	GULBURUN S,DENER M "Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi." El-Cezerî Journal of Science and Engineering, 8, ss.1536 - 1549, 2021. 10.31202/ecjse.967919
ISNAD	GULBURUN, Sercan - DENER, Murat. "Zararlı Yazılım Tespiti Amacıyla Kullanılan Makine Öğrenmesi Algoritmalarının Büyük Veri Platformlarındaki Performanslarının İncelenmesi". El-Cezerî Journal of Science and Engineering 8/3 (2021), 1536-1549. https://doi.org/10.31202/ecjse.967919