Yıl: 2019 Cilt: 31 Sayı: 1 Sayfa Aralığı: 17 - 28 Metin Dili: Türkçe DOI: 10.7240/jeps.451301 İndeks Tarihi: 12-04-2020

Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu

Öz:
Kısa mesaj servisi en yaygın kullanılan iletişim kanallarından biridir. Kişisel, reklam, promosyon, etkinlik bildirimi, satış onaylama vb. birçok farklı amaç için kullanılan kısa mesajların sayısının her geçen gün artması takip edilebilirliklerini ve aranan mesajın mesaj kutusunda hızlıca bulunmasını zorlaştırmaktadır. Öte yandan istenmeyen mesajların mesaj kutusunu doldurması ve mesaj kirliliği yaratması bir diğer önemli problemdir. Bu çalışmada Türkçe Kısa Mesajları sınıflandırmak ve akıllı bir SMS kutusu oluşturmak amacıyla Çok Katmanlı Süzgeçleme Mimarisi önerilmiştir. Ayrıca bu mimari bir Android uygulaması üzerinde gerçeklenmiştir. Bu mimari yardımı ile telefona ulaşan mesajlar kişisel, ticari, otp kodları, hatırlatıcı ve istenmeyen adı altında 5 farklı kategoriye ayrılmaktadır. Önerilen mimari Kara Liste, Regex, Makine öğrenmesi ve Beyaz Liste süzgeçlerinden oluşmaktadır. Makine öğrenmesi süzgecinde Naive Bayes, Bayes Net, J48 ve Random Forest algoritmalarının performansları incelenmiştir ve Random Forest %87’lik başarısı nedeniyle uygulamada tercih edilmiştir. Önerilen çok katmanlı yapı sayesinde mesaj sınıflandırma süresi azaltılırken sınıflandırma başarısı %93’e yükseltilmiştir. Ayrıca başarının yükseltilmesinde seçilen özellikler ve Zemberek kütüphanesinin kullanımı ile kelimelerin türlerinin ve köklerinin elde edilmesi önemli rol oynamıştır.
Anahtar Kelime:

Konular: Bilgisayar Bilimleri, Yazılım Mühendisliği

A Novel Multi-tier Filtering Architecture and Smart SMS Box for Classification of Turkish Short Messages

Öz:
The short message service is one of the most commonly used communication channels. Increasing number of short messages that are used for many different purposes including personal, advertising, promotion, event notification, sales approval, etc. makes it difficult to keep track of messages and to find the target message quickly in the message box. On the other hand, another impotant problem is the spam messages filling the message box unneccasserily. In this study, a novel Multi-tier Filtering Architecture is proposed to classify Turkish Short Messages and to create a smart SMS box. This architecture is also implemented on an Android application. Received messages and old messages are divided into 5 different categories under personal, commercial, otp codes, reminders and spam messages with the help of the proposed architecture. This architecture consists of 4 tiers including Black List, Regex, Machine Learning, and White List filters. The performance of Naive Bayes, Bayes Net, J48 and Random Forest algorithms were examined and Random Forest was preferred for mobile application due to its success of 87%. Thanks to the proposed multi-tier system architecture, the classification success rate has been increased to 93% while the message classification time is reduced. In addition, the selected features, the use of the Zemberek library and the acquisition of the types and roots of the words within the message played an important role in the promotion of success.
Anahtar Kelime:

Konular: Bilgisayar Bilimleri, Yazılım Mühendisliği
Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • [1] Zhu, S., Ji, X., Xu, W., & Gong, Y. (2005, August). Multi-labelled classification using maximum entropy method. In Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 274-281). ACM.
  • [2] Klimt, B., & Yang, Y. (2004, September). The enron corpus: A new dataset for email classification research. In European Conference on Machine Learning (pp. 217-226). Springer, Berlin, Heidelberg.
  • [3] Healy, M., Delany, S. J., & Zamolotskikh, A. (2004). An assessment of case base reasoning for short text message classification In Proceedings of the 15th. Irish Conference on Artificial Intelligence and Cognitive Sciences (AICS’04), pp.9-18, 2004.
  • [4] Najadat H., Abdulla, N., Abooraig, R. ve Nawasrah S. (2014). Mobile SMS Spam Filtering based on Mixing Classifiers. International Journal of Advanced Computing Research,1.
  • [5] Joe, I., & Shim, H. (2010, December). An SMS spam filtering system using support vector machine. In International Conference on Future Generation Information Technology (pp. 577-584). Springer, Berlin, Heidelberg.
  • [6] Mahmoud, T. M., & Mahfouz, A. M. (2012). SMS spam filtering technique based on artificial immune system. International Journal of Computer Science Issues (IJCSI), 9(2), 589.
  • [7] Patel, F. N., & Soni, N. R. (2012). Text mining: A Brief survey. International Journal of Advanced Computer Research, 2(4), 243-248.
  • [8] Al-Talib, G. A., & Hassan, H. S. (2013). A study on analysis of SMS classification using TF-IDF Weighting. International Journal of Computer Networks and Communications Security, 1(5), 189-194.
  • [9] Parimala, R., & Nallaswamy, R. (2012). A Study on Analysis of SMS Classification Using Document Frequency Thresold. International Journal of Information Engineering and Electronic Business, 4(1), 44.
  • [10] Deng, W. W., & Peng, H. (2006, August). Research on a naive bayesian based short message filtering system. In Machine learning and cybernetics, 2006 international conference on (pp. 1233-1237). IEEE.
  • [11] Kawade, D. R., & Oza, K. S. (2015). SMS spam classification using WEKA. International Journal of Electronics Communication and Computer Technology, 5, 43-7.
  • [12] Mathew, K., & Issac, B. (2011, December). Intelligent spam classification for mobile text message. In Computer Science and Network Technology (ICCSNT), 2011 International Conference on (Vol. 1, pp. 101-105). IEEE.
  • [13] Uysal, A. K., Günal, S., Ergin, S., & Günal, E. Ş. (2012, April). Detection of SMS spam messages on mobile phones. In Signal Processing and Communications Applications Conference (SIU), 2012 20th (pp. 1-4). IEEE.
  • [14] Kilic, E., Arslan, S. N., & Guvensan, M. A. (2014, April). 3-Tier hybrid approach for SMS filtering. In Signal Processing and Communications Applications Conference (SIU), 2014 22nd (pp. 1950-1953). IEEE.
  • [15] StringToWordVector. (2016, April 14). Retrieved July/August, 2018, from http://weka.sourceforge.net/doc.stable/weka/filters/ unsupervised/attribute/StringToWordVector.html
  • [16] Naive Bayes Slide. (2017). Retrieved July 23, 2018, from https:// web.stanford.edu/class/cs124/lec/naivebayes.pdf
  • [17] Cooper, G. F., & Herskovits, E. (1992). A Bayesian method for the induction of probabilistic networks from data. Machine learning, 9(4), 309-347.
  • [18] J48. (2018, September 04). Retrieved July 23, 2018, from http:// weka.sourceforge.net/doc.dev/weka/classifiers/trees/J48.html
  • [19] Kaur, G., & Chhabra, A. (2014). Improved J48 classification algorithm for the prediction of diabetes. International Journal of Computer Applications, 98(22).
  • [20] Liaw, A., & Wiener, M. (2002). Classification and regression by randomForest. R news, 2(3), 18-22.
APA BESTİL H, GÜVENSAN M (2019). Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu. , 17 - 28. 10.7240/jeps.451301
Chicago BESTİL Halil İbrahim,GÜVENSAN M. Amac Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu. (2019): 17 - 28. 10.7240/jeps.451301
MLA BESTİL Halil İbrahim,GÜVENSAN M. Amac Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu. , 2019, ss.17 - 28. 10.7240/jeps.451301
AMA BESTİL H,GÜVENSAN M Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu. . 2019; 17 - 28. 10.7240/jeps.451301
Vancouver BESTİL H,GÜVENSAN M Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu. . 2019; 17 - 28. 10.7240/jeps.451301
IEEE BESTİL H,GÜVENSAN M "Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu." , ss.17 - 28, 2019. 10.7240/jeps.451301
ISNAD BESTİL, Halil İbrahim - GÜVENSAN, M. Amac. "Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu". (2019), 17-28. https://doi.org/10.7240/jeps.451301
APA BESTİL H, GÜVENSAN M (2019). Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu. International journal of advances in engineering and pure sciences (Online), 31(1), 17 - 28. 10.7240/jeps.451301
Chicago BESTİL Halil İbrahim,GÜVENSAN M. Amac Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu. International journal of advances in engineering and pure sciences (Online) 31, no.1 (2019): 17 - 28. 10.7240/jeps.451301
MLA BESTİL Halil İbrahim,GÜVENSAN M. Amac Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu. International journal of advances in engineering and pure sciences (Online), vol.31, no.1, 2019, ss.17 - 28. 10.7240/jeps.451301
AMA BESTİL H,GÜVENSAN M Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu. International journal of advances in engineering and pure sciences (Online). 2019; 31(1): 17 - 28. 10.7240/jeps.451301
Vancouver BESTİL H,GÜVENSAN M Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu. International journal of advances in engineering and pure sciences (Online). 2019; 31(1): 17 - 28. 10.7240/jeps.451301
IEEE BESTİL H,GÜVENSAN M "Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu." International journal of advances in engineering and pure sciences (Online), 31, ss.17 - 28, 2019. 10.7240/jeps.451301
ISNAD BESTİL, Halil İbrahim - GÜVENSAN, M. Amac. "Türkçe Kısa Mesajları Sınıflandıran Çok Katmanlı Süzgeçleme Mimarisi ve Akıllı SMS Kutusu". International journal of advances in engineering and pure sciences (Online) 31/1 (2019), 17-28. https://doi.org/10.7240/jeps.451301