Yıl: 2021 Cilt: 33 Sayı: 2 Sayfa Aralığı: 519 - 526 Metin Dili: Türkçe DOI: 10.35234/fumbd.871986 İndeks Tarihi: 27-09-2022

Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması

Öz:
Hızla gelişen teknoloji ile verilere erişmek oldukça kolaylaşmış ancak elde edilen bu veri yığınlarının işlenmesi ve analiz edilmesi ise büyük bir problem haline gelmiştir. Bu çalışmada çevrimiçi bir haber sitesinden metin halinde toplanan yazıların, metin madenciliği ile daha önceden belirlenmiş haber kategorilerine ayrılması sağlanmıştır. Metin halinde toplanan 2248 haber verisi için iki ayrı yöntem kullanılmış ve haberlerin, birinci yöntemde %95,24'ü ikinci yöntemde ise %99,86'sı doğru olarak sınıflandırılmıştır. Türkçe dilinin özgün yapısından kaynaklı sınıflandırma yapılmasının zorluğundan dolayı bu çalışma ileriki metin madenciliği uygulamaları için faydalı olacaktır. Ayrıca elde edilen sonuçlar, literatürde yer edinmiş benzer çalışmalar ile karşılaştırılarak analiz edilmiştir.
Anahtar Kelime: Metin madenciliği veri madenciliği metin sınıflandırma naive bayes rastgele orman makine öğrenmesi

Classification of Turkish News Texts with Multinomial Naive Bayes Algorithm

Öz:
Rapidly developing technology, it has become quite easy to access data, however the processing and analysis of these collected data have become a major problem. In this study, the news articles collected from an online news website in text form are classified into predefined categories with text mining. Two different methods were applied to 2248 news collected in text-form. The news articles were classified with 95.24% accuracy by applying the first method and 99.86% accuracy by applying the second method. This study will be useful for future text mining applications due to the difficulty of text- classification because of original structure of the Turkish language. In addition, the results were analyzed by comparing them with the similar studies in the related literature.
Anahtar Kelime: Text mining data mining text classification naive bayes random forest machine learning

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • [1] Doğan K, Arslantekin S, Büyük veri: önemi, yapısı ve günümüzdeki durum. Ankara Üniversitesi Dil ve Tarih-Coğrafya Fakültesi Dergisi 2016; 56(1): 15-36.
  • [2] Gautam P, Singh YP, Shaikh P, Significance and Importance of Data Mining for Marketing Analysis in Finance. Banking Sectors, Int. J. Appl. Res. Sci. Eng 2017; 26–29.
  • [3] Khedr AE, Salama SE, Yaseen N, Predicting stock market behavior using data mining technique and news sentiment analysis. Int. J. Intell. Syst. Appl. 2017; 9(7): 22-30.
  • [4] Martinez-Martin N, Insel TR, Dagum P, Greely HT, Cho MK, Data mining for health: staking out the ethical territory of digital phenotyping. npj Digit. Med. 2018; 1(1): 1-5.
  • [5] Bustince H, Herrera F, Montero J. Fuzzy Sets and Their Extensions: Representation, Aggregation and Models. 1th ed. Springer-Verlag Berlin Heidelberg, 2008.
  • [6] Bach MP, Krstič Ž, Seljan S, Turulja L. Text mining for big data analysis in financial sector: A literature review. Sustain 2019; 11(5): 2019.
  • [7] Alsaidi SA, Sadiq AT, Abdullah HS. English poems categorization using text mining and rough set theory. Bull. Electr. Eng. Informatics 2020; 9(4): 1701-1710.
  • [8] Doğan K, Arslantekin S. Elektronik Belge Yönetimi, Dijital Arşivleme Sistemleri ve Büyük Veri. Bilgi Sistemleri ve Bilişim Yönetimi: Beklentiler ve Yeni Yaklaşımlar, Ankara Üniversitesi Basımevi, 2017; 65-80.
  • [9] Monino JL, Sedkaoui S. Big Data, Open Data and Data Development. 3nd ed. London: ISTE Ltd., 2016.
  • [10] Liu C, Wang W, Zhang Y, Dong Y, He F, Wu C. Predicting the Popularity of Online News Based on Multivariate Analysis. IEEE International Conference on Computer and Information Technology (CIT); 21-23 Agust 2017; Helsinki, Finland.
  • [11] Esiyok C, Kille B, Jain BJ, Hopfgartner F, Albayrak S. Users' reading habits in online news portals. 5th Information Interaction in Context Symposium; 26-29 August 2014; New York, U.S.A.
  • [12] Sukiennik N, Hui P. Inflo: News Categorization and Keyphrase Extraction for Implementation in an Aggregation System. ArXiv; 2018; abs (1812.03781).
  • [13] Yüksel A, Tan G. Metin Madenciliği Teknikleri ile Sosyal Ağlarda Bilgi Keşfi. Mühendislik Bilimleri ve Tasarım Dergisi 2018; 6(2): 324-33.
  • [14] Usmani S, Shamsi JA. News Headlines Categorization Scheme for Unlabelled Data. In 2020 International Conference on Emerging Trends in Smart Technologies (ICETST); 26 – 27 March 2020; Karachi, Pakistan: IEEE. pp. 1-6
  • [15] Acı Çİ, Çırak A, Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. International Journal of InformaticsTechnologies 2019; 12(3).
  • [16] Dai Z, Taneja H, Huang R. Fine-grained structure-based news genre categorization. 2018 Events and Stories in the News Workshop; 20-21 August 2018; New Mexico, U.S.A.
  • [17] Qiu X, Gong J, Huang X. Overview of the NLPCC 2017 shared task: Chinese news headline categorization. National CCF Conference on Natural Language Processing and Chinese Computing; 8-12 November 2017; Dalian, China.
  • [18] Başkaya F, Aydin İ. Haber metinlerinin farklı metin madenciliği yöntemleriyle sınıflandırılması. International Artificial Intelligence and Data Processing Symposium (IDAP); 1-5, September 2017; Malatya, Turkey.
  • [19] Toraman C, Can F, Koçberber S. Developing a text categorization template for Turkish news portals. International Symposium on Innovations in Intelligent Systems and Applications, June 2011; 379-383.
  • [20] Krishnalal G, Rengarajan SB, Srinivasagan KG, A new text mining approach based on HMM-SVM for web news classification. International Journal of Computer Applications, 2010; 1(19): 98-104.
  • [21] Lin KHY, Yang C, Chen HH, What emotions do news articles trigger in their readers?. 30th annual international ACM SIGIR conference on Research and development in information retrieval; 23-27 July 2007; Amsterdam, Holland.
  • [22] Kazawa H, Izumitani T, Taira H, Maeda E. Maximal margin labeling for multi-topic text categorization. Advances in neural information processing systems 2005; 649-656.
  • [23] Jo TC. “Text categorization with the concept of fuzzy set of informative keywords”. 1999 IEEE International Fuzzy Systems Conference Proceedings; 22-25 August 1999; 99CH36315(2): 609-614.
  • [24] https://websiteyonetimi.ahievran.edu.tr/_Dosyalar/Genel/HaberMetinleri.rar, E.T.:01.03.2021.
  • [25] https://weka.sourceforge.io/doc.dev/weka/classifiers/bayes/NaiveBayesMultinomialText.html, E.T.:01.03.2021.
  • [26] https://weka.sourceforge.io/doc.dev/weka/classifiers/trees/RandomForest.html, E.T.:01.03.2021.
  • [27] Arpacı SA, Kalıpsız O. Yazılım Hata Sınıflandırmasında Farklı Naive Bayes Tekniklerin Kıyaslanması. Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi 2018; 7(1): 1-13.
  • [28] Aydoğan E. Veri Madenciliğinde Sınıflandırma Problemleri İçin Evrimsel Algoritma Tabanlı Yeni Bir Yaklasım: Rough-Mep Algoritması. Doktora tezi, Gazi Üniversitesi, 2008, Ankara.
  • [29] Skurichina M, Duin RPW. Bagging, boosting and the random subspace method for linear classifiers. Pattern Analysis and Applications 2002; 5(2): pp. 121–135.
  • [30] Korkem E, Mikroarray Gen Ekspresyon Veri Setlerinde Random Forest ve Naıve Bayes Sınıflama Yöntemleri Yaklaşımı. Yüksek Lisans tezi, Hacettepe Üniversitesi, 2013, Ankara.
  • [31] Zec S, Soriani N, Comoretto R, Baldi I. Suppl-1, M5: high agreement and high prevalence: the paradox of Cohen’s Kappa. The open nursing journal 2017; 11(1).
  • [32] Cohen JA. Coefficient of Agreement for Nominal Scales”, Educational and Psychological Measurement 1960; 20(1):37-46.
APA Aydemir E, IŞIK M, TUNCER T (2021). Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. , 519 - 526. 10.35234/fumbd.871986
Chicago Aydemir Emrah,IŞIK Murat,TUNCER Türker Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. (2021): 519 - 526. 10.35234/fumbd.871986
MLA Aydemir Emrah,IŞIK Murat,TUNCER Türker Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. , 2021, ss.519 - 526. 10.35234/fumbd.871986
AMA Aydemir E,IŞIK M,TUNCER T Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. . 2021; 519 - 526. 10.35234/fumbd.871986
Vancouver Aydemir E,IŞIK M,TUNCER T Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. . 2021; 519 - 526. 10.35234/fumbd.871986
IEEE Aydemir E,IŞIK M,TUNCER T "Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması." , ss.519 - 526, 2021. 10.35234/fumbd.871986
ISNAD Aydemir, Emrah vd. "Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması". (2021), 519-526. https://doi.org/10.35234/fumbd.871986
APA Aydemir E, IŞIK M, TUNCER T (2021). Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 33(2), 519 - 526. 10.35234/fumbd.871986
Chicago Aydemir Emrah,IŞIK Murat,TUNCER Türker Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33, no.2 (2021): 519 - 526. 10.35234/fumbd.871986
MLA Aydemir Emrah,IŞIK Murat,TUNCER Türker Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, vol.33, no.2, 2021, ss.519 - 526. 10.35234/fumbd.871986
AMA Aydemir E,IŞIK M,TUNCER T Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2021; 33(2): 519 - 526. 10.35234/fumbd.871986
Vancouver Aydemir E,IŞIK M,TUNCER T Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi. 2021; 33(2): 519 - 526. 10.35234/fumbd.871986
IEEE Aydemir E,IŞIK M,TUNCER T "Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması." Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 33, ss.519 - 526, 2021. 10.35234/fumbd.871986
ISNAD Aydemir, Emrah vd. "Türkçe Haber Metinlerinin Çok Terimli Naive Bayes Algoritması Kullanılarak Sınıflandırılması". Fırat Üniversitesi Mühendislik Bilimleri Dergisi 33/2 (2021), 519-526. https://doi.org/10.35234/fumbd.871986