Yıl: 2021 Cilt: 23 Sayı: 67 Sayfa Aralığı: 121 - 127 Metin Dili: Türkçe DOI: 10.21205/deufmd.2021236710 İndeks Tarihi: 16-06-2021

TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması

Öz:
Bilgisayar ve internetin hayatımıza girmesi ile bilgiye erişmek daha kolay hale gelmiştir. İnterneteulaşımın kolaylaşması ve internet kullanıcılarının artması sonucu veri miktarı da her geçen saniyebüyümektedir. Ancak doğru bilgiye erişebilmek için verilerin sınıflandırılması gereklidir.Sınıflandırma, verilerin belirli bir anlamsal kategoriye göre ayrılması işlemidir. Dijital belgelerinanlamsal kategorilere ayrılması, metnin ulaşılabilirliğini önemli ölçüde etkilemektedir. Bu çalışmada,farklı Türkçe haber kaynaklarından toplam 6 kategoride elde edilen veri kümesi üzerinde metinsınıflandırma çalışması yapılmıştır. Öncelikli olarak haber metinleri ön işlemeden geçirilmiş vegövdelenmiştir. Ön işlemeden geçirilen metinler Tfidfvectorizer, Word2Vec ve FastText yöntemleriile ayrı ayrı vektörize edildikten sonra Python’ın Scikit-learn kütüphanesi kullanılarak Destek VektörMakinesi (Support Vector Machine, SVM), Naive Bayes, Logistic Regression, Random Forest ve YapaySinir Ağı (Artificial Neural Network, ANN) yöntemleri ile sınıflandırılmıştır. Yapılan çalışma sonucunagöre en yüksek başarı oranı %95,75 ile FastText yöntemi ve vektör modeli ile elde edilen metnin SVMile sınıflandırılmasından elde edilmiştir.
Anahtar Kelime:

Classification of Turkish News Text by TF-IDF, Word2vec And Fasttext Vector Model Methods

Öz:
Accessing information has become very simple with computers and internet. As the internet access is easier and the internet users increase, the amount of data is growing every second. However, in order to access correct information, data must be classified. Classification is the process of separating data according to a certain semantic category. Dividing digital documents into semantic categories significantly affects the availability of the text. In this study, a text classification study was carried out on a data set obtained from different Turkish news sources with 6 categories. After the pre-processed texts are separately vectorized with Tfidfvectorizer, Word2Vec and FastText methods, they are classified with Support Vector Machine (SVM), Naive Bayes, Logistic Regression, Random Forest and Artificial Neural Network (ANN) methods by using Scikit-learn library in Python. According to the results of the study, the highest success rate was obtained from the classification of the text gained with FastText method and vector model with 95,75% by SVM.
Anahtar Kelime:

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • [1] Vapnik V. The nature of statistical learning theory. Springer, 2nd edition, 2013; New York, USA. pp: 32- 40.
  • [2] Joachims, T. (1999, June). Transductive inference for text classification using support vector machines. In Icml (Vol. 99, pp. 200-209).
  • [3] Khan, Aurangzeb, et al. "A review of machine learning algorithms for text-documents classification." Journal of advances in information technology 1.1 (2010): 4-20.
  • [4] Liu, Y., Liu, Z., Chua, T. S., & Sun, M. (2015, February). Topical word embeddings. In Twenty-Ninth AAAI Conference on Artificial Intelligence.
  • [5] Ramos, J. Using tf-idf to determine word relevance in document queries. In Proceedings of the first instructional conference on machine learning 2003; (Vol. 242, pp. 133-142).
  • [6] Mikolov T, Chen K, Corrado G, Dean J. (2013), “Efficient estimation of word representations in vector space”. Proceedings of Workshop at ICLR. Scottsdale, Arizona 2-4 Mayıs 2013.
  • [7] Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2016). Bag of tricks for efficient text classification. arXiv preprint arXiv:1607.01759
  • [8] Osmanoglu, U.O., Atak, O.N., Caglar, K., Kayhan, H. & Can, T.C. (2020). Sentiment Analysis for Distance Education
  • [9] Course Materials: A Machine Learning Approach. Journal of Educational Technology & Online Learning, 3(1), 31-48.
  • [10] Sawaf, H., Zaplo, J., & Ney, H. (2001). Statistical classification methods for Arabic news articles. Natural Language Processing in ACL2001, Toulouse, France.
  • [11] Hakim, A. A., Erwin, A., Eng, K. I., Galinium, M., & Muliady, W. (2014, October). Automated document classification for news article in Bahasa Indonesia based on term frequency inverse document frequency (TF-IDF) approach. In 2014 6th International Conference on Information Technology and Electrical Engineering (ICITEE) (pp. 1-4). IEEE. Doi:10.1109/iciteed.2014.7007894
  • [12] Dilrukshi, I., De Zoysa, K., & Caldera, A. (2013, April). Twitter news classification using SVM. In 2013 8th International Conference on Computer Science & Education (pp. 287-291). IEEE. Doi:10.1109/iccse.2013.6553926
  • [13] Amasyali, M. F., & Yildirim, T. (2004, April). Automatic text categorization of news articles. In Proceedings of the IEEE 12th Signal Processing and Communications Applications Conference, 2004. (pp. 224-226). IEEE.
  • [14] Tüfekci, P., Uzun, E., & Sevinç, B. (2012, April). Text classification of web based news articles by using Turkish grammatical features. In 2012 20th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
  • [15] Sen, M. U., & Yanıkoğlu, B. (2018, May). Document classification of SuDer Turkish news corpora. In 2018 26th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
  • [16] Acı, Ç. İ., & Çırak, A. Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması. Bilişim Teknolojileri Dergisi, 12(3), 219-228.
  • [17] Erdinҫ, H. Y., & Güran, A. (2019, April). Semisupervised Turkish Text Categorization with Word2Vec, Doc2Vec and FastText Algorithms. In 2019 27th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
APA Çelik Ö, KOÇ B (2021). TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. , 121 - 127. 10.21205/deufmd.2021236710
Chicago Çelik Özer,KOÇ Burak Can TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. (2021): 121 - 127. 10.21205/deufmd.2021236710
MLA Çelik Özer,KOÇ Burak Can TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. , 2021, ss.121 - 127. 10.21205/deufmd.2021236710
AMA Çelik Ö,KOÇ B TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. . 2021; 121 - 127. 10.21205/deufmd.2021236710
Vancouver Çelik Ö,KOÇ B TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. . 2021; 121 - 127. 10.21205/deufmd.2021236710
IEEE Çelik Ö,KOÇ B "TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması." , ss.121 - 127, 2021. 10.21205/deufmd.2021236710
ISNAD Çelik, Özer - KOÇ, Burak Can. "TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması". (2021), 121-127. https://doi.org/10.21205/deufmd.2021236710
APA Çelik Ö, KOÇ B (2021). TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, 23(67), 121 - 127. 10.21205/deufmd.2021236710
Chicago Çelik Özer,KOÇ Burak Can TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi 23, no.67 (2021): 121 - 127. 10.21205/deufmd.2021236710
MLA Çelik Özer,KOÇ Burak Can TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, vol.23, no.67, 2021, ss.121 - 127. 10.21205/deufmd.2021236710
AMA Çelik Ö,KOÇ B TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi. 2021; 23(67): 121 - 127. 10.21205/deufmd.2021236710
Vancouver Çelik Ö,KOÇ B TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması. Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi. 2021; 23(67): 121 - 127. 10.21205/deufmd.2021236710
IEEE Çelik Ö,KOÇ B "TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması." Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi, 23, ss.121 - 127, 2021. 10.21205/deufmd.2021236710
ISNAD Çelik, Özer - KOÇ, Burak Can. "TF-IDF, Word2vec ve Fasttext Vektör Model Yöntemleri ile Türkçe Haber Metinlerinin Sınıflandırılması". Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi 23/67 (2021), 121-127. https://doi.org/10.21205/deufmd.2021236710