Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR

Tahiroğlu, B. Tahir

doi:10.29000/rumelide.995343

Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR

B. Tahir TAHİROĞLU (Çukurova Üniversitesi, Fen Edebiyat Fakültesi, Türk Dili ve Edebiyatı Bölümü, Adana, Türkiye)

RumeliDE Dil ve Edebiyat Araştırmaları Dergisi

1 0

Yıl: 2021 Cilt: 0 Sayı: 24 Sayfa Aralığı: 475 - 486 Metin Dili: Türkçe DOI: 10.29000/rumelide.995343 İndeks Tarihi: 02-09-2022

Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR

Öz:

Madde başı (lemma) bir dildeki sözcüklerin sözlüklerde yer alan standart biçimi olduğu bilinmektedir. Lematizasyon adı verilen süreç ise çekimli sözcüklerin madde başına indirgeme sürecidir. Lematizasyon çeşitli diller için doğal dil işleme (DDİ) araçlarında metinlerin ön işleme aşamasında sözcüklerin farklı yapılarının normal biçimlerine dönüştürülmesinde kullanılmakla birlikte, dilbilimsel açıdan sözcük ailelerinin otomatik oluşturulması ve özellikle sözlüklerin hazırlanmasında büyük kolaylıklar sağlamaktadır. Milyon sözcüklük bir derlemdeki tüm sözcüklerin madde başı biçimlerine otomatik ve doğru biçimde indirgenmesi hem zaman hem de emek yoğun işlemlerin verimli olarak yapılmasını sağlamaktadır. Lematizasyon işlemi, sözcüklerin kullanım sıklığına bağlı çözümlemelerde de çekimli biçimlerin ayrı sayımından kaynaklanan zaman kaybını da gidererek ilgilenilen metnin veya derlemin anahtar kavramlarını çok kısa sürede ortaya çıkarmaktadır. Bu çalışmada, genel olarak lematizasyon üzerinde durulmuş ve Türkçe için bağlam duyarlı olarak hazırlanan ve elemanTR adı verilen bir lematizasyon uygulama modeli tanıtılmıştır. Türkçe 184 adet roman ve hikaye metinlerinden hazırlanan yaklaşık 1 milyon 200 bin cümleyle makine öğrenmesiyle eğitilen modelde elde edilen başarım test verilerinde %99, 01 olarak bulunmuştur. Elde edilen bu başarım oranının eğitim verisine yeni eklenecek verilerle sürdürülebilir bir yapıya kavuşturularak genel bir Türkçe lematizasyon uygulamasının ileri çalışmalar için ön ayak olacağı düşünülmektedir. Otomatik söz türü belirleme, sözdizimsel çözümleme ve yeni sözcüklerin otomatik belirlenmesinde de eğitilen modelin yararlı olacağı ön görülmektedir.

Anahtar Kelime:

Lemmatization and a lemmatization application for Turkish: elemanTR

Öz:

Lemma is the standard form of words found in dictionaries in a language. The process called lemmatization is the reduction process of inflected words. Although lemmatization is used in natural language processing (NLP) tools for various languages to convert different structures of words into standard forms during the preprocessing stage of texts, it provides great convenience in the automatic creation of word families, especially in the preparation of dictionaries in terms of linguistics. Automatic and accurate reduction of all words in a million-word corpus to lemma forms provides efficient execution of both time- and labor-intensive processes. The lemmatization process reveals the key concepts of the text or corpus of interest in a very short time by eliminating the loss of time caused by the separate counting of inflected forms in the frequency analysis of words. In this study, lemmatization has been focused on in general, and a context-sensitive lemmatization application model called elementTR has been introduced for Turkish. The performance of the model, which was trained with machine learning with approximately 1 million 200 thousand sentences prepared from 184 novels and story texts in Turkish, was found to be 99.01% in the test data. It is thought that this success rate will be a sustainable structure with the new data to be added to the training data, and a general Turkish lemmatization application of this model will be a pioneer for further studies. It is predicted that the trained model will also be useful in automatic part of speech identification, syntactic analysis, and automatic identification of new words.

Anahtar Kelime:

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık

Alpaydın, E. (2011). Yapay Öğrenme (1. basım). Boğaziçi Üniversitesi.
Arslan, E., ve Orhan, U. (2016). Graph-based lemmatization of turkish words by using morphological similarity. In 2016 ınternational symposium on ınnovations in ıntelligent systems and applications (ınısta). IEEE. https://doi.org/10.1109/inista.2016.7571835
Bergmanis, T., ve Goldwater, S. Context sensitive neural lemmatization with lematus. In M. Walker, H. Ji, & A. Stent (Eds.), Proceedings of the 2018 conference of the north American chapter of (pp. 1391–1400). Association for Computational Linguistics. https://doi.org/10.18653/v1/N18- 1126
Mikolov, T., Chen, K., Corrado, G., ve Dean, J. (2013, January 16). Efficient Estimation of Word Representations in Vector Space. https://arxiv.org/pdf/1301.3781
Müller, T., Cotterel, R., Fraser A. ve Schütze, H. (2015). Joint Lemmatization And Morphological Tagging With Lemming. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics.
Öztürkmenoğlu, O., ve Alpkoçak, A. (2012). Comparison of different lemmatization approaches for information retrieval on turkish text collection. In 2012 ınternational symposium on ınnovations in ıntelligent systems and applications. IEEE. https://doi.org/10.1109/inista.2012.6246934
Özkan, Y. (2021). Uygulamalı Derin Öğrenme. Papatya.

APA	Tahiroğlu B (2021). Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. , 475 - 486. 10.29000/rumelide.995343
Chicago	Tahiroğlu B. Tahir Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. (2021): 475 - 486. 10.29000/rumelide.995343
MLA	Tahiroğlu B. Tahir Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. , 2021, ss.475 - 486. 10.29000/rumelide.995343
AMA	Tahiroğlu B Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. . 2021; 475 - 486. 10.29000/rumelide.995343
Vancouver	Tahiroğlu B Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. . 2021; 475 - 486. 10.29000/rumelide.995343
IEEE	Tahiroğlu B "Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR." , ss.475 - 486, 2021. 10.29000/rumelide.995343
ISNAD	Tahiroğlu, B. Tahir. "Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR". (2021), 475-486. https://doi.org/10.29000/rumelide.995343

APA	Tahiroğlu B (2021). Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. RumeliDE Dil ve Edebiyat Araştırmaları Dergisi, 0(24), 475 - 486. 10.29000/rumelide.995343
Chicago	Tahiroğlu B. Tahir Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. RumeliDE Dil ve Edebiyat Araştırmaları Dergisi 0, no.24 (2021): 475 - 486. 10.29000/rumelide.995343
MLA	Tahiroğlu B. Tahir Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. RumeliDE Dil ve Edebiyat Araştırmaları Dergisi, vol.0, no.24, 2021, ss.475 - 486. 10.29000/rumelide.995343
AMA	Tahiroğlu B Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. RumeliDE Dil ve Edebiyat Araştırmaları Dergisi. 2021; 0(24): 475 - 486. 10.29000/rumelide.995343
Vancouver	Tahiroğlu B Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR. RumeliDE Dil ve Edebiyat Araştırmaları Dergisi. 2021; 0(24): 475 - 486. 10.29000/rumelide.995343
IEEE	Tahiroğlu B "Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR." RumeliDE Dil ve Edebiyat Araştırmaları Dergisi, 0, ss.475 - 486, 2021. 10.29000/rumelide.995343
ISNAD	Tahiroğlu, B. Tahir. "Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR". RumeliDE Dil ve Edebiyat Araştırmaları Dergisi 24 (2021), 475-486. https://doi.org/10.29000/rumelide.995343