Yıl: 2018 Cilt: 11 Sayı: 3 Sayfa Aralığı: 235 - 244 Metin Dili: Türkçe DOI: 10.17671/gazibtd.402468 İndeks Tarihi: 18-07-2019

TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması

Öz:
Yakın anlamlı kavramların bulunması, kavramınbir derlemdeki semantik anlamını yakalamamızı ve kavramın hangi bağlamdakullanıldığını elde etmemizi sağlar. Kelime Uzayı Modeli; anlamsal olarakbenzer kelimeleri, vektör uzayında bir birine yakın dağılımla gösteren birmodeldir. Her bir kelimenin bir vektörle temsil edildiği bu modelde oluşankelime vektörleri kelime yerleştirme (Word Embeddings) olarak adlandırılır. Kelimevektörleri metin analizi gerçekleştiren özellikle yapay sinir ağlarını temelalan Doğal Dil İşleme (DDİ) sistemlerinde girdi olarak kullanılır. Bu çalışmada,veri seti olarak TBMM Genel Kurul görüşme tutanakları kullanılmış, Word2vec modeli ve GloVe modeli ile kelimevektörleri çıkarılmıştır. Eldeedilen kelime vektörleri kullanılarak TBMM Genel Kurul tutanaklarında geçenherhangi bir kavrama en yakın anlamlı kavramlar bulunmuştur. Literatürdekibenzer çalışmalarda iki farklı kelime yerleştirme modellerinin bir kavramıtamamen farklı bağlamda değerlendirdiği duruma rastlanılmamıştır. Bu çalışmasonucunda, Word2vec ve GloVe modellerinin çıktılarının bir kavramın farklıbağlamlarda kullanımını bulmak için değerlendirilebileceği görülmüştür. Çalışmadaderleme özgü analojilerin her iki modelde de bulunabildiği görülmüştür. Buçalışmadan elde edilen sonuçlar TBMM Genel Kurul tutanaklarında arama yaparken benzer kavramlarınanahtar kelime olarak önerilmesi için kullanılacaktır.
Anahtar Kelime:

Konular: Bilgisayar Bilimleri, Yazılım Mühendisliği Bilgisayar Bilimleri, Bilgi Sistemleri Bilgisayar Bilimleri, Teori ve Metotlar

Extracting Close Meaning Concepts from GNAT Parliamentary Minutes

Öz:
Having close meaning concepts allows us to capture semantic meaning of a concept in a corpus and to get the context in which it is used. Vector Space Model locates similar concepts to close each other in a vector space. In this model, every word is represented by a vector and it is called as a “word embedding” in literature. Word vectors are used as an input in text analysis, especially in NLP tasks based on neural networks. In this paper, The Grand National Assembly of Turkey (GNAT) Parliamentary minutes are used as data set. Word vectors are extracted using Word2vec model and GloVe model. Using word vectors, obtained concepts which are semantically close to any concept in the GNAT Parliamentary minutes. The experimental results show that, different contexts of a concept can be extracted from corpus by both models when results assessed separately. Analogies which are specific to the corpus can be extracted by both models. Results obtained in this model are suitable for suggesting similar concepts as keywords in Information Retrieval systems.
Anahtar Kelime:

Konular: Bilgisayar Bilimleri, Yazılım Mühendisliği Bilgisayar Bilimleri, Bilgi Sistemleri Bilgisayar Bilimleri, Teori ve Metotlar
Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • Z. Harris, “Distributional structure”, Word, 23(10), 146–162, 1954.
  • Thomas K. Landauer , Susan T. Dumais, “A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge”, Psychological Review, 104(2), 211–240, 1997.
  • X. Hu, Z. Cai, P. Wiemer-Hastings, A. Graesser, D. McNamara, Strengths, limitations, and extensions of LSA. Handbook of Latent Semantic Analysis, 401–426, 2007.
  • R. Collobert , J. Weston, “A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning”, Proceedings of the 25th International Conference on Machine Learning, Helsinki, Finlandiya, 20(1), 160–167, 2008.
  • T. Mikolov, K Chen, G Corrado, J Dean, “Efficient estimation of word representations in vector space”, arXiv:1301.3781,2013.
  • Y. Bengio, R. Ducharme, P. Vincent, C. Janvin, “A neural probabilistic language model”, Journal of Machine Learning Research, 3, 1137-1155, 2003.
  • L. Jianqiang, L. Jing, F. Xianghua, M.A. Masud, J.H. Huang, “Learning distributed Word representation with multi-contextual mixed embedding”, Knowledge-Based Systems, 106, 220-230, 2016.
  • O. Kaynar, Z. Aydın, Y. Görmez. “Sentiment Analizinde Öznitelik Düşürme Yöntemlerinin Oto Kodlayıcılı Derin Öğrenme Makinaları ile Karşılaştırılması”, Bilişim Teknolojileri Dergisi, 10(3), Temmuz 2017.
  • J. Penington, R. Socher, C.D. Manning, “GloVe:Global Vectors for Word Representation”, Emprical Methods in Natural Language Processing (EMNLP), 1532-1543, 2008.
  • E. Altszyler, M. Sigman, S. Ribeiro, D. F. Slezak. “Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database”, arXiv: 1610.01520, 2016.
  • L.O,Goldberg, Y,Dagan, “Improving distributional similarity with lessons learned from Word embeddings”, Transactions of the Association for Computational Linguistics, 3, 211-225, 2015.
  • M. Naili, A. H. Chaibi, H. H. B. Ghezala, “Comparative study of word embedding methods in topic segmentation”, Procedia Computer Science, 112, 340-349, 2017.
  • M. Faruqui, J. Dodge, S. K. Jauhar, C. Dyer, E. Hovy, N. A. Smith, “Retrofitting word vectors to semantic lexicons”, In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics, Colorado, ABD, Human Language Technologies, 1606– 1615, 2015.
  • G. A. Miller, “Wordnet: a lexical database for english”, Communications of the ACM, 38(11), 39-41, 1995.
  • C. F. Baker, C. J. Fillmore, J. B. Lowe, “The Berkeley FrameNet Project”, Proceedings of the 17th International Conference on Computational Linguistics, Volume 1, Montreal, Quebec, Kanada, 86-90, 1998.
  • J. Ganitkevitch, B. Van Durme, C. Burch, “PPDB: The paraphrase database”, Proceedings of NAACL, 758-764, Haziran, 2013.
  • T. Mikolov,I. Sutskever, K. Chen, G. Corrado, J. Dean, “Distributed Representations of Words and Phrases and their Compositionality”, Proceedings of the 26th International Conference on Neural Information Processing Systems, Volume 2, Nevada, ABD, 3111-3119, 2013.
  • X. Rong, “Word2vecParameter Learning Explained”, arXiv:1411.2738, 2014.
  • T. Mikolov, W. Yih, G. Zweig, “Linguistic Regularities in Continuous Space Word Representations”, Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 746-751, 2013.
APA Polat H (2018). TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. , 235 - 244. 10.17671/gazibtd.402468
Chicago Polat Huseyin TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. (2018): 235 - 244. 10.17671/gazibtd.402468
MLA Polat Huseyin TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. , 2018, ss.235 - 244. 10.17671/gazibtd.402468
AMA Polat H TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. . 2018; 235 - 244. 10.17671/gazibtd.402468
Vancouver Polat H TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. . 2018; 235 - 244. 10.17671/gazibtd.402468
IEEE Polat H "TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması." , ss.235 - 244, 2018. 10.17671/gazibtd.402468
ISNAD Polat, Huseyin. "TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması". (2018), 235-244. https://doi.org/10.17671/gazibtd.402468
APA Polat H (2018). TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. Bilişim Teknolojileri Dergisi, 11(3), 235 - 244. 10.17671/gazibtd.402468
Chicago Polat Huseyin TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. Bilişim Teknolojileri Dergisi 11, no.3 (2018): 235 - 244. 10.17671/gazibtd.402468
MLA Polat Huseyin TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. Bilişim Teknolojileri Dergisi, vol.11, no.3, 2018, ss.235 - 244. 10.17671/gazibtd.402468
AMA Polat H TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. Bilişim Teknolojileri Dergisi. 2018; 11(3): 235 - 244. 10.17671/gazibtd.402468
Vancouver Polat H TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması. Bilişim Teknolojileri Dergisi. 2018; 11(3): 235 - 244. 10.17671/gazibtd.402468
IEEE Polat H "TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması." Bilişim Teknolojileri Dergisi, 11, ss.235 - 244, 2018. 10.17671/gazibtd.402468
ISNAD Polat, Huseyin. "TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması". Bilişim Teknolojileri Dergisi 11/3 (2018), 235-244. https://doi.org/10.17671/gazibtd.402468