Yıl: 2022 Cilt: 37 Sayı: 3 Sayfa Aralığı: 1639 - 1654 Metin Dili: Türkçe DOI: 10.17341/gazimmfd.641580 İndeks Tarihi: 29-07-2022

Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması

Öz:
Günümüzde değerli verilerin saklanması ve sadece yetkili şahıs veya kurumlarca kullanılması önem arz etmektedir. Genel olarak verinin korunmasına yönelik geliştirilen veri sızıntısı önleme (Data Leakage Prevention-DLP) çözümleri zararlı yazılım kaynaklı saldırıları göz ardı etmekte, parmak izi (fingerprinting) eşleştirme ve kurallı ifadeler (regular expression) benzeri yöntemler kullanan algoritmalar yer almaktadır. Oysaki doküman içeriğine yönelik yapılan saldırılar neticesinde bu algoritmalar atlatılabilmektedir. Zararlı yazılım kaynaklı veri sızıntısına karşı dayanıklı bir algoritmanın sunulduğu bu çalışmada, zararlı yazılımların saldırı türüne bağlı kalmayan bir çözüm önerilmektedir. Çalışma kapsamında, yer değiştirme, yapısal cümle saldırıları, modifikasyon saldırıları, karartma saldırıları ele alınmıştır. Bu saldırılara karşı yazım düzeltimi, kelime-gram ve karakter-gram, k-skip-n-gram ve LSA kullanılarak, saldırı altında daha iyi bir sınıflama yapılması için özellikler çıkarımı sağlanmıştır. Çıkarılan özellikler, Karar Destek Makineleri, Rasgele Orman ve Çok Katmanlı Algılayıcı kullanarak Oylamalı Sınıflandırıcı ile en çok oy alan yönteme göre sınıflama tahmini yapılmıştır. Ayrıca modifikasyon saldırılarında faydalı olan Yazım Düzeltme yönteminin etkisi farklı aşamalarda uygulanarak gösterilmiştir.
Anahtar Kelime: APT TD-IDF Rasgele orman Bilgi güvenliği Karartma saldırıları N-gram Yapısal ataklar Gelişmiş Sürekli Atak Oylamalı sınıflandırıcı Zararlı yazılım kaynaklı veri sızıntısı önleme Zararlı DLP

A new document classification algorithm against malicious data leakage attacks

Öz:
Nowadays it is important to store sensitive data and restrict its usage only to authorized people or institutions. In general, solutions for Data Leakage Prevention (DLP) ignores malicious attacks on documents and algorithms using fingerprinting and regular expressions are used. However, content-based attacks are successful evading those algorithms. In this paper an algorithm robust against malicious content-based attacks is proposed, which is independent of the attack executed. Transposition, sentence structure alteration, modification, obfuscation attacks are taken into consideration within the scope of paper. N-gram, charactergram, k-skip-n-gram and LSA methods are used in the feature extraction step, for having better classification results under attacks. The extracted features are passed to a Vote Classifier consisting of Support Vector Machine, Random Forest and Multi-Layer Perceptron classifiers. Additionally, the effects of instrumenting Spell-Correction in different steps of the algorithm is evaluated, which is effective against modification attacks.
Anahtar Kelime: Information Security

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • 1. Alneyadi S., Sithirasenan E., Muthukkumarasamy V., A survey on data leakage prevention systems, J. Netw. Comput. Appl., 62, 137-152, 2016.
  • 2. Maheshwari A., Report on Text Classification using CNN, RNN & HAN. https://medium.com/jatana/reporton-text-classification-using-cnn-rnn-hanf0e887214d5f. Yayın Tarihi Temmuz 17, 2018. Erişim Tarihi Aralık 31, 2021.
  • 3. Mustafa T., Malicious Data Leak Prevention and Purposeful Evasion Attacks: An approach to Advanced Persistent Threat (APT) management, 2013 Saudi Int. Electron. Commun. Photonics Conf. SIECPC 2013, 1-5, 2013.
  • 4. Tahboub R., Saleh Y., Data leakage/loss prevention systems (DLP), 2014 World Congr. Comput. Appl. Inf. Syst. WCCAIS 2014, 2014.
  • 5. Hart M., Manadhata P., Johnson R., Text Classification for Data Loss Prevention, 18-37, 2011.
  • 6. Canbay Y., Yazici H., Sagiroglu S., A Turkish language based data leakage prevention system, 2017 5th Int. Symp. Digit. Forensic Secur. ISDFS 2017, 2017.
  • 7. Martins B., Silva M.J., Spelling Correction for Search Engine Queries, Adv. Nat. Lang. Process., 372-383, 2004.
  • 8. Ahmed F., Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness, Res. J. Comput. …, 40, 39-48, 2009.
  • 9. Priya M., Kalpana R., Srisupriya T., Hybrid optimization algorithm using N gram based edit distance, Proc. 2017 IEEE Int. Conf. Commun. Signal Process. ICCSP 2017, 2018-Janua, 216-221, 2018.
  • 10. Kulmizev A., et al., The Power of Character N-grams in Native Language Identification, 2018, 382-389, 2018.
  • 11. Altszyler E., Sigman M., Ribeiro S., Slezak D.F., Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database, 1-14, 2016.
  • 12. Catal C., Nangir M., A sentiment classification model based on multiple classifiers, Appl. Soft Comput. J., 50, 135-141, 2017.
  • 13. Tripathy A., Agrawal A., Rath S., Classification of Sentiment Reviews using N-gram Machine Learning Approach, Expert Syst. Appl., 57, 2016.
  • 14. Ruder S., An overview of gradient descent optimization algorithms, 1-14, 2016.
  • 15. Topaloğlu M., Özel Anlamlı İfade İçeren Verilerde Sızıntı Önleme İçin Bir Mimari Tasarım Ve Gerçekleştirilmesi, 2012.
  • 16. Tripathy A., Agrawal A., Rath S.K., Classification of sentiment reviews using n-gram machine learning approach, Expert Syst. Appl., March, 57, 117-126, 2016.
APA İZALA y, özçelik i, Kaya E (2022). Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. , 1639 - 1654. 10.17341/gazimmfd.641580
Chicago İZALA yahya,özçelik ibrahim,Kaya Emrah Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. (2022): 1639 - 1654. 10.17341/gazimmfd.641580
MLA İZALA yahya,özçelik ibrahim,Kaya Emrah Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. , 2022, ss.1639 - 1654. 10.17341/gazimmfd.641580
AMA İZALA y,özçelik i,Kaya E Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. . 2022; 1639 - 1654. 10.17341/gazimmfd.641580
Vancouver İZALA y,özçelik i,Kaya E Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. . 2022; 1639 - 1654. 10.17341/gazimmfd.641580
IEEE İZALA y,özçelik i,Kaya E "Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması." , ss.1639 - 1654, 2022. 10.17341/gazimmfd.641580
ISNAD İZALA, yahya vd. "Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması". (2022), 1639-1654. https://doi.org/10.17341/gazimmfd.641580
APA İZALA y, özçelik i, Kaya E (2022). Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 37(3), 1639 - 1654. 10.17341/gazimmfd.641580
Chicago İZALA yahya,özçelik ibrahim,Kaya Emrah Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 37, no.3 (2022): 1639 - 1654. 10.17341/gazimmfd.641580
MLA İZALA yahya,özçelik ibrahim,Kaya Emrah Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, vol.37, no.3, 2022, ss.1639 - 1654. 10.17341/gazimmfd.641580
AMA İZALA y,özçelik i,Kaya E Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi. 2022; 37(3): 1639 - 1654. 10.17341/gazimmfd.641580
Vancouver İZALA y,özçelik i,Kaya E Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi. 2022; 37(3): 1639 - 1654. 10.17341/gazimmfd.641580
IEEE İZALA y,özçelik i,Kaya E "Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması." Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 37, ss.1639 - 1654, 2022. 10.17341/gazimmfd.641580
ISNAD İZALA, yahya vd. "Zararlı yazılım kaynaklı veri kaçırma ataklarına karşı yeni bir doküman sınıflandırma algoritması". Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 37/3 (2022), 1639-1654. https://doi.org/10.17341/gazimmfd.641580