Yıl: 2022 Cilt: 10 Sayı: 1 Sayfa Aralığı: 118 - 134 Metin Dili: Türkçe DOI: 10.29109/gujsc.1030997 İndeks Tarihi: 29-07-2022

Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi

Öz:
Bu çalışmada, Türkçe hazırlanmış fiziksel kartvizitleri, sayısal olarak bulut tabanlı veritabanında saklayan dijital-kartvizitlik yazılımı geliştirilmiştir. Önerilen yazılımda, fiziksel kartvizit üzerindeki bilgiler kartvizit fotoğraflarından optik karakter tanıma (Optical Character Recognition: OCR) yöntemi ile metne çevrilmekte daha sonra geliştirilen algoritmalar yardımıyla elde edilen metinler ayrıştırılarak gruplandırılmaktadır. Son olarak sayısal olarak elde edilen kartvizit verileri, daha sonra kullanılmak üzere bulut tabanlı veritabanında saklanmaktadır. Türkçe kartvizitler göz önüne alındığında, Türk diline özgün karakterlerin yanı sıra ülkeye özgün çok çeşitli-karmaşık kartvizitlerin de olduğu bilinmektedir. Bu kapsamda çalışmada öncelikli olarak Türkçe karakterleri doğru tanıyan bir yöntem belirlenmiştir. Daha sonra okunan verilerden isimler, cep telefonu, e-posta adresi, şirket unvanı, görevi ve benzeri anlamlı kartvizit bilgilerinin ayrıştırılması yapılmıştır. Bu ayrıştırmaları yapabilmek için her alan için kendine özel yöntemler geliştirilerek alan bazlı algoritmalarla daha doğru ve anlamlı verilerin elde edilmesi sağlanmıştır. Geliştirilen bulut tabanlı, platformdan bağımsız arayüz sayesinde internet üzerinden tek kullanıcı ile birden fazla cihazdan verilere erişilebilmesine olanak sağlanmıştır. Çalışma aynı zamanda tek bir platformdan, birden çok hesap ve ona bağlı birden fazla kullanıcının aynı anda kullanabileceği katmanlı servis mimarisi ve veritabanı alt yapısı da sunmaktadır. Yapılan deneysel çalışmalarda, geliştirilen yazılım, farklı özelliklere sahip 15 adet fiziksel kartvizitteki verileri, %84,76 Doğruluk, %96,05 Kesinlik, %84,88 Duyarlılık, %90,12 F1 Skoru ve ortalama 1,6 sn’lik çıkartım süreleriyle okuyarak ayrıştırabilmektedir.
Anahtar Kelime:

Cloud Based WEB Application Design for Automatic Turkish Business Card Recognition and Its Performance Evaluation

Öz:
In this study, digital-business card holder software was developed that digitally stores physical business cards prepared in Turkish in a cloud-based database. In the proposed software, the information on the physical business card is converted into text by optical character recognition method (OCR) using business card photos, and then the texts obtained with the help of developed algorithms are separated and grouped. Finally, the digitally obtained business card data is stored in the cloud-based database for later use. Considering the Turkish business cards, it is known that there are a wide variety of complex business cards unique to the country as well as the characters specific to the Turkish language. In this context, first of all, a method that correctly recognizes Turkish characters has been determined in the study. Later, name, mobile phone, e-mail address, company title, position and similar meaningful information were separated from the data read. In order to make these decompositions, special methods have been developed for each field and more accurate and meaningful data has been obtained with fieldbased algorithms. Thanks to the developed cloud-based platform-independent interface, it is possible to access data from more than one device with a single user over the internet. The study also offers a layered service architecture and database infrastructure that can be used by multiple accounts and multiple users connected to it simultaneously from a single platform. In the experimental studies, the proposed software can extract the data on 15 physical business cards with different features with 84.76% Accuracy, 96.05% Precision, 84.88% Recall, 90.12% F1 Score and an average extraction time of 1.6 seconds.
Anahtar Kelime: Cloud Software Reading Business Cards Tesseract Optical Character Recognition (OCR)

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • [1] Kakani B. V., Gandhi D., Jani S., Improved OCR based automatic vehicle number plate recognition using features trained neural network, In 2017 8th international conference on computing, communication and networking technologies, (2017) 1-6.
  • [2] Shen H., Coughlan J. M., Towards a real-time system for finding and reading signs for visually impaired users, In International Conference on Computers for Handicapped Persons, Springer, Berlin, Heidelberg, (2012) 41-47.
  • [3] Emekligil E., Arslan S., Agin O., A bank information extraction system based on named entity recognition with CRFs from noisy customer order texts in Turkish, In International Conference on Knowledge Engineering and the Semantic Web, Springer, Cham, (2016) 93-102.
  • [4] Chauhan P., Luthra P., Ahmad Ansari I., Road Sign Detection Using Camera for Automated Driving Assistance System. In Proceedings of the International Conference on Advances in Electronics, Electrical & Computational Intelligence (ICAEEC), (2019).
  • [5] Thuan N. H., Nhan D. T., Toan L. T., Giang N. X. H., Truong Q. B., An Android Business Card Reader Based on Google Vision: Design and Evaluation, In Context-Aware Systems and Applications, and Nature of Computation and Communication, Springer, Cham,(2019) 223-236.
  • [6] Hung P. D., Linh D. Q., Implementing an android application for automatic vietnamese business card recognition, Pattern Recognition and Image Analysis, 29(1) (2019), 156-166.
  • [7] Saiga H., Nakamura Y., Kitamura Y., Morita T., An OCR system for business cards, IEEE In Proceedings of 2nd International Conference on Document Analysis and Recognition (ICDAR'93), (1993) 802-805.
  • [8] Chiou Y. H., Lee H. J., Recognition of Chinese business cards, IEEE in Proceedings of the Fourth International Conference on Document Analysis and Recognition, 2 (1997) 1028-1032.
  • [9] Wang Y. K., Fan K. C., Juang Y. T., Chen T. H., Using hidden Markov model for chinese business card recognition, IEEE In Proceedings 2001 International Conference on Image Processing (Cat. No. 01CH37205), 1 (2001) 1106-1109.
  • [10] Dangiwa B. A., Kumar, S. S., A business card reader application for iOS devices based on Tesseract, IEEE In 2018 International Conference on Signal Processing and Information Security (ICSPIS), (2018) 1-4.
  • [11] Shinde A., Tungar M., Khairnar P., Gunjkar J., Energy Efficient Business Card Recognition and Translation over Cloud Computing using Google Vision, GRD Journals- Global Research and Development Journal for Engineering, 2(4) (2017) 80-84.
  • [12] Tesseract_(software), https://en.wikipedia.org/wiki/Tesseract_(software), Ziyaret Tarihi: 22.11.2021.
  • [13] Smith R., An overview of the Tesseract OCR engine, IEEE In Ninth international conference on document analysis and recognition, 2 (2007) 629-633.
  • [14] Smith R. W., Hybrid page layout analysis via tab-stop detection, IEEE In 2009 10th International Conference on Document Analysis and Recognition, (2009) 241-245.
  • [15] Smith R., Antonova D., Lee D. S., Adapting the Tesseract open source OCR engine for multilingual OCR, In Proceedings of the International Workshop on Multilingual OCR, (2009) 1-8.
  • [16] Smith R., Limits on the application of frequency-based language models to OCR, IEEE In 2011 International Conference on Document Analysis and Recognition, (2011) 538-542.
  • [17] Lee D. S., Smith R., Improving book ocr by adaptive language and image models, IEEE In 2012 10th IAPR International Workshop on Document Analysis Systems, (2012) 115-119.
  • [18] Unnikrishnan R., Smith R., Combined script and page orientation estimation using the tesseract ocr engine, IEEE In Proceedings of the international workshop on multilingual OCR, (2009) 1-7.
  • [19] Rice S. V., Jenkins F. R., Nartker T. A., The fourth annual test of OCR accuracy,Technical Report 95, 3 (1995) 1-39.
  • [20] Okutucu B. O., Bulut Bilişim ve Teknolojileri, Yüksek Lisans Tezi, İstanbul Okan Üniversitesi, Bilgisayar Mühendisliği Anabilim Dalı, (2012).
  • [21] Tesseract OCR, https://github.com/tesseract-ocr, Ziyaret Tarihi: 22.11.2021.
  • [22] https://gist.github.com/ismailbaskin/1325813 Ziyaret Tarihi: 26.11.2021.
  • [23] https://data.tuik.gov.tr/ Ziyaret Tarihi: 26.11.2021.
APA ŞAHİN İ, Ucar M, SOLAK S (2022). Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi. , 118 - 134. 10.29109/gujsc.1030997
Chicago ŞAHİN İBRAHİM,Ucar Mustafa Hikmet Bilgehan,SOLAK Serdar Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi. (2022): 118 - 134. 10.29109/gujsc.1030997
MLA ŞAHİN İBRAHİM,Ucar Mustafa Hikmet Bilgehan,SOLAK Serdar Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi. , 2022, ss.118 - 134. 10.29109/gujsc.1030997
AMA ŞAHİN İ,Ucar M,SOLAK S Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi. . 2022; 118 - 134. 10.29109/gujsc.1030997
Vancouver ŞAHİN İ,Ucar M,SOLAK S Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi. . 2022; 118 - 134. 10.29109/gujsc.1030997
IEEE ŞAHİN İ,Ucar M,SOLAK S "Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi." , ss.118 - 134, 2022. 10.29109/gujsc.1030997
ISNAD ŞAHİN, İBRAHİM vd. "Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi". (2022), 118-134. https://doi.org/10.29109/gujsc.1030997
APA ŞAHİN İ, Ucar M, SOLAK S (2022). Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi. Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji, 10(1), 118 - 134. 10.29109/gujsc.1030997
Chicago ŞAHİN İBRAHİM,Ucar Mustafa Hikmet Bilgehan,SOLAK Serdar Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi. Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji 10, no.1 (2022): 118 - 134. 10.29109/gujsc.1030997
MLA ŞAHİN İBRAHİM,Ucar Mustafa Hikmet Bilgehan,SOLAK Serdar Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi. Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji, vol.10, no.1, 2022, ss.118 - 134. 10.29109/gujsc.1030997
AMA ŞAHİN İ,Ucar M,SOLAK S Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi. Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji. 2022; 10(1): 118 - 134. 10.29109/gujsc.1030997
Vancouver ŞAHİN İ,Ucar M,SOLAK S Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi. Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji. 2022; 10(1): 118 - 134. 10.29109/gujsc.1030997
IEEE ŞAHİN İ,Ucar M,SOLAK S "Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi." Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji, 10, ss.118 - 134, 2022. 10.29109/gujsc.1030997
ISNAD ŞAHİN, İBRAHİM vd. "Otomatik Türkçe Kartvizit Tanıma için Bulut Tabanlı WEB Uygulama Tasarımı ve Performans Değerlendirmesi". Gazi Üniversitesi Fen Bilimleri Dergisi Part C: Tasarım ve Teknoloji 10/1 (2022), 118-134. https://doi.org/10.29109/gujsc.1030997