Yıl: 2018 Cilt: 33 Sayı: 2 Sayfa Aralığı: 413 - 423 Metin Dili: Türkçe DOI: 10.17341/gazimmfd.41635 0 İndeks Tarihi: 03-12-2018

K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları

Öz:
Mikrodizi teknolojisindeki son gelişmeler sayesinde genlerin farklı seviyelerini eş zamanlı olarak ifadeetmek mümkün hale gelmiştir. Genler içindeki gizli bilgilerin temsil edilmesi, genlerin analizinikolaylaştırmakta; ancak gen sayısının fazla olması ve veri setlerindeki yüksek gürültü miktarı gen verilerininanlaşılmasını zorlaştırmaktadır. Bunun için genlerin belirlenebilmesini kolaylaştırmak amacıyla kümelemeyöntemleri kullanılmaktadır. Mikrodizi verileri çok boyutlu verilere en iyi örneklerdendir. Çok boyutluverileri kümelemek için çalışma kapsamında standart K-ortalamalar ve Parçacık Sürü Optimizasyonu (PSO)tabanlı kümeleme algoritmaları için başlangıç küme merkezlerinin seçimine yönelik yeni yöntemlerönerilmiştir. Ayrıca öbek (coreset) yaklaşımı PSO algoritmasına uyarlanmıştır. Geliştirilen yöntemlerindoğruluğu; literatürde sıkça kullanılan veri setleri üzerinde test edilmiş ve bu yaklaşımlar Colon Cancermikrodizi veri seti üzerinde çalıştırılmıştır. Baz alınan standart K-ortalamalar ve PSO tabanlı kümelemeyöntemleri ile geliştirilen yaklaşımlar karşılaştırılmış; performansları çözüme ulaşılan ortalama iterasyonsayısı, Rand ve Silhouette indeksleri kullanılarak değerlendirilmiştir. Deneysel çalışmalarda, geliştirilenyaklaşımların öznitelik seçimi yapılmış normalize veri setleri üzerinde başarılı sonuçlar verdiğigözlemlenmiştir.
Anahtar Kelime:

New initialization approaches for the k-means and particle swarm optimization based clustering algorithms

Öz:
Thanks to the recent advances in microarray technology, simultaneously expressing different levels of genes is possible. Although the representation of confidential information in genes simplifies to analyze them; both high number of genes and high amount of noise in the data sets make difficult to identify the gene data. In order to identify genes various clustering methods are generally used. Microarray data is one of the best examples of multidimensional data. In this study, in order to cluster multidimensional data, new methods for selecting initial cluster centers are proposed for the standard K-means and Particle Swarm Optimization (PSO)-based clustering algorithms. Also, coreset approach is adapted for PSO algorithm. The correctness of the developed methods is examined on datasets which are frequently used in the literature, and also these proposed approaches are run on Colon Cancer microarray data set. The performance of the proposed approaches is compared with the standard K-means and PSO-based clustering methods by means of average iteration number, Rand, and Silhouette index metrics. In experimental studies, we observe that proposed methods give superior results on the normalized datasets in which feature selection process is performed.
Anahtar Kelime:

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • Guyon I., Gunn S., Ben-Hur A., Dror G., Result Analysis of the NIPS 2003 Feature Selection Challenge, In Advances in Neural Information Processing Systems 17, 545–552, 2005.
  • Var E., Inan A., Differentially private attribute selection for classification, Journal of the Faculty of Engineering and Architecture of Gazi University 33 (1), 323-336, 2018.
  • Rand W.M., Objective Criteria for the Evaluation of Clustering Methods, Journal of the American Statistical Association, 66 (336), 846–850, 1971.
  • Rousseeuw P.J., Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis, Computational and Applied Mathematics, 20 (1), 53– 65, 1987.
  • Bādoiu M., Har-Peled S., Indyk P., Approximate Clustering via Core-sets, In Proceedings of the 34th Annual ACM Symposium on Theory of Computing (STOC), Quebec-Canada, 250-257, 19-21 Mayıs 2002.
  • Abraham A., Das S., Roy S., Swarm Intelligence Algorithms for Data Clustering, Soft Computing for Knowledge Discovery and Data Mining, Springer, Boston, ABD, 1, 279-313, 2008.
  • Omran M., Salman A., Engelbrecht A.P., Image Classification Using Particle Swarm Optimization, In Proceedings of the 4th Asia-Pacific Conference on Simulated Evolution and Learning (SEAL 2002), Singapur, 370-374, 2002.
  • Poli R., Kennedy J., Blackwell T., Particle Swarm Optimization an Overview, Swarm Intelligence, 1 (1), 33–57, 2007.
  • Haltaş A., Alkan A., Karabulut M., Performance analysis of heuristic search algorithms in text classification, Journal of the Faculty of Engineering and Architecture of Gazi University, 30 (3), 417-427, 2015.
  • Kennedy J., Eberhart R., Particle Swarm Optimization, In Proceedings of IEEE International Conference on Neural Networks, 4, 1942-1948, 1995.
  • Dey L., Mukhopadhyay A., Microarray gene expression data clustering using PSO based K-means algorithm, UACEE International Journal of Computer Science and its Applications, 1 (1), 232-236, 2009.
  • Cui X., Potok T.E., Palathingal P., Document clustering using particle swarm optimization, In Swarm Intelligence Symposium, Kaliforniya-ABD, 185-191, 8- 10 Haziran, 2005.
  • Cui X., Potok T.E., Document clustering analysis based on hybrid PSO + K-means algorithm, Journal of Computer Sciences, 27-33, 2005.
  • Jothi R., Mohanty S.K., Ojha A., On Careful Selection of Initial Centers for K-means Algorithm, In Proceedings of 3rd International Conference on Advanced Computing, Networking and Informatics (ICACNI), 435-445, 2016.
  • Qiao J., Lu Y., A new algorithm for choosing initial cluster centers for k-means, 2nd International Conference on Computer Science and Electronics Engineering (ICCSEE 2013), Paris-Fransa, 527-530, 2013.
  • Aldahdooh R.T., Ashour W., DIMK-means 'Distancebased Initialization Method for K-means Clustering Algorithm', International Journal of Intelligent Systems and Applications, 5 (2), 41-51, 2013.
  • Aggarwal N., Aggarwal K., A Mid-Point Based Kmeans Clustering Algorithm for Data Mining, International Journal on Computer Science and Engineering (IJCSE), 4 (6), 1174-1180, 2012a.
  • Erişoğlu M., Çalış N., Sakallıoğlu S., A New Algorithm for Initial Cluster Centers in K-means Clustering, Pattern Recognition Letters, 32 (14), 1701-1705, 2011.
  • Arai K., Barakbah A.R., Hierarchical K-means: An Algorithm for Centroids Initialization for K-means, Reports of the Faculty of Science and Engineering Saga University, 36 (1), 25-31, 2007.
  • Khan S.S., Ahmad A., Cluster Center Initialization Algorithm for K-means Clustering, Pattern recognition letters, 25 (11), 1293-1302, 2004.
  • Bradley P.S., Fayyad U.M., Refining Initial Points for K -Means Clustering, 15th International Conference on Machine Learning, San Francisco-ABD, 91-99, 1998.
  • Katsavounidis I., Kuo C., Zhang Z., A New Initialization Technique for Generalized Lloyd Iteration, IEEE Signal Processing Letters, 1 (10), 144 -146, 1994.
  • Kaufman L. ve Rousseeuw, P.J., Finding Groups in Data: An Introduction to Cluster Analysis, John Wiley & Sons, New York, 1990.
  • Forgy E.W., Cluster Analysis of Multivariate Data: Efficiency vs. Interpretability of Classifications, Biometrics, 21 (3), 768-769, 1965.
  • Kar A.K., Bio Inspired Computing–A Review of Algorithms and Scope of Applications, Expert Systems with Applications, 59, 20-32, 2016.
  • Alataş B., Özer A.B., Mining of generalized interesting classification rules with artificial chemical reaction optimization algorithm, Journal of the Faculty of Engineering and Architecture of Gazi University, 32 (1), 101-118, 2017.
  • Ekinci S., Hekimoğlu B., Multi-machine power system stabilizer design via HPA algorithm, Journal of the Faculty of Engineering and Architecture of Gazi University, 32 (4), 1271-1285, 2017.
  • Krishnasamy G., Kulkarni A.J., Paramesran R., A hybrid approach for data clustering based on modified cohort intelligence and K-means, Expert Systems with Applications, 41 (13), 6009-6016, 2014.
  • Esmin A.A.A., Coelho R.A., Matwin S., A review on particle swarm optimization algorithm and its variants to clustering high-dimensional data, Artificial Intelligence Review, 44 (1), 23-45, 2015.
  • Handl J., Knowles J., Kell D.B., Computational Cluster Validation in Post-Genomic Data Analysis, Bioinformatics, 21, 3201–3212, 2005.
  • Jiang D., Tang C., Zhang A., Cluster Analysis for Gene Expression Data: A Survey, IEEE Transactions on Knowledge and Data Engineering, 16 (11), 1370-1386, 2004.
  • Valafar F., Pattern Recognition Techniques in Microarray Data Analysis: A Survey, Annals of New York Academy of Sciences, 980 (1), 41-64, 2002.
  • Bertone P., Gerstein M., Integrative Data Mining: The New Direction in Bioinformatics Machine Learning for Analyzing Genome-wide Expression Profiles, IEEE Engineering in Medicine and Biology, 20, 33-40, 2001.
APA ÇINAROĞLU S, Bulut H (2018). K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. , 413 - 423. 10.17341/gazimmfd.41635 0
Chicago ÇINAROĞLU SİNEM,Bulut Hasan K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. (2018): 413 - 423. 10.17341/gazimmfd.41635 0
MLA ÇINAROĞLU SİNEM,Bulut Hasan K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. , 2018, ss.413 - 423. 10.17341/gazimmfd.41635 0
AMA ÇINAROĞLU S,Bulut H K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. . 2018; 413 - 423. 10.17341/gazimmfd.41635 0
Vancouver ÇINAROĞLU S,Bulut H K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. . 2018; 413 - 423. 10.17341/gazimmfd.41635 0
IEEE ÇINAROĞLU S,Bulut H "K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları." , ss.413 - 423, 2018. 10.17341/gazimmfd.41635 0
ISNAD ÇINAROĞLU, SİNEM - Bulut, Hasan. "K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları". (2018), 413-423. https://doi.org/10.17341/gazimmfd.41635 0
APA ÇINAROĞLU S, Bulut H (2018). K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 33(2), 413 - 423. 10.17341/gazimmfd.41635 0
Chicago ÇINAROĞLU SİNEM,Bulut Hasan K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 33, no.2 (2018): 413 - 423. 10.17341/gazimmfd.41635 0
MLA ÇINAROĞLU SİNEM,Bulut Hasan K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, vol.33, no.2, 2018, ss.413 - 423. 10.17341/gazimmfd.41635 0
AMA ÇINAROĞLU S,Bulut H K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi. 2018; 33(2): 413 - 423. 10.17341/gazimmfd.41635 0
Vancouver ÇINAROĞLU S,Bulut H K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları. Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi. 2018; 33(2): 413 - 423. 10.17341/gazimmfd.41635 0
IEEE ÇINAROĞLU S,Bulut H "K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları." Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, 33, ss.413 - 423, 2018. 10.17341/gazimmfd.41635 0
ISNAD ÇINAROĞLU, SİNEM - Bulut, Hasan. "K-ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları". Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi 33/2 (2018), 413-423. https://doi.org/10.17341/gazimmfd.41635 0