Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması

Yıl: 2016 Cilt: 31 Sayı: 2 Sayfa Aralığı: 346 - 368 Metin Dili: Türkçe İndeks Tarihi: 29-07-2022

Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması

Öz:
Bu araştırmada, açık uçlu sorularla yapılan ölçmelerde klasik test kuramı (KTK) ve çok yüzeyli Rasch modeline (ÇYRM) göre hesaplanan yetenek kestirimlerinin karşılaştırılması amaçlanmıştır. Araştırma sekizinci sınıfa devam eden 100 öğrenci ile çalışmada puanlayıcı olarak görev alan dört matematik öğretmeninin katılımıyla gerçekleşmiştir. Çalışmanın verileri, açık uçlu altı matematik sorusundan oluşan bir başarı testi ve bu soruların puanlanmasında kullanılan bütüncül bir rubrik yardımıyla toplanmıştır. Açık uçlu matematik sorularına verilen yanıtların puanlanmasıyla elde edilen veriler, hem KTK'ya hem de ÇYRM'ye göre analiz edilmiştir. Dört puanlayıcının verdiği puanların ortalaması alınarak, KTK'ya ilişkin yetenek kestirimleri hesaplanmıştır. Ardından puanlayıcı, birey ve madde şeklinde üç yüzeyli bir desen ile çok yüzeyli Rasch analizi uygulanmıştır. Rasch analizinde ulaşılan ve logit cetvelinde rapor edilen yetenek kestirimlerinin puanlamada kullanılan rubriğin birimlerine dönüştürülmesiyle, iki kurama göre hesaplanan yetenek kestirimleri karşılaştırmaya hazır hale gelmiştir. Araştırma sonucunda; KTK ve ÇYRM'ye göre hesaplanan yetenek kestirimleri arasındaki göreli uyumun son derece yüksek olduğu belirlenmiştir. İki kurama göre hesaplanan yetenek kestirimlerine ait ortalamalar arasında anlamlı fark bulunduğu ve dolayısıyla mutlak bir uyumun söz konusu olmadığı saptanmıştır. ÇYRM'de rapor edilen yetenek kestirimlerinin ölçüt geçerliğinin KTK'dan elde edilen yetenek kestirimlerine kıyasla daha yüksek olduğu tespit edilmiştir
Anahtar Kelime:

Konular: Biyoloji

A Comparison of the Ability Estimations of Classical Test Theory and the Many Facet Rasch Model in Measurements with Open-ended Questions

Öz:
The purpose of this study is to compare the ability estimations of classical test theory (CTT) and the Many Facet Rasch model (MFRM) in measurements conducted with open-ended questions. The study was conducted with 100 eighth graders and four mathematics teachers who rated the students' work. The study's data were obtained using an achievement test with 6 open-ended mathematics questions and a holistic rubric for scoring these questions. The data obtained by rating the open-ended mathematics questions were analyzed using both CTT and MFRM. The ability estimations for CTT were calculated using the score averages of the four raters. Afterwards, Many Facet Rasch analysis was conducted using a three-facet pattern including raters, students and items. The ability estimations calculated by these two theories were prepared to be compared by converting ability estimations obtained from the Rasch analysis and reported in the logit scale into the units of rubric used for scoring. This study found that the relative agreement between the ability estimations calculated using CTT and MFRM was extremely high. It was determined that there was a significant difference between the means of the ability estimations of the two theories, and thus no absolute agreement. Research findings revealed that the concurrent validity of the ability estimations of MFRM is higher than that of CTT's ability estimations
Anahtar Kelime:

Konular: Biyoloji
Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • Abu Kassim, N.L. (2007, June). Exploring rater judging behaviour using the many-facet Rasch model. Paper Presented in the Second Biennial International Conference on Teaching and Learning of English in Asia: Exploring New Frontiers (TELiA2), Holiday Villa Beach & Spa Resort, Langkawi. Faculty of Communication and http://repo.uum.edu.my/3212/1/Noor1.pdf], Retrieved on October 03, 2015. Universiti Utara Malaysia. [Available online at:
  • Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43(9), 561-573. http://dx.doi.org/10.1007/BF02293814
  • Atılgan, H. (2004). Genellenebilirlik kuramı ve çok değişkenlik kaynaklı Rasch modelinin karşılaştırılmasına ilişkin bir araştırma. Yayınlanmamış Doktora Tezi, Hacettepe Üniversitesi, Sosyal Bilimler Enstitüsü, Ankara.
  • Bağcan Büyükturan, E., & Çıkrıkçı Demirtaşlı, N. (2013). Çoktan seçmeli testler ile yapılandırılmış gridlerin psikometrik özellikleri bakımından karşılaştırılması. Ankara Üniversitesi Eğitim Bilimleri Fakültesi Dergisi, 46(1), 395-415. [Çevrim-içi: http://dergiler.ankara.edu.tr/dergiler/40/1799/19011.pdf], Erişim tarihi: 25 Eylül 2015.
  • Bahar, M., Nartgün, Z., Durmuş, S., & Bıçak, B. (2010). Geleneksel-tamamlayıcı ölçme ve değerlendirme teknikleri. Ankara: Pegem Akademi Yayıncılık.
  • Baker, F.B. (2001). The basics of item response theory. ERIC Clearinghouse on Assessment and Evaluation, University of Maryland, College Park, MD.
  • Başol, G. (2013). Eğitimde ölçme ve değerlendirme. Ankara: Pegem Akademi Yayıncılık.
  • Baykul, Y. (2010). Eğitimde ve psikolojide ölçme: Klasik test teorisi ve uygulaması. Ankara: Pegem Akademi Yayıncılık.
  • Bayram, N. (2009). Data analysis through SPSS in social sciences. Bursa: Ezgi Publishing.
  • Braun, H.I., Bennett, R.E., Frye, D., & Soloway, E. (1990). Scoring constructed responses using expert systems. Journal of Educational Measurement, 27(2), 93-108. http://dx.doi.org/10.1111/j.1745-3984.1990.tb00736.x
  • Bridgeman, B. (1992). A comparison of quantative questions in open-ended and multiple-choice formats. Journal of Educaitonal Measurement, 29(3), 253-271. http://dx.doi.org/10.1002/j.2333-8504.1991.tb01402.x
  • Büyüköztürk, Ş. (2010). Sosyal bilimler için veri analizi el kitabı. Ankara: Pegem Akademi Yayınları.
  • Callison, D. (2000). Rubrics. School Library Media Activities Monthly, 17(2), 34-46.
  • Çelen, Ü. (2008). Klasik test kuramı ve madde tepki kuramı yöntemleriyle geliştirilen iki testin geçerlilik ve güvenilirliğinin http://dergipark.ulakbim.gov.tr/ilkonline/article/view/5000038231/5000037088], Erişim tarihi: 29 Eylül 2015. İlköğretim Online, 7(3), 758-768. [Çevrim-içi:
  • Çelen, Ü., & Aybek, E.C. (2013). Öğrenci başarısının öğretmen yapımı bir testle klasik test kuramı ve madde tepki kuramı yöntemleriyle elde edilen puanlara göre karşılaştırılması. Eğitimde ve Psikolojide Ölçme ve Değerlendirme http://dergipark.ulakbim.gov.tr/epod/article/view/1040000004], Erişim tarihi: 25 Eylül 2015. Dergisi, 4(2), 64-75. [Çevrim-içi:
  • Çokluk, Ö., Şekercioğlu, G., & Büyüköztürk, Ş. (2012). Sosyal bilimler için çok değişkenli istatistik SPSS ve LISREL
  • uygulamaları. Ankara: Pegem Akademi Yayınları.
  • David, A.B. (2008). Comparison of classification accuracy using Cohen's weighted kappa. Expert Systems with Applications, 34, 825-832. http://dx.doi.org/10.1016/j.eswa.2006.10.022
  • DeMars, C. (2010). Item response theory. Oxford, UK: Oxford University Press.
  • Doğan, N. (2002). Klasik test teorisi ve örtük özellikler kuramının örneklemeler bağlamında karşılaştırılması. Yayınlanmamış Doktora Tezi, Hacettepe Üniversitesi, Sosyal Bilimler Enstitüsü, Ankara.
  • Doğan, N. (2013). Yazılı yoklamalar. H. Atılgan (Ed.), Eğitimde ölçme ve değerlendirme içinde (145-168). Ankara: Anı Yayıncılık. Ebel, R.L. (1951). Estimation of the reliability of ratings.
  • Psychometrika, 16(4), 407-424. http://dx.doi.org/10.1007/BF02288803
  • Field, A. (2009). Discovering statics using SPSS. London: SAGE Publications Ltd.
  • Goodwin, L.D. (2001). Interrater agreement and reliability. Measurement in Psychical Education and Exercises Science, 5 (1), 13-14. http://dx.doi.org/10.1207/S15327841MPEE0501_2
  • Graham, M., Milanowski, A., & Miller, J. (2012). Measuring and promoting inter-rater agreement of teacher and principal performance ratings. Washington, DC: Center for Educator Compensation Reform. [Available online at: http://cecr.ed.gov/pdfs/Inter_Rater.pdf], Retrieved on June 10, 2013.
  • Gronlund, N.E. (1998). Assessment of student achievement. Boston: Allyn and Bacon.
  • Güler, N. (2014). Analysis of open-ended statistics questions with many facet Rasch model. Eurasian Journal of Educational Research, 55, 73-90. http://dx.doi.org/10.14689/ejer.2014.55.5
  • Güler, N., & Gelbal, S. (2010). Study based on classic test theory and many facet Rasch model. Eurasian Journal of Educational http://www.aniyayincilik.com.tr/main/pdfler/38/7_guler_nese.pdf], Retrieved on September 10, 2015. 38, 108-125. [Available online at:
  • Haiyang, S. (2010). An application of classical test theory and many facet Rasch measurement in analyzing the reliability of an English test for non-English major graduates. Chinese Journal of Applied Linguistics, 33(2), 87- 102. [Available online at: http://www.celea.org.cn/teic/90/10060807.pdf], Retrieved on August 16, 2013.
  • Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Fundamentals of item response theory. Newbury Park, CA: SAGE Publications, Inc.
  • Harvey, R., & Hammer, A. (1999). Item response theory. The Counseling Psychologist, 27(3), 353-383. http://dx.doi.org/10.1177/0011000099273004
  • Hogan, T.P., & Murphy, G. (2007) Recommendations for preparing and scoring constructed-response items: What the experts say. Applied Measurement in Education, 20(4), 427-441, http://dx.doi.org/10.1080/08957340701580736
  • Huang, T.W., Guo, G.J., Loadman, W., & Low, F.M. (2014). Rating score data analysis by classical test theory and many-facet http://www.davidpublishing.com/show.html?15856], Retrieved on October 01, 2015. Psychology Research, 4(3), 222-231. [Available online at:
  • Johnson, B., & Christensen, L. (2014). Educational research: Quantitative, qualitative, and mixed approaches. Thousand Oaks, CA: Sage Publications.
  • İlhan, M. (2015). Standart ve SOLO taksonomisine dayalı rubrikler ile puanlanan açık uçlu matematik sorularında puanlayıcı etkilerinin çok yüzeyli Rasch modeli ile incelenmesi. Yayınlanmamış Doktora Tezi, Gaziantep Üniversitesi, Eğitim Bilimleri Enstitüsü, Gaziantep.
  • Kadir, K.A. (2013). Examining factors affecting language performance: A comparison of three measurement approaches. Pertanika Journal of Social Sciences & Humanities, 21 (3), 1149-1162. [Available online at: http://www.pertanika.upm.edu.my/Pertanika%20PAPERS/JSSH%20Vol.%2021%20(3)%20Sep.%202013/19% 20Page%201149-1162.pdf], Retrieved on September 25, 2015.
  • Kan, A. (2007). Performans değerlendirme sürecine katkıları açısından yeni program anlayışı içerisinde kullanılabilecek bir değerlendirme yaklaşımı: Rubrik puanlama yönergeleri. Kuram ve Uygulamada Eğitim Bilimleri, http://www.edam.com.tr/kuyeb/pdf/tr/99530abf499c979f8fc1b4312f7b4e4fnfull.pdf], Erişim tarihi: 13 Haziran 2013. 7(1), 129-152. [Çevrim-içi:
  • Kan, A. (2013). Ölçme araçlarında bulunması gereken nitelikler. H. Atılgan (Ed.), Eğitimde ölçme ve değerlendirme içinde (23-80). Ankara: Anı Yayıncılık.
  • Kaptan, S. (1998). Bilimsel araştırma ve istatistik teknikleri. Ankara: Tekışık Web Ofset Tesisleri.
  • Knoch, U., Read, J., & von Randow, J. (2007). Re-training writing raters online: How does it compare with face-to- face training? Assessing Writing, 12(1), 26-43. http://dx.doi.org/10.1016/j.asw.2007.04.001
  • Kline, T. (2005). Psychological testing: A practical approach to design and evaluation. Thousand Oaks: Sage Publications.
  • Kutlu, Ö., Doğan, C.D., & Karakaya, İ. (2010). Öğrenci başarısının belirlenmesi: Performansa ve portfolyoya dayalı durum belirleme. Ankara: Pegem Akademi Yayıncılık.
  • LeBreton & Senter, (2008). Answers to 20 questions about interrater reliability and interrater agreement. Organizational Research Methods, 11(4), 815-852. http://dx.doi.org/10.1177/1094428106296642
  • Linacre, J.M. (1989). Many-facet Rasch measurement. Chicago: MESA Press.
  • Linacre, J.M. (2014). A user's guide to FACETS Rasch-model computer programs. [Available online at: http://www.winsteps.com/a/facets-manual.pdf], Retrieved on July 13, 2015.
  • Linacre, J.M., Engelhard, G.Jr., Tatum, D.S., & Myford, C.M. (1994). Measurement with judges: Many-faceted conjoint http://dx.doi.org/10.1016/0883-0355(94)90011-6 International Journal of Educational Research, 21(6), 569-577.
  • Van der Linden, W.J., & Hambleton, R.K. (1997). Item response theory: Brief history, common models, and extensions. In W.J. Van der Linden and R.K. Hambleton (Eds.), Handbook of modern item response theory (pp. 1-28). New York: Springer Verlag.
  • Lunz, M.E., &Wright, B.D. (1997). Latent trait models for performance examinations. In J. Rost & R. Langeheine (Eds.), Applications of latent trait and latent class models in the social sciences (pp. 80-88). Münster, Germany: Waxmann.
  • Lynch, B.K., & McNamara, T.F. (1998). Using G-theory and many-facet Rasch measurement in the development of performance assessments of the ESL speaking skills of immigrants. Language Testing, 15(2), 158-180. http://dx.doi.org/10.1177/026553229801500202
  • MacMillan, P.D. (2000). Classical, generalizability and multifaceted Rasch detection of interrater variability in large sparse http://dx.doi.org/10.1080/00220970009598501 The Journal of Experimental Education, 68(2), 167-190.
  • Masters, G.N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47(2), 149-174. http://dx.doi.org/10.1007/BF02296272
  • Milli Eğitim Bakanlığı. (2013). Temel eğitimden ortaöğretime geçişle ilgili sıkça sorulan sorular. [Çevrim-içi: http://www.meb.gov.tr/duyurular/duyurular2013/bigb/tegitimdenoogretimegecis/MEB_SSS_20_09_2013.pdf], Erişim tarihi: 06 Ekim 2013.
  • Mulqueen C., Baker D., & Dismukes, R.K. (2000, April) Using multifacet Rasch analysis to examine the effectiveness of rater training. Presented at the 15th Annual Conference for the Society for Industrial and Organizational Psychology (SIOP). New Orleans. [Available online at: http://www.air.org/files/multifacet_Rasch.pdf], Retrieved on September 19, 2013.
  • Nitko, A.J. (2004). Educational assessment of students. Upper Saddle River, NJ: Pearson.
  • Öğrenci Seçme ve Yerleştirme Merkezi. (2015). Yazılı sınav (Açık uçlu sorularla sınav). [Çevrim-içi: http://www.osym.gov.tr/belge/1-23308/yazili-sinav-acik-uclu-sorularla-sinav-04022015.html], Erişim tarihi: 01 Ekim 2015.
  • Özçelik, D.A. (2011). Ölçme ve değerlendirme. Ankara: Pegem Akademi Yayıncılık.
  • Özer Özkan, Y. (2012). Öğrenci başarılarının belirlenmesi sınavından (ÖBBS) klasik test kuramı, tek boyutlu ve çok boyutlu madde tepki kuramı modelleri ile kestirilen başarı puanlarının karşılaştırılması. Yayınlanmamış Doktora Tezi, Ankara Üniversitesi, Eğitim Bilimleri Enstitüsü, Ankara.
  • Popham, W.J. (1997). What's wrong-and what's right-with rubrics. Educational Leadership, 55(2), 72-75. [Available online at: http://pareonline.net/getvn.asp?v=9&n=2], Retrieved on October 02, 2015.
  • Romagnano, L. (2001). The myth of objectivity in mathematics assessment. Mathematics Teacher, 94(1), 31-37. [Available online at: http://www.peterliljedahl.com/wp-content/uploads/Myth-of-Objectivity.pdf], Retrieved on September 11, 2015.
  • Stevens, D.D., & Levi, A.J. (2005). Introduction to rubrics: An assessment tool to save grading time, convey effective feedback, and promote student learning. Sterling, VA; Stylus.
  • Sudweeks, R.R., Reeve, S., & Bradshaw, W.S. (2005). A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing. Assessing Writing, 9(3), 239-261. http://dx.doi.org/10.1016/j.asw.2004.11.001
  • Tabachnick, B.G., & Fidell, L.S. (2007). Using multivariate statistics. Boston, Pearson Education, Inc.
  • Tan, Ş., & Erdoğan, A. (2004). Öğretimi planlama ve değerlendirme. Ankara: PegemA Yayıncılık.
  • Tekin, H. (2009). Eğitimde ölçme ve değerlendirme. Ankara: Yargı Yayınevi.
  • Turgut, M.F., & Baykul, Y. (2012). Eğitimde ölçme ve değerlendirme. Ankara: Pegem Akademi Yayıncılık.
  • Üstdal, M., Vuillaume, R., Gülbahar, K., & Gülbahar, Y. (2004). Bilimsel araştırma kılavuzu. Ankara: Pelikan Yayıncılık.
  • Zaman, A., Kashmiri, A., Mubarak, M., & Ali, A. (2008, Kasım). Students ranking, based on their abilities on objective type test: Comparison of CTT and IRT. EDU-COM International Conference. [Available online at: http://ro.ecu.edu.au/ceducom/52/], Retrieved on September 30, 2015.
APA İLHAN M (2016). Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması. , 346 - 368.
Chicago İLHAN Mustafa Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması. (2016): 346 - 368.
MLA İLHAN Mustafa Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması. , 2016, ss.346 - 368.
AMA İLHAN M Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması. . 2016; 346 - 368.
Vancouver İLHAN M Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması. . 2016; 346 - 368.
IEEE İLHAN M "Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması." , ss.346 - 368, 2016.
ISNAD İLHAN, Mustafa. "Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması". (2016), 346-368.
APA İLHAN M (2016). Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 31(2), 346 - 368.
Chicago İLHAN Mustafa Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi 31, no.2 (2016): 346 - 368.
MLA İLHAN Mustafa Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, vol.31, no.2, 2016, ss.346 - 368.
AMA İLHAN M Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi. 2016; 31(2): 346 - 368.
Vancouver İLHAN M Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması. Hacettepe Üniversitesi Eğitim Fakültesi Dergisi. 2016; 31(2): 346 - 368.
IEEE İLHAN M "Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması." Hacettepe Üniversitesi Eğitim Fakültesi Dergisi, 31, ss.346 - 368, 2016.
ISNAD İLHAN, Mustafa. "Açık Uçlu Sorularla Yapılan Ölçmelerde Klasik Test Kuramı ve Çok Yüzeyli Rasch Modeline Göre Hesaplanan Yetenek Kestirimlerinin Karşılaştırılması". Hacettepe Üniversitesi Eğitim Fakültesi Dergisi 31/2 (2016), 346-368.