Yıl: 2010 Cilt: 10 Sayı: 38 Sayfa Aralığı: 108 - 125 Metin Dili: Türkçe

A study based on classic test theory and many facet rasch model

Öz:
Problem Durumu: Ölçme, bir özelliğin gözlenerek gözlem sonuçlarının sayı ya da sembollerle ifade edilmesi olarak tanımlanırken, değerlendirme daha geniş kapsamlı bir süreç olup; ölçme sonuçları, ölçüt ve karar verme basamaklarını içermektedir. Ölçme sonuçlarının bir ölçütle karşılaştırılarak karara varılması olarak tanımlanan değerlendirmenin doğru yapılmış olmasında, kullanılan ölçütün uygunluğu yanısıra, ölçme sonuçlarının güvenilir ve geçerli olmasının çok büyük önemi bulunmaktadır. Değerlendirme sonuçlarının isabetli olma derecesini arttırabilmek için yapılan ölçme işlemlerinde kullanılan ölçme araçlarının güvenirliğinin ve geçerliğinin olabildiğince yüksek olması istenir. Güvenirlik, ölçme sonuçlarının tesadüfi hatalarından arınık olma derecesi olarak tanımlanmaktadır. Güvenirlik, ölçümlerin zaman içersindeki tutarlılıklarının derecesidir. Güvenirliğin derecesi genellikle bir katsayı ile ifade edilir. Bu katsayı “0” (güvenilir değil) ile “1”(mükemmel güvenirlik) arasında değişen değerler alır ve ölçme sonuçlarının tesadüfi hatalardan ne derece arınık olduğunu gösterir. Öğrenci başarısını açık-uçlu sorularla ölçülmesinde, güvenirlik en zayıf halka olarak düşünülmektedir. Puanlayıcı, açık-uçlu sorulara verilen cevapların puanlanmasında güvenirliği düşüren önemli bir hata kaynağı olmakla birlikte, görev ya da madde gibi diğer faktörler de en az o kadar önemli diğer hata kaynaklarıdır. Bu nedenle sadece puanlayıcılar arası tutarlılığı sağlamak puanlamanın güvenirliği için yeterli olmamakta, diğer hata kaynaklarının da güvenirliğin hesaplanmasında göz önünde bulundurulması gerekmektedir. Ancak güvenirliğin hesaplanması için kullanılan tüm yöntemler, tüm hata kaynaklarıyla aynı anda ele almamaktadır. Açık-uçlu sorularla yapılan ölçmelerin güvenirliği, ölçmenin üç temel kuramı olan klasik test kuramı, madde tepki kuramı ve genellenebilirlik kuramına dayalı yöntemlerle çalışılmaktadır. Araştırmanın Amacı: Bu araştırmayla, güvenirliğin belirlenmesinde klasik test kuramı klasik test kuramına dayalı ölçme yöntemi ve çok değişkenlik kaynaklı Rasch modeli (ÇDKRM) yaklaşımları kullanılarak birbirleriyle ve kendi içlerinde tutarlılıkları sınanarak benzer ölçme durumları için kuramsal bir katkı sağlanabileceği düşünülmektedir. Matematik eğitimcileri, matematikle ilgili başarının ölçülmesinde subjektif ölçme araçları kullandıklarında, öğrencilerinin matematiksel bilgilerine ilişkin verdikleri puanların ne kadar güvenilir olduğunu bilmek isterler. Bununla birlikte, matematik başarısının ölçülmesinde en etkili olan değişkenlik kaynağının ne olduğunu ve ölçme hatasını en aza indirmek için ölçmenin nasıl yapılması gerektiğini bilmeye ihtiyaç duyarlar. Aynı zamanda bu noktalara temas edilerek matematik eğitimcilerini bu konularda aydınlatmak, çalışmanın bir diğer amacıdır.
Anahtar Kelime: klasik test kuramı çok değişkenlik kaynaklı rasch modeli güvenirlik kendall uyum katsayısı

Klasik test kuramı ve çok değişkenlik kaynaklı rasch modeli üzerine bir çalışma

Öz:
Problem Statement: Reliability is considered the weakest ring when measuring students’ achievement through open-ended questions. Despite being an important source of errors that reduce reliability in rating responses given to questions, such factors as tasks or items are other sources of error that are equally important. However, all the methods employed in computing reliability are not handled with all sources of error at the same time. The reliability of measurements conducted with openended questions is studied through methods based on three basic theories of measurement: namely, classical test theory, item response theory, and generalizability theory. Purpose of Study: The purpose of the study is to apply classical test theory (CTT) and many facet Rasch model (MFRM) to determine the reliability of the mathematic achievement scores and to compare the results of both theories. Methods: Since the characteristics of CTT and MFRM are discussed and confirmed in this study, this is a descriptive study. Findings and Results: According to CTT, the interconsistency of the mathematic scores was found to be 0.92. Although Kendall’s concordance coefficient for four raters was obtained as 0.52, correlation coefficients for four raters were different values between 0.90 and 0.97. According to MFRM, the reliability of the person facet was 0.95, and the reliability of the rater facet was 0.99. For determining the students’ mathematic success, the reliability of the mathematic scores was found to be very high. Although there was a difference between the means of the raters’ scores, it was determined that the four raters scored the students consistently. Conclusions and Recommendations: With this study, it was seen that the theory to be selected for determining the reliability of the scores depended upon the purpose for which the scores obtained would be used. However, it is concluded that it is more appropriate that at least two theories should be used for determining the reliability of the measurement.
Anahtar Kelime: reliability many facet rasch model kendall coefficient of concordance classical test theory

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Erişime Açık
  • Alharby, E. R. (2006). A comparison between two scoring methods, holistic vs. analytic using two measurement models, the generalizability theory and the many facet rasch measurement within the context of performance asssessment. Unpublished doctoral dissertation. The Pennsylvenia State University.
  • Anastasi, A. & Urbina, S. (1997). Psychological testing (7. Basım). Upper Saddle River, NJ.: Prentice Hall.
  • Atılgan, H. (2005). Analysis of Special Ability Selection Examination for Music Education Department Usin Many Facets Rasch Measurement (İnönü University Case). Eurasian Journal of Education Research, 20, 62-73
  • Baykul, Y. (2000). Eğitimde ve psikolojide ölçme: klasik test teorisi ve uygulaması. [Measurement in education and psychology: classical test theory and its application]. Ankara: ÖSYM.
  • Büyüköztürk, Ş. (2006). Sosyal bilimler için veri analizi el kitabı, istatistik, araştırma deseni, SPSS uygulamaları ve yorumu. [Data analysis handbook for social sciences, statistics, research design, application and interpretation of SPSS]. (6. Baskı). PegemA Yayıncılık, Ankara.
  • Cooper, M. (1997). Nonparametric and distribution-free statistics. Educational research methodology and measurement an international handbook. (Second Editon). Editor Keeves, J. P. Cambridge, UK.
  • Engelhard, Jr. & Myford, M. C. (2003). Monitoring faculty consultant performance in the advanced placement english literature and composition program with a many-faceted rasch model. New York: College Entrance Examination Board.
  • Goodwin, L. D. (2001). Interrater agreement and reliability. Measurement in Psychical Education and Exercises Science, 5 (1), 13-14.
  • Güler, N. (2008). A study based on classical test theory generalizability theory and Rasch model. Unpublished doctoral dissertation. Faculty of Education, Hacettepe University, Ankara.
  • Hetherman, S. C. (2004). An application of multi faceted rasch measurement to monitor effectiveness of the written composition in english in the new york city department of education. Unpublished doctoral dissertation. Teacher College, Colombia University, Colombia.
  • Howell, D. C. (2002). Statistical methods for psychology.(Fifth Edition). Thomson Learning Academic Research Center, USA.
  • Lee, Y. W. & Kantor, R. (2003). Investigating differential rater functioning for academic writing samples: An MFRM approach. Paper to be presented at the annual meeting of National Council on Measurement in Education held in Chicago, IL.
  • Linacre, J. M. (2007). A user’s guide to facets. Rasch model computer programs. Chicago, IL.
  • Linacre, J. M. (1989). Many Facet Rasch measurement. Unpublished doctoral dissertation. University of Chicago, Chicago.
  • Nakamura, Y. (2002). Teacher assessment and peer assessment in practice. Educational Studies, 44.
  • Nakamura, Y. (2000). Many facet Rasch based analysis of communicative language testing results. Journal of Communication Students, V12, 3-13.
  • Turner, J. (2003). Examining on art portfolio assessment using a many facet Rasch measurement model. Unpublished doctoral dissertation. Boston College, Boston.
  • Wright, B. & Stone, M. (1979). Best test design: Rasch measurement. Chicago:MESA Press.
APA GÜLER N, GELBAL S (2010). A study based on classic test theory and many facet rasch model. Eurasian Journal of Educational Research, 10(38), 108 - 125.
Chicago GÜLER Neşe,GELBAL SELAHATTİN A study based on classic test theory and many facet rasch model. Eurasian Journal of Educational Research 10, no.38 (2010): 108 - 125.
MLA GÜLER Neşe,GELBAL SELAHATTİN A study based on classic test theory and many facet rasch model. Eurasian Journal of Educational Research, vol.10, no.38, 2010, ss.108 - 125.
AMA GÜLER N,GELBAL S A study based on classic test theory and many facet rasch model. Eurasian Journal of Educational Research. 2010; 10(38): 108 - 125.
Vancouver GÜLER N,GELBAL S A study based on classic test theory and many facet rasch model. Eurasian Journal of Educational Research. 2010; 10(38): 108 - 125.
IEEE GÜLER N,GELBAL S "A study based on classic test theory and many facet rasch model." Eurasian Journal of Educational Research, 10, ss.108 - 125, 2010.
ISNAD GÜLER, Neşe - GELBAL, SELAHATTİN. "A study based on classic test theory and many facet rasch model". Eurasian Journal of Educational Research 10/38 (2010), 108-125.