gms | German Medical Science

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA)

14.09. - 17.09.2016, Bern, Schweiz

Einfluss von unterschiedlichen Bewertungs-Algorithmen für Kprim Fragen auf psychometrische Charakteristiken von Prüfungen

Meeting Abstract

  • corresponding author presenting/speaker Felicitas-Maria Lahner - Bern, Schweiz
  • Zineb Nouns - Bern, Schweiz
  • Martin R. Fischer - München, Deutschland
  • Sören Huwendiek - Bern, Schweiz

Jahrestagung der Gesellschaft für Medizinische Ausbildung (GMA). Bern, 14.-17.09.2016. Düsseldorf: German Medical Science GMS Publishing House; 2016. DocV1-662

doi: 10.3205/16gma176, urn:nbn:de:0183-16gma1768

Published: September 5, 2016

© 2016 Lahner et al.
This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 License. See license information at http://creativecommons.org/licenses/by/4.0/.


Outline

Text

Fragestellung/Zielsetzung: Die Vor- und Nachteile unterschiedlicher Bewertungsalgorithmen von Kprim-Fragen [1], [2], ist nicht eindeutig geklärt. Diese Studie untersucht den Einfluss verschiedener Bewertungs-Algorithmen für Kprim-Fragen auf deren psychometrische Parameter und vergleicht diese mit denen von Typ A-Fragen.

Methoden: Wir untersuchten an einer Stichprobe von 38 Prüfungen (998 Kprim und 2163 Typ A Items, durchschnittlich 225 Kandidaten/Prüfung) zweier Schweizer Fakultäten sowie der Eidgenössischen Prüfung den Einfluss unterschiedlicher Bewertungs-Algorithmen für Kprim Fragen auf Reliabilität, Trennschärfe, Schwierigkeit und die Gesamtpunktzahl.

Wir verglichen drei Bewertungs-Algorithmen für Kprim Items mit 4 Antwortmöglichkeiten:

1.
Viertelpunkt-Bewertung (VP): für jede richtige Teilantwort ¼ Punkt
2.
Halbpunkt-Bewertung (HP): ½ Punkt wenn mehr als die Hälfte, 1 Punkt, wenn alle Teilantworten richtig beantwortet.
3.
Ganzpunkt-Bewertung (GP): 1 Punkt wenn alle Teilantworten richtig beantwortet.

Zum Vergleich wurden Typ A Fragen miteinbezogen. Die Bewertungs-Algorithmen verglichen wir mit Varianzanalysen für wiederholte Messungen bzw. Friedmann Tests falls die Voraussetzungen für Varianzanalysen nicht erfüllt wurden.

Ergebnisse: VP und HP führen zu signifikant höheren Reliabilitäten und Trennschärfen im Vergleich zu GP und Typ A. Im Bezug auf die Itemschwierigkeit unterscheiden sich alle Bewertungs-Algorithmen signifikant, wobei VP leichteren und GP zu den schwierigeren Items führt. HP führt zu leichteren Items als Typ A. Bei der Gesamtpunktzahl zeigt sich, dass Kandidaten mit VP im Durchschnitt signifikant mehr Punkte erreichen als mit HP oder GP.

Diskussion: Bewertungs-Algorithmen mit Teilpunkten führen zu besseren psychometrischen Charakteristiken. Dies zeigt sich auch in anderen Studien zu Fragen mit Mehrfachantworten wie z.B. Pick-N [3] oder kleineren Studien mit Kprim-Fragen [4].

Take home message: Bewertungen mit Teilpunkten führen bei Kprim-Fragen zu besseren psychometrischen Charakteristiken.


Literatur

1.
Javid L. The Comparison between Multiple-choice (MC) and Multiple True-false (MTF) Test Formats in Iranian Intermediate EFL Learners' Vocabulary Learning. Procedia Soc Behav Sci. 2014;98:784-788. DOI: 10.1016/j.sbspro.2014.03.482 External link
2.
Mobalegh A, Barati H. Multiple True-false (MTF) and Multiple-choice (MC) Test Formats: A Comparison between Two Versions of the Same Test Paper of Iranian NUEE. J Lang Teach Res. 2012;3(5):1027-1037. DOI: 10.4304/jltr.3.5.1027-1037 External link
3.
Bauer D, Holzer M, Kopp V, Fischer MR. Pick-N multiple choice-exams: a comparison of scoring algorithms. Adv Health Sci Educ Theory Pract. 2011;16(2):211-221. DOI: 10.1007/s10459-010-9256-1 External link
4.
Albanese MA, Sabers DL. Multiple True-False Items: A Study of Interitem Correlations, Scoring Alternatives, and Reliability Estimation. J Educ Meas. 1988;25(2):111-123. DOI: 10.1111/j.1745-3984.1988.tb00296.x External link