ZIS - Münsteraner Fragebogen zur Evaluation von

Arbeit & Beruf

Arbeitsbelastungen & Stress

Münsteraner Fragebogen zur Evaluation von Klausuren (MFE-K)

Rollenkonflikt

Soziale Stressoren am Arbeitsplatz

Work-Family Conflict Scale (ISSP)

Arbeitsmerkmale

Arbeitsmotivation & -einstellungen

Arbeitszufriedenheit

Beurteilungen & Bewertungen

Führung

Bildung

Digitalisierung

Gesellschaft & Soziales

Gesundheit

Individuum & Persönlichkeit

Politik

Religion & Kultur

Umwelt

Münsteraner Fragebogen zur Evaluation von Klausuren (MFE-K)

Autor/in: Froncek, B. & Thielsch, M. T.

In ZIS seit: 2010

DOI: https://doi.org/10.6102/zis108

Downloads

Aktionen

Nutzungsbedingungen

Zur Nutzung für andere Zwecke kontaktieren Sie die Autor*innen

Zusammenfassung:

Die hier dokumentierte Itembatterie zur Bewertung von Klausuren ist ein Zusatzmodul des "Münsteraner Fragebogen zur Evaluation".

Abstract:

The item battery documented here for the evaluation of exams is an additional module of the "Münster Questionnaire for Evaluation".

Sprache Dokumentation: deutsch

Sprache Items: deutsch

Anzahl der Items: 27

Reliabilität: Cronbachs Alpha = .76 bis .84

Validität: Hinweis auf die Inhaltsvalidität und die Kriteriumsvalidität

Konstrukt: Lehrevaluation

Schlagwörter: Lehre | teaching

Item(s) in Bevölkerungsumfrage eingesetzt: nein

Skalenentwicklung:

Instrument

Instruktion

Dieser Fragebogen ist wichtig für unser Fach und die Prüfenden um Informationen über Ihre Wahrnehmung dieser Klausur und Ihre Vorbereitung zu erhalten. Er wird zentral ausgewertet und hat keinen Einfluss auf Ihre persönliche Bewertung in dieser Klausur, Ihre Angaben sind anonym.

Verantwortlich für diese Evaluation ist [Name und Email-Adresse des Verantwortlichen], bei Fragen können Sie sich jederzeit an ihn wenden. Den Bogen bitte am besten direkt nach der Klausur binnen [Zeitraum in Tagen] in [Abgabeort] einwerfen. Bitte den Bogen NICHT falten! Bewerten Sie nun bitte anhand der folgenden Fragen die oben genannte Klausur.

Items

Anmerkung: Die Nummerierung der Items entspricht ihrer Position im Fragebogen.

Nr.	Items zu Belastung der Studierenden
1	Es ist mir sehr schwer gefallen, Zeit zum Lernen zu finden.
2	Aufgrund anderer Prüfungstermine konnte ich mich nicht richtig auf diese Klausur vorbereiten.
3	Die Anzahl der Klausuren in diesem Semester stellt eine große Belastung für mich dar.

Nr.	Items zu Transparenz und Organisation
7	Die Anforderungen waren vor der Klausur transparent.
8	Klausurinhalte, Themenbereiche und Prüfungsliteratur waren vor der Klausur transparent.
9	Das Klausurformat (Art der Fragen, Umfang) war vor der Klausur transparent.
10	Vorbereitungsmaterial (Probeklausuren, Beispielaufgaben o.ä.) wurde vor der Klausur in ausreichender Menge zur Verfügung gestellt.

Nr.	Items zu Klausurgestaltung
12	Das Antwortformat dieser Klausur hat mir Probleme bereitet.
13	Ich finde, die Aufgaben waren präzise und eindeutig formuliert.
14	Ich finde, die Arbeitsanweisungen zur Beantwortung der Aufgaben waren eindeutig.
15	Ich finde, die Klausur war übersichtlich gegliedert.

Zusatzfragen:

Ergänzend werden folgende Items vorgegeben:

Nr.	Item	Antwortvorgaben
	Alter	offenes Antwortformat
	Geschlecht	männlich / weiblich
	Fachsemester	offenes Antwortformat
	Studiengang	Auswahlfeld

Zu Beginn des Fragebogens werden die Informationsquellen und die Vorbereitung für die Klausur mit folgenden Items erfasst:

Nr.	Item	Antwortvorgaben
4	Ich habe mich über diese Klausur informiert bei	mehrere Angaben möglich: dem/der Fachprüfer/in (in der Veranstaltung, Sprechstunde...); anderen Dozenten/Lehrenden; dem/der Tutor/in; Studierenden meines Semesters; Studierenden höherer Semester; der Fachschaft
5	Wie viele Stunden haben Sie insgesamt für diese Klausur gelernt?	offenes Antwortformat
6	Welche Probleme hatten Sie in der Vorbereitung auf diese Klausur?	mehrere Angaben möglich: Verständnisschwierigkeiten; schlechtes Veranstaltungsmaterial (Folien o.ä.); mangelnde Transparenz der Anforderungen; Umfang des Lernstoffs zu groß; mein Zeitmanagement/Prokrastination; zu wenig Vorbereitungszeit; mangelnde eigene Motivation; private oder gesundheitliche Probleme; Sonstiges; Ich hatte keine Probleme in der Vorbereitung

Am Ende des Fragebogens werden folgende weitere Items erfasst:

Nr.	Zusätzlich vorgegebene, hier aber nicht weiter behandelte Items	Antwortvorgaben
11	Die Klausur war zu schwierig für mich.	7er Skala
16	Ich finde, der Umfang des Prüfungsstoffes für diese Klausur war zu hoch.	7er Skala
17	Ich bin mit meiner eigenen Leistung in dieser Klausur zufrieden.	7er Skala
18	Das in der Klausur behandelte Fach interessiert mich sehr.	7er Skala
19	Ich finde, die verschiedenen Themenblöcke der Lehrveranstaltung kamen in gleichen Anteilen in der Klausur vor.	Ja/Nein

20	Ich finde, die Klausur enthielt sowohl genügend Wissens- als auch genügend Anwendungsaufgaben.	Ja/Nein
21	In der Klausur war mir klar, wie viele Punkte ich mit welcher Aufgabe erreichen kann.	Ja/Nein
22	Es herrschte genügend Ruhe während der Klausur.	Ja/Nein
23	Die räumlichen Gegebenheiten waren angemessen (genügend Platz, genügend Licht, angenehme Temperatur, etc.).	Ja/Nein
24	Ich konnte die Klausur in der vorgegeben Zeit vollständig bearbeiten.	Ja/Nein
25	Ich will diese Klausur nur bestehen, die Note ist mir egal.	Ja/Nein
26	Zu wie viel Prozent wurden die Inhalte der Klausur in der dazugehörigen Lehrveranstaltung vermittelt?	offenes Antwortformat
27	Anmerkungen für den/die Prüfer/in (Probleme mit der Klausur/Vorschläge/Lob/ Kritik):	offenes Antwortformat

Antwortvorgaben

Verwendet wird weitgehend ein 7-stufiges Antwortformat mit den Optionen 1 = "stimme gar nicht zu", 2 = "stimme nicht zu", 3 = "stimme eher nicht zu", 4 = "neutral", 5 = "stimme eher zu", 6 = "stimme zu" und 7 = "stimme vollkommen zu".

Einzelne Items weisen offene oder dichotome Abfrageformate auf. Die jeweiligen Antwortformate sind in der nachfolgenden Itemliste zusammen mit den Items genannt.

Auswertungshinweise

Angesichts der Homogenität jeweils der Items der drei Subskalen können ihre Antwortwerte aufsummiert oder gemittelt werden. Dabei ist zu beachten, dass auf der Skala Belastung niedrige bis mittlere Werte erwünscht sind.

Theorie

Die Evaluation der Lehre gilt als ein wichtiges Instrument zur Qualitätssicherung an Hochschulen. Nach Rindermann (1996) kann Lehrevaluation in verschiedenen Bereichen Verbesserungen initiieren: Sie kann die Lehrqualifikation der Lehrenden verbessern, Stärken und Schwächen auf Veranstaltungs-, Fach- oder Universitätsebene aufdecken, Diskussion zwischen Lehrenden und Studierenden unterstützen, die Mittelvergabe steuern und Weiterbildungsmaßnahmen veranlassen.

Universitäre Prüfungen sind ebenfalls ein fester Bestandteil der Hochschuldidaktik, wie Dany, Szczyrba und Wildt (2008) festhalten. Sie werden aber durch gebräuchliche Lehrevaluationsinstrumente zumeist nicht abgedeckt. Dies ist jedoch insbesondere für den Bologna-Prozess wichtig, da dieser erneut drastische Veränderungen der Prüfungssysteme mit sich bringt. Studienbegleitende Prüfungsformen lösen punktuelle Prüfungssysteme aus dem Diplomstudiengang ab, und Studierende sehen sich einer "explosionsartige[n] Zunahme" (Dany, Szczyrba & Wildt, 2008, S. 5) von Prüfungen gegenüber. Dies wird bereits durch die Kultusministerkonferenz (2005) unterstrichen, indem sie auf besonderen Handlungsbedarf im Hinblick auf die Evaluation der Prüfungspraxis an Hochschulen verweist. Die Entwicklung eines entsprechenden Instruments zur Prüfungsevaluation entbehrt jedoch bis heute einer theoretischen Grundlage oder Vorbildern zur Evaluation schriftlicher Prüfungen (vgl. z.B. Froncek, 2010).

Die Evaluation und Qualitätssicherung im Prüfungswesen wurde durch das Fach Psychologie an der Westfälischen Wilhelms-Universität mit Einführung des Bachelorstudiengangs Psychologie im WS 2007/8 initiiert. Seitdem wird jede Klausur in diesem Studiengang mit Papier-Bleistift Verfahren direkt im Anschluss an die jeweilige Prüfung evaluiert. Mit Beginn des Masterstudiengangs im WS 2010/11 wurde auch hier die Prüfungsevaluation eingeführt. Den Ablauf der Prüfungsevaluation beschreiben detaillierter Thielsch et al. (2008).

Skalenentwicklung

Itemkonstruktion und Itemselektion

Eine umfassende Literatur- und Online-Recherche im WS 2007/8 führte auf kein für eine Evaluation universitärer Prüfungen geeignetes standardisiertes Instrument. Deshalb musste eine Itembatterie zur Klausurevaluation neu konstruiert werden. Sie wurde weitgehend induktiv zusammengestellt, indem ihre Items aus früheren (unveröffentlichten) Evaluationen der Studierendenvertretung Psychologie in Münster zu Prüfungen entnommen und modifiziert wurden. Weitere Quellen sind gängige Studiengangsevaluationsfragebogen der Universität Münster oder anderer Universitäten und ein "Leitfaden für das Planen, Durchführen und Auswerten von Prüfungen an der ETHZ" (Eugster & Lutz, 2004).

Ein erster Fragebogenentwurf wurde im Wintersemester 2007/8 erstellt, unter intensiver Beteiligung der Studierendenvertretung und derjenigen Fachprüfer/innen, die in diesem Semester Klausuren für den Bachelorstudiengang erstellten. Inhaltlich sollte der neue Fragebogen insbesondere die Vorbereitung der Klausur, die Klausuraufgaben, die Klausurorganisation sowie allgemeine Aspekte und Verbesserungsvorschläge erfassen. Der so nach mehreren gemeinsamen Überarbeitungsschritten abgeschlossene Fragebogenentwurf umfasste zwei Items zur Demographie und 19 geschlossene sowie zwei offene Fragen zur Klausurevaluation. Er wurde mithilfe von 45 Studierenden des Diplomstudiengangs Psychologie im Wintersemester 2007/8 einem Pretest unterzogen:

45 Studierenden sollten die letzte geschriebene Klausur (Statistik oder Methodenlehre) bewerten und anschließend eventuelle Probleme mit dem Fragebogen zurückmelden. Das Durchschnittsalter dieser Befragten betrug 22.1 Jahre (SD = 1.4). 31 von ihnen waren weiblich, 10 waren im dritten Fachsemester, die übrigen im fünften.

Nach diesem Pretest waren alle Items geeignet und verständlich. Auch eine statistische Itemanalyse legte keinen Ausschluss von Items nahe. Drei Items wurden jedoch wegen der Rückmeldungen aus dem Pretest modifiziert. Drei weitere, auf die Notenvergabe bezogene Items (z.B. auf deren Fairness) wurden aus logischen Gründen eliminiert: Der Fragebogen sollte direkt im Anschluss an eine Klausur und somit deutlich vor der Bekanntgabe der Noten eingesetzt werden. Die im Wintersemester 2007/8 und im Sommersemester 2008 eingesetzte Version umfasste somit noch 16 geschlossene und zwei offene sowie zwei demografische Fragen. Im Wintersemester 2008/9 wurde diese Version erneut überarbeitet und um fünf Items ergänzt. Auch das Antwortformat wurde vereinheitlicht (vgl. Thielsch et al., 2010).

Auf Basis einer explorativen Faktorenanalyse (mit Daten aus dem Wintersemester 2008/9) wurde dann im Sommersemester 2009 der MFE-K weiterentwickelt. Die Items wurden zwei Faktoren zugeordnet: einem Faktor "Klausur und Organisation" sowie einem Faktor "Belastung der Studierenden". Fünf Items wurden dazu eliminiert. Diese Version wurde im Wintersemester 2009/10 auf Basis von 409 Datensätzen aus dem Sommersemester 2009 konfirmatorisch geprüft (vgl. Froncek, 2010). Eine konfirmatorische Faktorenanalyse mit zwei korrelierten Faktoren erklärt die Antwortkovarianzen nach allen Anpassungsindizes nicht hinreichend (Chi-Quadrat = 146,46, df = 26; TLI = .87, CFI = .91, RMSEA = .11). Daher wurde der MFE-K noch einmal überarbeitet.

Ziel dieser Überarbeitung war es, die theoretische Basis für das Instrument zu verbessern. Daher wurde im Wintersemester 2009/10 eine qualitative Studie durchgeführt mit dem Ziel, "Merkmale guter schriftlicher Prüfungen" zu identifizieren (vgl. Froncek, 2010; Froncek & Thielsch, 2011) und auf Basis dieser Merkmale weitere Items abzuleiten bzw. vorhandene zu revidieren. In dieser qualitativen Studie wurden mit fünf Studierenden (aus den Semestern 1, 3 und 5) sowie fünf Prüfern (unterschiedlicher Prüfungsfächer) des Fachs Psychologie der WWU Münster Leitfaden-Interviews durchgeführt. Die Untersuchungsfrage für diese lautete: "Was sind Merkmale guter schriftlicher Prüfungen?" Die in diesen Interviews genannten Merkmale wurden mithilfe einer qualitativen Inhaltsanalyse (Mayring, 2003) kategorisiert. Die so induktiv gewonnenen Merkmale für gute schriftliche Prüfungen veranlassten eine Modifikation des MFE-K, bei der lediglich die Subskala "Belastung der Studierenden" unverändert beibehalten wurde. Der MFE-K wurde um zehn weitere Items ergänzt, die zusammen mit den Items der ursprünglichen Skala "Klausur und Organisation" theoretisch basiert neu aufgeteilt wurden in zwei Skalen: "Transparenz und Organisation" sowie "Klausurgestaltung".

Auf Basis von Daten aus dem Sommersemester 2010 wurde der Fragebogen erneut angepasst, da sich die angenommene Faktorenstruktur anhand einer explorativen Faktorenanalyse nicht sinnvoll abbilden ließ. Die Faktorenanalyse ließ zwar auf drei Faktoren schließen, die aber nur zum Teil mit den erwarteten Items assoziiert waren. Die Skala "Belastung der Studierenden" war erwartungsgetreu zusammengesetzt. Die anderen beiden Skalen mussten angepasst werden, da die vorgesehen Items nicht stark genug mit ihren Faktoren korrelierten. Die Skala "Transparenz und Organisation" musste in diesem Zusammenhang in "Transparenz" umbenannt werden, weil die Items zur Klausurorganisation herausgenommen wurden. Im Zuge dieser Anpassung wurden zwei Items im Fragebogen ergänzt und eines herausgenommen. Außerdem wurde das Antwortformat einiger Items vereinfacht, da die Itemverteilungen dichotome Antwortformate teilweise nahelegten. Zur Überprüfung der neuen Fragebogenstruktur wurde eine konfirmatorische Faktorenanalyse für die Daten aus dem Wintersemester 2010/11 durchgeführt.

Auf Basis der Analysen von Bechler und Thielsch (2012) zu Schwierigkeiten von Psychologiestudierenden in der Klausurvorbereitung, wurde das Item 6 ab dem Sommersemester 2011 geankert vorgegeben. In diesem vormals offenen Item werden nunmehr die am häufigsten genannten Probleme geschlossen abgefragt.

Stichproben

Im Wintersemester 2010/11 wurden im Rahmen der Prüfungsevaluation 688 Klausurevaluationen erhoben. Der Datensatz setzt sich aus den Bewertungen von 17 unterschiedlichen Klausuren zusammen. Da die Studierenden am Semesterende zum Teil mehrere Klausuren schreiben, ist es prinzipiell möglich, dass mehrere Daten von einem Studierenden zu unterschiedlichen Klausuren erfasst wurden. Aus Gründen des Datenschutzes ist es leider nicht möglich, diese Variable zu kontrollieren. 104 der Befragten waren männlich, 547 weiblich, 37 machten keine Angabe zu ihrem Geschlecht. Die Befragten waren zwischen 18 und 48 Jahren alt (M = 23.08; SD = 3.41). Die Mehrzahl (76.3%) studierte Psychologie im Bachelorstudiengang, die übrigen im Masterstudiengang (20.7%) oder in einem anderen Studiengang (2.8%). Rund sechs Prozent beantworteten die entsprechende Frage nicht.

Die Prüfungsevaluation am Fach Psychologie der Universität Münster wird seit dem Wintersemester 2007/8 jeweils am Ende eines Semesters direkt nach der entsprechenden Klausur durchgeführt. Hierfür verteilen die Prüfer am Ende der Klausur die Evaluationsbogen. Die Studierenden haben dann zwei Wochen Zeit, den ausgefüllten Fragebogen abzugeben. Für alle hier berichteten Analysen wurden Daten aus dem Wintersemester 2010/11 verwendet.

Variablen und Auswertungsmethode

Ausgehend von den Ergebnissen früherer Analysen wurde die Dimensionalität der hier berücksichtigten Antworten konfirmatorisch mit linearen Faktoranalysen und unter Rückgriff auf den konventionellen Maximum Likelihood Schätzer geprüft. Alle entsprechenden Analysen erfolgten mit AMOS.

Itemanalysen

Ein konfirmatorisches Modell (Tabelle 1) mit drei korrelierten Faktoren erzielt eine akzeptable Passung (Chi-Quadrat = 107,83, df = 41; TLI = .96, CFI = .97, RMSEA = .06). Dies bestätigt die auf der Basis früherer Analysen der Daten aus dem Sommersemester 2010 erwartete drei-dimensionale Strukturierung der Antworten zu den 11 Items. Die drei Dimensionen lassen sich interpretieren als Belastung der Studierenden, Transparenz und Klausurgestaltung. Die Korrelation zwischen den Skalenmittelwerten betragen -.27 (Klausurgestaltung und Belastung), -.30 (Transparenz und Belastung) und .62 (Klausurgestaltung und Transparenz).

Tabelle 1

Mittelwerte (M), Standardabweichungen (SD), Trennschärfen (T), Faktorladungen (FL) und Cronbachs Alpha (CA) bei Ausschluss des Items für die Items der drei Skalen zur Evaluation von Klausuren

Belastung (N = 682)	M	SD	T	FA	CA
Item 1	4.14	1.83	.70	.84	.63
Item 2	4.04	1.82	.73	.91	.60
Item 3	4.34	1.68	.48	.51	.86
Transparenz (N = 685)
Item 7	4.82	1.66	.76	.92	.75
Item 8	5.35	1.46	.68	.77	.79
Item 9	5.23	1.63	.66	.65	.79
Item 10	4.30	1.90	.59	.62	.84
Klausurgestaltung (N = 679)
Item 12	4.73	1.69	.54	.55	.73
Item 13	4.66	1.59	.65	.89	.65
Item 14	5.30	1.39	.61	.69	.68
Item 15	5.65	1.27	.47	.46	.75

Anm. Die Berechnungen erfolgten mit SPSS bzw. AMOS

Itemkennwerte

Itemkennwerte (Tabelle 1) zur Beurteilung der psychometrischen Eigenschaften der Items der drei Subskalen liegen vor.

Gütekriterien

Reliabilität

Cronbachs Alpha beträgt .79 für die drei Items der Subskala Belastung der Studierenden, .84 für die vier Items der Subskala Transparenz und .76 für die vier Items der Subskala Klausurgestaltung. Die interne Konsistenz der Subskalen ist danach als ausreichend bis gut anzusehen, insbesondere bei Berücksichtigung ihrer jeweils geringen Itemzahl.

Validität

In der Prüfungsevaluation stellt sich ähnlich wie in der Lehrevaluation (vgl. Marsh, 1984) generell bei der Validierung das Problem, dass keine allgemein anerkannten Kriterien für gute Prüfungen existieren. Das erschwert den Prozess einer Validierung enorm. Das hier vorgestellte Instrument ist ein Versuch, alle möglichen relevanten Aspekte zu erfassen, die aus studentischer Sicht zu beurteilen sind. Der MFE-K fußt dementsprechend in seiner gegenwärtigen Überarbeitung stark auf empirischen Analysen zu Merkmalen guter Prüfungen (Froncek & Thielsch, 2011). Dadurch konnte die inhaltliche Validität des Instruments gegenüber den Vorversionen gesteigert werden.

Die konfirmatorische Bestätigung eines 3-Faktoren-Modells spricht für die faktorielle Validität der Items. In einer multivariaten Analyse mit Klausuren als unabhängiger Variable und den MFE-K-Skalen als abhängiger Variable zeigten sich signifikante Unterschiede zwischen den Klausuren (F = 11.9; df = 48; p < .01; Eta-Quadrat= .22). Alle MFE-K Skalen sind somit sensitiv für Unterschiede zwischen den bewerteten Klausuren.

Deskriptive Statistiken

Deskriptive Statistiken für die beiden Subskalen (Tabelle 2) und ihre Items (Tabelle 1) liegen vor.

Tabelle 2

Mediane (Me), Mittelwerte (M), Standardabweichungen (SD) sowie Schiefe und Kurtosis für die Items der Subskalen Belastung (N = 682), Transparenz(N = 685) und Klausurgestaltung (N = 679) des Moduls zur Evaluation von Klausuren

	ME	M	SD	Schiefe	Kurtosis
Belastung	4.33	4.19	1.51	-0.18(.09)	-0.72(.19)
Transparenz	5.25	4.92	1.39	-0.62(.09)	-0.16(.19)
Klausurgestaltung	5.25	5.02	1.20	-0.60(.09)	0.04(.19)

Anm. Die Berechnungen erfolgten mit SPSS

Kontakt

Froncek, B. & Thielsch, M. T.

Dazugehörige Publikationen