ZIS - Münsteraner Fragebogen zur Evaluation von

Arbeit & Beruf

Arbeitsbelastungen & Stress

Münsteraner Fragebogen zur Evaluation von Vorlesungen (MFE-V)

Rollenkonflikt

Soziale Stressoren am Arbeitsplatz

Work-Family Conflict Scale (ISSP)

Arbeitsmerkmale

Arbeitsmotivation & -einstellungen

Arbeitszufriedenheit

Beurteilungen & Bewertungen

Führung

Bildung

Digitalisierung

Gesellschaft & Soziales

Gesundheit

Individuum & Persönlichkeit

Politik

Religion & Kultur

Umwelt

Münsteraner Fragebogen zur Evaluation von Vorlesungen (MFE-V)

Autor/in: Hirschfeld, G. & Thielsch, M. T.

In ZIS seit: 2009

DOI: https://doi.org/10.6102/zis84

Downloads

Aktionen

Nutzungsbedingungen

Zur Nutzung für andere Zwecke kontaktieren Sie die Autor*innen

Zusammenfassung:

Abstract:

The three item batteries for evaluating lectures documented here were provided as part of a more comprehensive system for evaluating teaching, including three item batteries also documented in ZIS for evaluating seminars.

Sprache Dokumentation: deutsch

Sprache Items: deutsch

Anzahl der Items: 11

Reliabilität: Cronbachs Alpha = .78 bis .80

Validität: Hinweis auf die Inhaltsvalidität

Konstrukt: Lehrevaluation

Schlagwörter: Lehre, Vorlesung | teaching, lecture

Item(s) in Bevölkerungsumfrage eingesetzt: nein

Skalenentwicklung:

Instrument

Instruktion

Die drei hier dokumentierten Itembatterien zur Evaluation von Vorlesungen wurden als Bestandteil eines umfassenderen Systems zur Lehrevaluation vorgegeben, einschließlich auch von drei ebenfalls in ZIS dokumentierten Itembatterien zur Evaluation von Seminaren. Sie werden deshalb ohne eigene Instruktion dargeboten. Instruktionen erfolgen beim erstmaligen Zugriff auf das System. Auch die Demografie der Teilnehmer wird beim Zugang ins System abgefragt (Alter, Geschlecht, Semester, Studiengang).

Items

Nr.	Items zu Dozentenauftreten
3	Der/Die Lehrende wirkte sehr engagiert.
4	Der/Die Lehrende hatte für die Belange der Studierenden ein offenes Ohr.
5	Der/Die Lehrende war redesicher.

Nr.	Items zu Didaktik
6	Die Vorlesung gab einen guten Überblick über das Themengebiet.
7	Der/Die Lehrende benutzte oft Beispiele, die zum Verständnis der Lehrinhalte beitrugen.
8	Die eingesetzten Mittel haben zum Verständnis der Inhalte beigetragen.

Nr.	Zusätzlich vorgegebene, hier aber nicht weiter behandelte Items	Antwortvorgaben
1	Was war Ihr HAUPTGRUND für den Besuch der Veranstaltung?	Pflicht, Interesse und Sonstiges.
2	Die Thematik hat mich schon vor der Veranstaltung sehr interessiert.	Wie Items 3 bis 11.
9	Ich habe in der Veranstaltung inhaltlich viel gelernt.	Wie Items 3 bis 11.
10	Im Punktesystem der gymnasialen Oberstufe (0 [ungenügend] bis 15 [sehr gut +]) bewerte ich die Veranstaltung insgesamt mit folgender Punktzahl: ___.	Offenes Antwortfeld.
11	Anmerkungen für den/die Lehrende/n: Was hat Ihnen besonders gut an dieser Veranstaltung gefallen? Haben Sie Vorschläge für Veränderungen? Sonstige Anmerkungen:	Offenes Antwortfeld.

Antwortvorgaben

Für Items 3-8 wird ein 7-stufiges Antwortformat mit den Benennungen der Extremwerte als 1 = völlig unzutreffend und 7 = völlig zutreffend verwendet.

Auswertungshinweise

Angesichts der offensichtlichen Eindimensionalität der Items der zwei Subskalen können ihre Antwortwerte aufsummiert oder gemittelt werden. Das Online-Evaluationssystem im Fach Psychologie an der Universität Münster erlaubt einen Vergleich der Ergebnisse für verschiedene Veranstaltungen über eine Online-Rückmeldemaske.

Theorie

Die Evaluation der Lehre ist ein wichtiges Instrument zur Qualitätssicherung an Hochschulen. Nach Rindermann (1996) kann sie in verschiedenen Bereichen Veränderungen initiieren: So kann sie die Lehrqualifikation der Lehrenden verbessern, Stärken und Schwächen auf Veranstaltungs-, Fach-, oder Universitätsebene aufdecken, Diskussionen zwischen Lehrenden und Studierenden unterstützen, die Mittelvergabe steuern und Weiterbildungsmaßnahmen evaluieren.

Seit dem Wintersemester 2000/1 werden im Fach Psychologie an der Universität Münster strukturierte Evaluationsfragebogen eingesetzt. Seit dem Wintersemester 2003/4 wird die Lehrevaluation über eine webbasierte Darbietungsplattform online durchgeführt (Haaser, Thielsch & Moeck, 2007). Vorteile dieser Erhebungsform sind enorme Zeitersparnisse bei Erhebung, Auswertung und Präsentation der Daten (vgl. z.B. Gritz, Soucek & Bacher, 2005; Haaser, Thielsch & Moeck, 2007). Außerdem kann durch sie die Anzahl fehlender Werte durch entsprechend programmierte Rückmeldungen deutlich reduziert und das Feedback für Dozenten durch frei wählbare Vergleichsveranstaltungen wesentlich verbessert werden.

Für den deutschsprachigen Raum liegt bereits eine Reihe von Instrumenten zur Lehrevaluation vor. Sie sind jedoch meist vergleichsweise lang und somit nur bedingt für eine internetgestützte Darbietung und gleichzeitige Evaluation unterschiedlicher Veranstaltungen geeignet: Speziell für Online-Erhebungen und Rückmeldungen werden eher kurze und ökonomische Skalen benötigt. Hohe Ökonomie, d.h. eine möglichst geringe Belastung von Studierenden durch die Befragung, war deshalb ein vorrangiges Ziel bei der Konstruktion der hier beschriebenen Itembatterien. Ferner wurden für die meisten existierenden Lehrevaluationsinstrumente Daten für eine Prüfung ihrer psychometrischen Eigenschaften nur beim ersten Einsatz erhoben und sie wurden nicht anhand neuer Daten weiterführend geprüft. Im Unterschied dazu wird hier die nach früheren Hauptkomponentenanalysen angenommene dimensionale Strukturierung der Antworten mit neuen Daten aus nachfolgenden Erhebungen konfirmatorisch untersucht.

Skalenentwicklung

Itemkonstruktion und Itemselektion

Die zwei Münsteraner Itembatterien zur Evaluation von Vorlesungen (MFE-V) entsprechen einer gekürzten Version eines umfangreicheren Fragenmoduls, das am Fachbereich Psychologie der Universität Münster entwickelt und zwischen dem Wintersemester 2002/3 und dem Sommersemester 2005 jedes Semester eingesetzt wurde. Die Originalversion sollte mit 17 Items drei Dimensionen der Lehrqualität möglichst detailliert erfassen (Grabbe, 2003). Erste Item- und Hauptkomponentenanalysen der im Sommersemester 2005 erhobenen Daten veranlassten eine Reduktion auf 14 Items, von denen sich neun drei Hauptkomponenten zuordneten (Haaser, 2006). Für das abschließend beibehaltene Instrument wählte Haaser für diese drei Subskalen bewusst Items aus, die unterschiedliche Aspekte des hier behandelten Konstrukts erfassen sollen. Dies spiegelt sich in teilweise niedrigen Werten für die interne Konsistenz dieser Items nach Cronbachs Alpha wieder.

Stichproben

Zwischen dem Wintersemester 2002/3 und dem Sommersemester 2008 wurden im Rahmen der Lehrevaluation 9757 einzelne Lehrbewertungen erhoben. 1538 der Bewertungen wurden von Studenten und 7340 von Studentinnen abgegeben. In 870 Fragebogen fehlten die demografischen Angaben. Die Befragten waren zwischen 18 und 67 Jahre (M = 23.1, SD = 3.6) alt. Die Mehrzahl (71.9%) studierte Psychologie im Hauptfach, die übrigen im Magisterstudiengang oder im Nebenfach. Die Studierenden befanden sich zwischen dem ersten und 40. Semester (M = 4.6, SD = 2.4).

Um die zentrale Voraussetzung unabhängiger Itembeantwortungen zu erfüllen, die allen konventionellen und neueren dimensionsanalytischen Verfahren gemeinsam ist, wurden in die hier berichteten Analysen nur jeweils eine Bewertung von insgesamt 103 verschiedenen Studierenden einbezogen. Sie wurden in der Befragung eines Semesters erhoben, für welches der größte Rücklauf (WS 07/08) erzielt wurde. Aus dem Gesamtdatensatz, der aus Datenschutzgründen keine Befragtenkennungen enthält, wurden dafür alle Daten gelöscht, die von Studierenden mit identischen demografischen Daten (Alter, Geschlecht, Studiengang, Semester) stammen. Die demografischen Merkmale der so ausgewählten, und dadurch garantiert unterschiedlichen 103 Befragten, unterscheiden sich nicht von den für die Gesamtstichprobe ermittelten.

Die Lehrevaluation wird seit dem Wintersemester 2002/3 jeweils am Ende eines Semesters durchgeführt. Für diese Erhebungen wurde eine Online-Plattform basierend auf PHP und kombiniert mit MySQL-Datenbanken entwickelt (Haaser et al., 2007).

Variablen und Auswertungsmethode

Nach bereits früher durchgeführten Hauptkomponentenanalysen der bis dahin erhobenen Evaluationsdaten (vgl. Haaser, 2006) sollten die Antworten zu den sechs hier geprüften Items den Einfluss von zwei Dimensionen - Dozentenauftreten und Didaktik indizieren. Das Zutreffen dieser aus früheren Ergebnissen abzuleitenden Annahme wird hier mit linearen konfirmatorischen Faktorenanalysen und unter Rückgriff auf den konventionellen Maximum Likelihood Schätzer geprüft. Alle entsprechenden Analysen wurden mit AMOS durchgeführt.

Itemanalysen

Ein lineares konfirmatorisches Messmodell (Tabelle 1) mit zwei korrelierten Faktoren erzielt eine akzeptable Passung (Chi-Quadrat = 15, df = 8; TLI = .96, CFI = .98, RMSEA = .08). Dies bestätigt die auf der Basis früherer Analysen erwartete Strukturierung der Antworten zu den sechs Items. Die Korrelation zwischen den beiden Subskalen beträgt .46.

Tabelle 1

Mittelwerte (M), Standardabweichungen (SD), Trennschärfen (T) und Faktorladungen (FL) nach einem zweidimensionalen konfirmatorischen Messmodell mit Einfachstruktur sowie Cronbachs Alpha if item deleted (CA) für die Items der Subskalen Dozent (Do1 - Do3) und Didaktik (Di1 - Di3; N = 140)

	M	SD	T	FA	CA
Do1	6.2	1.1	.71	.84	.69
Do2	6.0	1.4	.67	.80	.72
Do3	6.3	1.3	.60	.68	.79
Di1	6.0	1.2	.61	.73	.72
Di2	6.4	1.0	.68	.79	.69
Di3	5.7	1.4	.64	.74	.71

Anm. Die Berechnungen erfolgten mit SPSS bzw. AMOS

Itemkennwerte

Itemkennwerte (Tabelle 1) und Interitemkorrelationen (Tabelle 2) zur Beurteilung der psychometrischen Eigenschaften der Items der beiden Subskalen liegen vor.

Tabelle 2

Korrelationen der Items der Subskalen Dozent (Do1 - Do3) und Didaktik (Di1 - Di3; N = 140)

	Dozent 2	Dozent 3	Didaktik 1	Didaktik 2	Didaktik 3
Dozent 1	.67	.57	.37	.37	.28
Dozent 2		.53	.46	.35	.24
Dozent 3			.33	.31	.33
Didaktik 1				.56	.54
Didaktik 2					.61

Anm. Die Berechnungen erfolgten mit SPSS

Gütekriterien

Reliabilität

Cronbachs Alpha beträgt .80 für die drei Items der Subskala Dozentenauftreten und .78 für die drei Items der Subskala Didaktik. Die interne Konsistenz der beiden Subskalen ist danach als gut zu beurteilen, insbesondere auch deshalb, weil sie jeweils aus nur drei Items bestehen.

Weitere Reliabilitätsanalysen finden sich bei Haaser (2006). Ihre Ergebnisse entsprechen weitgehend den für umfangreichere Lehrevaluationsinstrumente ermittelten (z.B. FEVOR: Staufenbiel, 2000; HILVE: Rindermann, 2001; KIEL: Gediga et al., 2000 oder TRIL: Gollwitzer & Schlotz, 2003).

Validität

Bereits Marsh (1984) weist auf die grundsätzliche Schwierigkeit hin, Lehrevaluationsinstrumente angemessen zu validieren, da sehr viele verschiedene Faktoren den Lehrerfolg beeinflussen (Lehrkompetenz, Vorwissen der Studierenden, Thema, Veranstaltungstyp). Die meisten Instrumente, sowie die Itemsammlung von Grabbe (2003), auf der die hier vorgestellten Itembatterien aufbauen, können als Versuch angesehen werden, möglichst viele der für die Lehrqualität relevanten Aspekte zu erfassen. Im Gegensatz zu diesen Ansätzen wurde hier versucht, die wichtigsten Bereiche für den Lehrerfolg von Lehrenden zu erheben. Diese sind nach verschiedenen Modellen des Lehrerfolgs, wie dem multimodalen Bedingungsmodell von Rindermann (2001), das Auftreten und die Didaktik des Lehrenden. Diese werden mit den hier vorgeschlagenen Itembatterien erfasst. Dies spricht für deren Inhaltsvalidität in wichtigen Bereichen studentischer Lehrveranstaltungsbeurteilungen.

Ein zentrales Ziel der Konstruktion der hier dokumentierten Subskalen war zudem ihre Ökonomie, die mit nur drei Items pro Subskala sicherlich als zufriedenstellt erreicht beurteilt werden kann. Eine breite Erfassung aller Aspekte des Lehrerfolgs würde sehr lange Fragebogen erfordern, deren Einsatz meist die Rücklaufquote und damit die Aussagekraft der Evaluation einschränkt. Die Konzentration auf zentrale Bereiche in einem kurzen Instrument soll hier eine hohe freiwillige Beteiligung an der Lehrevaluation sichern. Vergleichsweise sehr hohe Rücklaufquoten bei einer freiwilligen Lehrevaluation (Hauptfachseminare im Mittel > 60 %, Thielsch et al., 2008) und jährlich stattfindende Metaevaluationen (Haaser et al, 2007, Thielsch et al., 2008) zeigen, dass sowohl Lehrende als auch Studierende das Instrument gut annehmen und positiv beurteilen.

Deskriptive Statistiken

Deskriptive Statistiken für die beiden Subskalen (Tabelle 3) und Items (Tabelle 1) liegen vor.

Tabelle 3

Mediane (Me), Mittelwerte (M), Standardabweichungen (SD), Schiefe und Kurtosis für die Subskalen Dozent und Didaktik (N = 140)

	ME	M	SD	Schiefe	Kurtosis
Dozent	6.3	6.2	1.1	-2.71(.21)	10.05(.41)
Didaktik	6.3	6.0	1.0	-1.59(.21)	3.10(.41)

Anm. Die Berechnungen erfolgten mit SPSS

Kontakt

Hirschfeld, G. & Thielsch, M. T.

Dazugehörige Publikationen

	M	SD	T	FA	CA
Do1	6.2	1.1	.71	.84	.69
Do2	6.0	1.4	.67	.80	.72
Do3	6.3	1.3	.60	.68	.79
Di1	6.0	1.2	.61	.73	.72
Di2	6.4	1.0	.68	.79	.69
Di3	5.7	1.4	.64	.74	.71

	M	SD	T	FA	CA
Do1	6.2	1.1	.71	.84	.69
Do2	6.0	1.4	.67	.80	.72
Do3	6.3	1.3	.60	.68	.79
Di1	6.0	1.2	.61	.73	.72
Di2	6.4	1.0	.68	.79	.69
Di3	5.7	1.4	.64	.74	.71

	M	SD	T	FA	CA
Do1	6.2	1.1	.71	.84	.69
Do2	6.0	1.4	.67	.80	.72
Do3	6.3	1.3	.60	.68	.79
Di1	6.0	1.2	.61	.73	.72
Di2	6.4	1.0	.68	.79	.69
Di3	5.7	1.4	.64	.74	.71