ZIS - Münsteraner Fragebogen zur Evaluation von

Arbeit & Beruf

Arbeitsbelastungen & Stress

Münsteraner Fragebogen zur Evaluation von Vorlesungen - revidiert (MFE-Vr)

Rollenkonflikt

Soziale Stressoren am Arbeitsplatz

Work-Family Conflict Scale (ISSP)

Arbeitsmerkmale

Arbeitsmotivation & -einstellungen

Arbeitszufriedenheit

Beurteilungen & Bewertungen

Führung

Bildung

Digitalisierung

Gesellschaft & Soziales

Gesundheit

Individuum & Persönlichkeit

Politik

Religion & Kultur

Umwelt

Münsteraner Fragebogen zur Evaluation von Vorlesungen - revidiert (MFE-Vr)

Autor/in: Thielsch, M. T. & Hirschfeld, G.

In ZIS seit: 2010

DOI: https://doi.org/10.6102/zis85

Downloads

Aktionen

Nutzungsbedingungen

Zur Nutzung für andere Zwecke kontaktieren Sie die Autor*innen

Zusammenfassung:

Das hier dokumentierte Instrument zur Bewertung von Vorlesungen ist ein Basismodul des "Münsteraner Fragebogen zur Evaluation". Dieses Basismodul trägt das Kürzel "MFE-Vr", da es einer revidierten Form des Basismoduls zur Evaluation von Vorlesungen entspricht.

Abstract:

The instrument documented here for the evaluation of lectures is a basic module of the "Münster Questionnaire for Evaluation". This basic module has the abbreviation "MFE-Vr" because it corresponds to a revised form of the basic module for the evaluation of lectures.

Sprache Dokumentation: deutsch

Sprache Items: deutsch

Anzahl der Items: 25

Reliabilität: Cronbachs Alpha = .81 bis .93

Validität: Hinweis auf die Inhalts- sowie konvergente Validität

Konstrukt: Lehrevaluation

Schlagwörter: Lehre, Vorlesung, Revision | teaching, lecture, revision

Item(s) in Bevölkerungsumfrage eingesetzt: nein

Skalenentwicklung:

Instrument

Instruktion

Das hier dokumentierte Instrument zur Bewertung von Vorlesungen ist ein Basismodul des "Münsteraner Fragebogen zur Evaluation" und wird ohne eigene Instruktion präsentiert. Allgemeine Informationen zur Befragung erfolgen beim erstmaligen Zugriff auf das System (Verwendung der Daten, technische Voraussetzungen, u. ä.). Dabei werden auch demografische Merkmale der Teilnehmer erfragt.

Items

Nr.	Items zu Dozent & Didaktik
8	Ich finde, die Vorlesung gab einen guten Überblick über das Themengebiet.
9	Der/Die Lehrende benutzte oft Beispiele, die zum Verständnis der Lehrinhalte beitrugen.
10	Ich finde, der/die Lehrende ging auf Fragen und Anregungen der Studierenden angemessen ein.
11	Der/Die Lehrende hat das Thema interessant aufgearbeitet.
12	Ich konnte im Verlauf der Vorlesung die Gliederung immer nachvollziehen.
13	Ich finde, der/die Lehrende teilte die zur Verfügung stehende Zeit gut ein.

Nr.	Items zu Überforderung
14	Die Inhalte der Vorlesung waren zu schwierig für mich.
15	Das Tempo der Stoffvermittlung war für mich zu hoch.
16	Der mit der Vorlesung verbundene Zeitaufwand hat mich überfordert.

Nr.	Items zu Materialien
17	Die in der Vorlesung verwendeten Medien (Folien, Filme, Skizzen, etc.) trugen zum Verständnis der Inhalte bei.
18	Die Qualität der in der Vorlesung verwendeten Medien (Folien, Filme, Skizzen, etc.) war gut.
19	Die Qualität der zusätzlichen Materialien war gut.

Nr.	Zusätzlich vorgegebene, hier aber nicht weiter behandelte Items	Antwortvorgaben
1	Wie viele Sitzungen hast Du bei dieser Vorlesung gefehlt?	keine, eine, zwei, drei oder mehr Sitzungen
2	Wie viele Stunden hast Du die Vorlesung im Schnitt pro Woche vor- und nachbereitet?	Offenes Antwortfeld
3	Ich habe diese Vorlesung besucht (Mehrfachantworten möglich):	weil es eine Pflichtveranstaltung ist, aus Interesse am Thema, wegen des/r Dozenten/in, zur Vorbereitung auf Prüfungen
4	Ich finde, die räumliche Ausstattung des Vorlesungssaals war angemessen.	Wie Items 8 bis 19
5	Die Lautstärke war so, dass ich immer alles gut verstehen konnte.	Wie Items 8 bis 19
6	Der Vorlesungstermin passte gut in meine Zeitplanung.	Wie Items 8 bis 19
7	Ich habe immer ohne Probleme einen Sitzplatz bekommen.	Wie Items 8 bis 19
20	Ich habe folgende Materialien zusätzlich zur Veranstaltung benutzt (Mehrfachantworten möglich):	keine, Folien, Skript, Literaturangaben, Webseite des Dozenten/der Veranstaltung, andere Webseiten, Handout, Sonstiges
21	Ich fand die Menge des Materials, das zu dieser Veranstaltung zur Verfügung gestellt wurde, war:	zu gering, angemessen, zu groß, nicht sinnvoll beantwortbar
22	Ich habe in der Veranstaltung viel gelernt.	Ja, Nein
23	Ich würde diese Vorlesung anderen Studierenden weiterempfehlen.	Ja, Nein
24	Im Punktesystem der gymnasialen Oberstufe (0 [ungenügend] bis 15 [sehr gut +]) bewerte ich die Veranstaltung insgesamt mit folgender Punktzahl: ___	Offenes Antwortfeld
25	Anmerkungen für den/die Lehrende/n (Vorschläge/Lob/konstruktive Kritik):	Offenes Antwortfeld

Antwortvorgaben

Für Items 8-19 7-stufiges Antwortformat mit den Optionen: 1 = "stimme gar nicht zu", 2 = "stimme nicht zu", 3 = "stimme eher nicht zu", 4 = "neutral", 5 = "stimme eher zu", 6 = "stimme zu" und 7 = "stimme vollkommen zu". Zusätzlich steht die Antwortoption "nicht sinnvoll beantwortbar" zur Verfügung.

Auswertungshinweise

Angesichts der offensichtlichen Eindimensionalität der Items der drei Subskalen können ihre Antwortwerte aufsummiert oder gemittelt werden. Dabei ist zu beachten, dass für die Skala Überforderung niedrige bis mittlere Werte erwünscht sind. Das Evaluationssystem im Fach Psychologie an der Universität Münster erlaubt den Dozenten einen Vergleich der Ergebnisse für verschiedene Veranstaltungskategorien.

Wurde eine Veranstaltung von mehreren Lehrenden abgehalten, so wird die Skala Dozent & Didaktik jeweils für jeden Lehrenden dargeboten. Die Studierenden werden dann instruiert, mit dieser Skala jede/n Veranstalter/in einzeln zu evaluieren. Alle übrigen Skalen und Items beziehen sich auf die Gesamtveranstaltung und werden entsprechend nur einmal abgefragt.

Ein Evaluationsdatensatz wird nur dann für die Auswertung verwendet, wenn der Evaluierende dem am Ende der Online-Befragung explizit zustimmt, ein freiwilliger Selbstausschluss der Daten wird so ermöglicht (vgl. Thielsch & Weltzin, 2012).

Theorie

Die Evaluation der Lehre ist ein wichtiges Instrument zur Qualitätssicherung an Hochschulen. Die studentische Lehrveranstaltungskritik blickt dabei auf eine gut 50-jährige Geschichte zurück (Schmidt & Loßnitzer, 2010). Kontroverse Diskussionen in den 1980er und 1990er Jahren haben sich insbesondere mit der Validität dieser Art von Evaluation beschäftigt (Greenwald, 1997; Mutz, 2003; Rindermann, 1996, 2003 & 2009). Dabei hat sich gezeigt, dass studentische Beurteilungen für Lehrevaluationen geeignet sind. Dementsprechend sind sie zu einer zentralen, teilweise gesetzlich verankerten Standardmethode der Qualitätssicherung an Hochschulen geworden (Rindermann, 2009; Schmidt & Loßnitzer, 2010). Nach Rindermann (1996) kann Lehrevaluation in verschiedenen Bereichen Verbesserungen initiieren: So kann sie die Lehrqualifikation der Lehrenden verbessern, Stärken und Schwächen auf Veranstaltungs-, Fach- oder Universitätsebene aufdecken, Diskussionen zwischen Lehrenden und Studierenden unterstützen, die Mittelvergabe steuern und Weiterbildungsmaßnahmen veranlassen. Souvignier und Gold (2002) fassen die verschiedenen Ziele von Lehrevaluation in "Feedback", "Steuerung" und "Forschung" zusammen.

Seit dem Wintersemester 2000/1 werden im Fach Psychologie an der Universität Münster strukturierte Evaluationsfragebogen zur studentischen Veranstaltungskritik eingesetzt. Dabei wurden zunächst nur die Vorlesungen evaluiert. Eine Seminarevaluation findet seit dem Wintersemester 2002/3 statt. Seit dem Wintersemester 2003/4 wird die Lehrevaluation über eine webbasierte Darbietungsplattform online durchgeführt (vgl. Haaser, Thielsch & Moeck, 2007). Vorteile dieser Online-Erhebungsform sind enorme Zeitersparnisse bei der Erhebung, Auswertung und Präsentation der Daten (vgl. z.B. Göritz, Soucek & Bacher, 2005; Haaser et al., 2007). Außerdem konnte durch sie die Anzahl fehlender Werte durch entsprechend programmierte Rückmeldungen deutlich reduziert und das Feedback für Dozenten durch frei wählbare Vergleichsveranstaltungen verbessert werden. Nach einer Ausweitung der evaluierten Veranstaltungen werden seit 2008 auch vereinzelt so genannte Mixed-Mode Erhebungen durchgeführt, d.h. einzelne Veranstaltungen werden auch mithilfe von Papier-Bleistift Fragebogen evaluiert.

Für den deutschsprachigen Raum liegt bereits eine Reihe von Instrumenten zur Lehrevaluation vor. Eine Übersicht geben Schmidt und Loßnitzer (2010). Sie sind jedoch zum Teil vergleichsweise lang und somit nur bedingt für eine internetgestützte Darbietung und eine gleichzeitige Evaluation unterschiedlicher Veranstaltungen geeignet. Speziell für Online-Erhebungen und Rückmeldungen werden eher kurze und ökonomische Skalen benötigt. Da Lehrevaluationen zudem typischerweise gegen Semesterende stattfinden, fallen diese zeitlich in den neuen Studiengängen oftmals in die angespannte Phase der Prüfungsvorbereitung der Studierenden (vgl. Bechler & Thielsch, 2012). Hohe Ökonomie, d.h. eine möglichst geringe Belastung von Studierenden durch die Befragung, war deshalb ein zentrales Ziel bei der Konstruktion der hier beschriebenen Itembatterie. Zusätzlich wurde die Erhebung verschiedener Biasvariablen, wie z. B. Vorinteresse oder räumliche Ausstattung, gewünscht. Dazu wurden in die aktuelle Revision des MFE-V zum MFE-Vr mehrere Items neu aufgenommen. Für die meisten existierenden Lehrevaluationsinstrumente wurden Daten für eine Prüfung ihrer psychometrischen Eigenschaften nur beim ersten Einsatz erhoben und sie wurden später nicht anhand neuer Daten auch konfirmatorisch geprüft. Im Unterschied dazu wird hier auf Basis früherer exploratorischer und konfirmatorischer Faktorenanalysen angenommene dimensionale Strukturierung der Antworten mit neuen Daten aus aktuellen Erhebungen konfirmatorisch geprüft.

Skalenentwicklung

Itemkonstruktion und Itemselektion

Die vorliegende, gegenüber dem Basismodul Evaluation von Vorlesungen erweitere und revidierte Version des Münsteraner Fragebogens zur Evaluation (MFE) von Vorlesungen (MFE-Vr) basiert auf einer Reihe von Vorgängerversionen und einem umfangreichen Modifikationsprozess: Im ersten Schritt wurde auf Basis einer Analyse der Merkmale guter Lehre und ausgehend von empirischen Voruntersuchungen ein erstes Instrument am Fachbereich Psychologie der Universität Münster konstruiert (Grabbe, 2003). Es wurde zwischen dem Wintersemester 2002/3 und dem Sommersemester 2005 jedes Semester eingesetzt. Die Originalversion sollte mit 29 Items acht Dimensionen der Lehrqualität möglichst detailliert erfassen (Grabbe, 2003). Erste Item- und Hauptkomponentenanalysen der im Sommersemester 2005 erhobenen Daten veranlassten eine Kürzung des Fragebogens auf 14 Items, von denen sich neun drei Hauptkomponenten zuordneten (Haaser, 2006). Für das abschließend beibehaltene Instrument wählte Haaser für diese drei Subskalen bewusst Items aus, die unterschiedliche Aspekte der entsprechenden Konstrukte erfassen sollen. Dies spiegelte sich in teilweise niedrigen Werten für die interne Konsistenz nach Cronbachs Alpha wieder. Dieses Instrument wurde in 2008 einer konfirmatorischen Prüfung unterzogen und auf zwei Skalen reduziert (Hirschfeld & Thielsch, 2009). Danach zeigte sich jedoch weiterer Revisionsbedarf, resultierend aus den Anforderungen, zum einen mögliche Biasvariablen zu erheben (inwieweit z.B. die studentischen Lehrevaluationen durch die räumliche Ausstattung oder die Terminierung der Veranstaltung beeinflusst sind), zum anderen aber auch den Fokus der Lehrveranstaltungskritik zu erweitern. Ausgehend von der Literatur und vorliegenden Itementwürfen wurde daher die hier vorgestellte revidierte Version zum MFE-Vr erstellt. Ihre psychometrischen Eigenschaften wurden mit Daten aus dem Sommersemester 2009 explorativ sowie mit Daten aus dem Wintersemester 2009/10 konfirmatorisch geprüft. Ziel war dabei insbesondere, Itemformulierungen zu optimieren und relevante Aspekte möglichst handlungsnah zu erfassen, Biasvariablen zu erheben sowie die Feedbackmöglichkeiten sinnvoll zu erweitern.

Stichproben

Im Wintersemester 09/10 wurden im Rahmen der Lehrevaluation insgesamt 1308 Vorlesungsbewertungen erhoben. Aus diesen wurden 285 ausgeschlossen, entweder wegen zu vieler fehlender Werte oder weil eine oder mehrere Fragen mit "nicht sinnvoll beantwortbar" bewertet wurden. Ferner wurden die Daten aus weiteren 594 Fragebogen nicht berücksichtigt, weil sie eine identische Session-ID hatten, d.h. Beurteilungen mehrerer Veranstaltungen durch identische Studierende enthielten. Der so bereinigte und hier verwendete Datensatz umfasst somit noch Evaluationen von 429 Studierenden. 108 von ihnen waren männlich, 312 weiblich. 9 machten keine Angabe zu ihrem Geschlecht. Die Befragten waren zwischen 18 und 43 Jahren alt (M = 22.85; SD = 3.88). Die Mehrzahl (71.8%) studierte Psychologie im Bachelorstudiengang, die übrigen im Diplomstudiengang (11.9%), im Nebenfach Erziehungswissenschaften (12.1%), im Bachelorstudiengang Bildungsarbeit mit Kindern und Jugendlichen oder im Studiengang Diplom-Pädagogik (1.0%) sowie im Magisterstudiengang (0.2%). Etwa 3% beantworteten die entsprechende Frage nicht.

Die Lehrevaluation am Fach Psychologie der Universität Münster wird seit dem Wintersemester 2002/3 jeweils am Ende eines Semesters durchgeführt. Für diese Erhebungen wurde eine Online-Plattform, basierend auf PHP kombiniert mit MySQL-Datenbanken, entwickelt (Haaser et al., 2007). Einzelne Veranstaltungen im Nebenfach werden seit 2008 auch mit Papier-Bleistift Fragebogen beurteilt. In alle hier berichteten Analysen wurden Daten aus dem Wintersemester 2009/10 einbezogen.

Variablen und Auswertungsmethode

Nach bereits früher durchgeführten Hauptkomponentenanalysen der bis dahin erhobenen Evaluationsdaten (vgl. Haaser, 2006) sollten die Antworten zu den zwölf hier geprüften Items den Einfluss von drei Dimensionen indizieren: Dozent & Didaktik, Überforderung und Materialien. Das Zutreffen dieser aus früheren Ergebnissen abzuleitenden Annahme wird hier mit linearen konfirmatorischen Faktorenanalysen und unter Rückgriff auf den konventionellen Maximum Likelihood Schätzer geprüft. Alle entsprechenden Analysen erfolgten mit AMOS.

Itemanalysen

Ein konfirmatorisches Modell (Tabelle 1), welches die Items den drei theoretisch und aufgrund vorausgegangener Analysen erwarteten Faktoren Dozent & Didaktik, Überforderung und Materialien zuordnet, erzielt eine akzeptable Passung (Chi-Quadrat = 187.0, df = 51; TLI = .95, CFI = .96, RMSEA = .08). Die Subskala Dozent & Didaktik korreliert mit der Subskala Überforderung mit -.29 (p < .01) und mit der Subskala Materialien mit .87 (p < .01). Die Assoziation zwischen den Subskalen Überforderung und Materialien beträgt -.28 (p < .01).

Tabelle 1

Mittelwerte (M), Standardabweichungen (SD), Trennschärfen (T), Faktorladungen (FL) und Cronbachs Alpha (CA) bei Ausschluss des Items für die Items der drei Subskalen (N = 429)

Item	M	SD	T	FL	CA
Dozent & Didaktik
Item 8	5.94	1.36	.77	.81	.92
Item 9	5.92	1.46	.85	.88	.91
Item 10	5.85	1.62	.78	.82	.92
Item 11	5.61	1.55	.86	.90	.91
Item 12	5.54	1.59	.77	.81	.92
Item 13	5.68	1.52	.76	.78	.92
Überforderung
Item 14	3.04	1.48	.71	.80	.79
Item 15	3.10	1.54	.78	.92	.72
Item 16	3.02	1.64	.65	.71	.85
Materialien
Item 17	5.73	1.49	.74	.94	.64
Item 18	5.61	1.56	.76	.90	.62
Item 19	5.34	1.77	.49	.50	.92

Anm. Faktorladungen wurden mit AMOS ermittelt, die übrigen Berechnungen erfolgten mit SPSS

Itemkennwerte

Für eine Beurteilung der psychometrischen Eigenschaften der Items liegen Itemkennwerte (Tabelle 1) vor.

Gütekriterien

Reliabilität

Cronbachs Alpha beträgt .93 für die sechs Items der Subskala Dozent & Didaktik, .85 für die drei Items der Subskala Überforderung und .81 für die drei Items der Subskala Materialien. Die interne Konsistenz der Subskalen ist danach als gut bis sehr gut anzusehen, insbesondere vor dem Hintergrund der Kürze der Skalen. Diese Ergebnisse entsprechen denen aus Studien zu umfangreicheren Lehrevaluationsinstrumenten (z.B. FEVOR, Staufenbiel, 2000; HILVE, Rindermann, 2009; KIEL, Gediga et al., 2000 oder TRIL, Gollwitzer & Schlotz, 2003).

Validität

Bereits Marsh (1984) weist auf die grundsätzliche Schwierigkeit hin, Lehrevaluationsinstrumente angemessen zu validieren, da keine allgemein anerkannten Kriterien für gute Lehre existieren. Die meisten Lehrevaluationsinstrumente, wie auch die Itemsammlung von Grabbe (2003), auf der die hier vorgestellte Itembatterie aufbaut, können als Versuch angesehen werden, alle möglichen relevanten Aspekte zu erfassen. Die Reduktion der Itemzahl während der Instrumentenentwicklung hat beim MFE-Vr gegenüber umfangreicheren Instrumenten zu einer Einschränkung der betrachteten Bereiche geführt mit einer Konzentration auf Auftreten und Didaktik von Lehrenden, das von diesen verwendete Material und eine eventuelle Überforderung der Studierenden.

Nach dem multimodalen Bedingungsmodell des Lehrerfolgs stellen die Verhaltensweisen des Dozenten den wichtigsten Bedingungsfaktor des Lehrerfolgs dar (Rindermann, 2009). Dies spricht für die Inhaltsvalidität der hier vorgeschlagenen Subskala Dozent & Didaktik des MFS-Vr. Für die konvergente Validität der drei Subskalen sprechen mittlere bis sehr hohe Korrelationen ihrer Summenwerte mit einer Gesamtbewertung der jeweiligen Vorlesung (.90 für die Skala Dozent & Didaktik, -.29 für die Skala Überforderung und .77 für die Subdimension Materialien). Ihre divergente Validität belegen z.B. substantiell nicht bedeutsame Korrelationen (< .30) zwischen ihren Summenwerten und der Einschätzung der Studierenden, inwieweit der Vorlesungstermin in die private Zeitplanung passt oder der Vorlesungsraum groß genug ist. Für die diskriminate Validität aller drei Subskalen sprechen schließlich Beobachtungen, nach denen ihre Antwortsummenwerte jeweils signifikant unterschiedlich in der erwarteten Richtung für Vorlesungen ausfallen, die von den Studierenden nach einer von ihnen vergebenen Gesamtnote am besten und am schlechtesten waren (Didaktik: F (1, 65) = 91.43, p < .01, Eta-Quadrat = .59; Überforderung: F (1, 65) = 11.85, p < .01, Eta-Quadrat = .15; Materialen: F (1, 65) = 62.23, p < .01, Eta-Quadrat = .49). Alle drei Subskalen trennen also sehr deutlich zwischen der besten und schlechtesten Veranstaltung. Auch wenn alle evaluierten Veranstaltungen mit einbezogen werden zeigen sich signifikante Unterschiede zwischen den Veranstaltungen auf allen Subskalen (Didaktik: F (25, 403) = 17.53, p < .01, Eta-Quadrat = .52); Überforderung: F (25, 403) = 3.32;, p < .01, Eta-Quadrat = .17), Material: F (25, 403) = 9.8, p < .01, Eta-Quadrat = .38). Die Skalen können also zwischen den verschiedenen evaluierten Veranstaltungen trennen.

Ein zentrales Ziel der Konstruktion der hier dokumentierten Subskalen war auch ihre Ökonomie, das aufgrund nur sechs bzw. drei Items pro Subskala sicherlich als zufriedenstellend erreicht beurteilt werden kann. Sehr hohe Rücklaufquoten (im Mittel über alle Veranstaltungen rund 70 %, Thielsch et al., 2010) und regelmäßige Metaevaluationen (Haaser et al., 2007, Thielsch et al., 2010) zeigen zudem, dass Lehrende und Studierende die Befragung mit diesen Items als wenig belastend erleben, das Instrument akzeptieren und es positiv beurteilen.

Deskriptive Statistiken

Deskriptive Statistiken für die Items (Tabelle 1) und ihre Subskalen (Tabelle 2) liegen vor.

Tabelle 2

Mediane (Me), Mittelwerte (M), Standardabweichungen sowie Schiefe und Kurtosis für die Subskalen Dozent & Didaktik, Überforderung und Materialien (N = 429)

	ME	M	SD	Schiefe	Kurtosis
Dozent & Didaktik	6.17	5.76	1.31	-1.52(.12)	1.86(.24)
Überforderung	3.00	3.06	1.36	0.50(.12)	-0.39(.24)
Materialien	6.00	5.56	1.37	-1.21(.12)	1.24(.24)

Anm. Die Berechnungen erfolgten mit SPSS

Kontakt

Thielsch, M. T. & Hirschfeld, G.

Dazugehörige Publikationen