ZIS - Münsteraner Fragebogen zur Evaluation

Arbeit & Beruf

Arbeitsbelastungen & Stress

Münsteraner Fragebogen zur Evaluation – Zusatzmodul digitale Lehre (MFE-ZdL)

Rollenkonflikt

Soziale Stressoren am Arbeitsplatz

Work-Family Conflict Scale (ISSP)

Arbeitsmerkmale

Arbeitsmotivation & -einstellungen

Arbeitszufriedenheit

Beurteilungen & Bewertungen

Führung

Bildung

Digitalisierung

Gesellschaft & Soziales

Gesundheit

Individuum & Persönlichkeit

Politik

Religion & Kultur

Umwelt

Münsteraner Fragebogen zur Evaluation – Zusatzmodul digitale Lehre (MFE-ZdL)

Autor/in: Oberhoff, L., Mühlinghaus, R., Kegel, K., Humberg, S.

In ZIS seit: 2022

DOI: https://doi.org/10.6102/zis327

Downloads

Aktionen

Nutzungsbedingungen

Zur Nutzung für andere Zwecke kontaktieren Sie die Autor*innen

Zusammenfassung:

Die hier dokumentierte Itembatterie kann im Rahmen von studentischer Veranstaltungskritik eingesetzt werden. Sie dient dazu, die Einschätzungen von Studierenden bezüglich verschiedener Aspekte von digitaler Lehre zu erfassen. Am Institut für Psychologie der Westfälischen Wilhelms-Universität Münster wurde der Fragebogen bzw. Vorversionen davon im Sommersemester 2020, Wintersemester 2020/21 und im Sommersemester 2021 zusätzlich zum Kernfragebogen „Münsteraner Fragebogen zur Evaluation von Seminaren (MFE-Sr)“ bzw. „Münsteraner Fragebogen zur Evaluation von Vorlesungen (MFE-Vr)“ eingesetzt, um studentische Rückmeldungen zu den wegen der COVID-19 Pandemie eingeführten digitalen Lehrelementen zu erhalten. Der Fragebogen eignet sich insbesondere zur Evaluation rein digitaler Veranstaltungen, in reduzierter Form (mit entsprechender Itemauswahl) auch zur Evaluation von Veranstaltungen im Hybridformat oder Präsenzveranstaltungen mit ergänzenden digitalen Materialien.

Abstract:

The item battery documented here can be used in the context of course evaluation by students. It serves to record students’ assessments of various aspects of digital teaching. At the Institute of Psychology of the Westfälische Wilhelms-Universität Münster, the questionnaire or preliminary versions of it were used in the summer semester 2020, winter semester 2020/21, and summer semester 2021 in addition to the basic questionnaire "Münster Questionnaire for the Evaluation of Seminars (MFE-Sr)" or "Münster Questionnaire for the Evaluation of Lectures (MFE-Vr)" in order to obtain student feedback on the digital teaching elements introduced due to the COVID-19 pandemic. The questionnaire is particularly suitable for evaluating purely digital events, and in a reduced form (with appropriate item selection) also for evaluating courses in hybrid format or classroom courses with supplementary digital materials.

Sprache Dokumentation: deutsch

Sprache Items: deutsch

Anzahl der Items: 10

Erhebungsmodus: CASI

Bearbeitungszeit: 1 bis 2 Minuten (Erfahrungswert der Autor:innen)

Reliabilität: Bestimmung nicht sinnvoll möglich.

Validität: Hinweise auf Inhalts- und Konstruktvalidität

Konstrukt: Einschätzungen von Studierenden bzgl. verschiedener Aspekte digitaler Lehre

Schlagwörter: Lehrevaluation, digitale Lehre, Online-Vorlesung

Item(s) in Bevölkerungsumfrage eingesetzt: nein

URL Webseite:

https://www.uni-muenster.de/PsyEval/evaluationen/instrumente.html

URL Datenarchiv:

Skalenentwicklung:

Instrument

Instruktion

Die hier dokumentierte Itembatterie zur Bewertung der digitalen Lehre ist ein Zusatzmodul des "Münsteraner Fragebogen zur Evaluation“ (MFE) und wird ohne eigene Instruktion präsentiert. Allgemeine Informationen zur Befragung erfolgen beim erstmaligen Zugriff auf die Evaluationsplattform. Dabei werden auch demografische Merkmale der Teilnehmenden erfragt. Üblicherweise wird die Itembatterie als Zusatzmodul direkt nach der Darbietung der Basismodule zur Evaluation von Seminaren (MFE-Sr) oder Vorlesungen (MFE-Vr) vorgegeben.

Items

In den folgenden zwei Tabellen sind die Items sortiert nach Antwortformat dargestellt. Im Fragebogen werden zunächst die Items 1 und 2 (Tabelle 1) präsentiert, dann in einem Frageblock die Items 3 – 8 mit 7-stufiger Ratingskala (Tabelle 2), und schließlich die Items 9 und 10 (Tabelle 1).

Tabelle 1

Items des MFE-ZdL mit Item-spezifischem Antwortformat

Nr.	Item	Antwortvorgaben
1	In dieser Veranstaltung wurden folgende digitale Elemente eingesetzt:	Mehrere Angaben möglich: bereitgestellte Foliensätze; Livestream (Vortrag des/der Lehrenden); Audio- oder Video-Aufzeichnungen; Online-Sitzungen (z.B. über Zoom); Online-Sprechstunden des/der Lehrenden; schriftliche Diskussionsforen (z.B. im Learnweb); Sonstiges*
2	*Ggf. Sonstiges:	Offenes Antwortfeld
9	Welche Auswirkung(en) hatte das digitale Format auf dein Lernen?	Mehrere Angaben möglich: effektiveres Zeitmanagement; angenehmerer Grad an Selbstbestimmung; mehr Aufschiebe-Verhalten; weniger Beschäftigung mit den Inhalten; keine Auswirkungen
10	Gibt es darüber hinaus Rückmeldungen oder Ideen, die du dem/der Lehrenden in Bezug auf die digitale Lehre geben möchtest? [z.B. zu den eingesetzten bzw. alternativen digitalen Möglichkeiten]	Offenes Antwortfeld

Tabelle 2

Items des MFE-ZdL mit 7-stufiger Ratingskala als Antwortformat

Nr.	Item	Polung
3	Die eingesetzten digitalen Elemente passten gut zu dieser Veranstaltung.	+
4	Alle Lerninhalte einer entsprechenden Präsenzveranstaltung konnten auch im digitalen Format vermittelt werden.	+
5	Ich konnte die Veranstaltungsinhalte für mich ausreichend mit anderen Studierenden reflektieren.	+
6	Falls du in der Veranstaltung digital mit anderen Studierenden zusammengearbeitet hast: Die eingesetzten Elemente digitaler Zusammenarbeit zwischen den Studierenden haben gut funktioniert.	+
7	Ich bin ohne Mehraufwand mit den technischen Anforderungen der Veranstaltung zurechtgekommen.	+
8	Der/die Lehrende war gut genug erreichbar.	+

Antwortvorgaben

Für die Items mit Mehrfachwahl-Abfrageformat bzw. offenem Antwortfeld sind die Antwortformate in Tabelle 1 spezifiziert. Für die in Tabelle 2 dargestellten Items wird ein 7-stufiges Antwortformat mit den folgenden Optionen verwendet: 1 = "stimme gar nicht zu", 2 = "stimme nicht zu", 3 = "stimme eher nicht zu", 4 = "neutral", 5 = "stimme eher zu", 6 = "stimme zu" und 7 = "stimme vollkommen zu". Zusätzlich wird bei den Items mit Ratingskala die Antwortkategorie „nicht sinnvoll beantwortbar“ präsentiert und als „NA“ (fehlender Wert) kodiert.

Auswertungshinweise

Die Items werden einzeln deskriptiv für jede Veranstaltung ausgewertet (ungewichteter Mittelwert und Standardabweichung für die Items mit Ratingskala, dargestellt in Tabelle 2; relative Häufigkeiten für die Mehrfachwahlitems) und bspw. an die Lehrperson der entsprechenden Lehrveranstaltung zurückgemeldet. Bei fehlenden Angaben von Studierenden auf einzelnen Items werden die deskriptiven Statistiken dabei für die restlichen Items berechnet („pairwise deletion“). Da die Items verschiedene, aus konzeptueller Sicht unabhängige Aspekte der digitalen Lehre abbilden sollen, werden sie nicht zu einer Skala zusammengefasst und es werden keine Subskalen gebildet.

Anwendungsbereich

Die Itembatterie kann im Rahmen von studentischer Veranstaltungskritik für Lehrveranstaltungen eingesetzt werden, ggf. ergänzend zu einem bestehenden Basisfragebogen, der allgemeinere Aspekte der Lehrveranstaltung erhebt (z.B. MFE-Sr, Thielsch & Hirschfeld, 2010a; MFE-Vr, Thielsch & Hirschfeld, 2010b). Der Fragebogen eignet sich dabei insbesondere für rein digitale Veranstaltungen, in ggf. reduzierter Form (mit entsprechender Itemauswahl je nach Format der Veranstaltung) auch zur Evaluation von Veranstaltungen im Hybridformat oder Präsenzveranstaltungen mit ergänzenden digitalen Materialien. Das Instrument wird von Studierenden schriftlich und online im CASI-Erhebungsmodus ausgefüllt; wobei es auch für eine PASI-Erhebung geeignet ist. Nach Einschätzung der Autor:innen liegt die Bearbeitungszeit bei 1 bis 2 Minuten. Das Instrument dient der Rückmeldung an die Dozierenden und wird nicht zur Individualdiagnostik verwendet.

Obwohl der Fragebogen für die hochschulinterne Veranstaltungsevaluation als individuelles Feedback an die Dozierenden konzipiert ist, ist darüber hinaus der Einsatz des Instruments in empirischen Studien denkbar, beispielsweise für Forschungsthemen der Erziehungswissenschaft, Hochschuldidaktik und Pädagogischen Psychologie. Besonders um hochschuldidaktische Weiterbildungen für Dozierende zu digitalen Lehr-Lernszenarien zu evaluieren, eignet sich das vorliegende Instrument. Während Forschungsarbeiten eine Verbesserung der Gesamtqualität digitaler Lehre im Verlauf der COVID-19 Pandemie zeigen konnten (Mishra et al., 2020; Saverino et al., 2022) bietet die Itembatterie differenzierte Einsichten in das Erleben der Studierenden in Bezug auf digitale Lehr-Lernformate. Mit ihr können Effekte von Weiterbildungen spezifischer überprüft und zusätzlich konstruktives Feedback für Teilnehmende abgeleitet werden. Im Forschungsbereich distaler und proximaler Konsequenzen digitaler Lehr-Lernformate eignet sich das vorliegende Instrument ebenfalls. Für den Studienerfolg in Form von Studienabbruch und Studienleistung gelten sowohl theoretisch als auch empirisch soziale Interaktionen und instruktionale Merkmale von Lehr-Lernformaten als wichtige Einflussgrößen (Schneider & Preckel, 2017; Tinto, 1975). Die Art und Qualität digitaler Lehr-Lernformate sollte dabei vor dem Hintergrund der zunehmenden Digitalisierung unserer Gesellschaft berücksichtigt werden und könnte über das vorliegende Instrument abgebildet werden. Neben diesen Zusammenhängen mit distalen Konsequenzen könnte das Instrument in Studien zu proximalen Konsequenzen, wie dem Lernverhalten Studierender, eingesetzt werden. Forschungsarbeiten während der COVID-19 Pandemie zeigten einen höheren Bedarf an selbstreguliertem Lernen aufgrund digitaler Lehr-Lernformate (Aini et al., 2020; Hilpert et al., 2022) und stärkeres Prokrastinationsverhalten unter Lernenden (Hong et al., 2021; Pelikan et al., 2021). Um Studierende in ihrem Lernverhalten bestmöglich unterstützen zu können, sollte das Wissen zu Zusammenhängen von der Art und Qualität digitaler Elemente mit adaptivem und maladaptivem Lernverhalten vertieft werden. Vor dem Hintergrund unserer Ergebnisse zu Unterschieden zwischen den Lehrveranstaltungen (siehe Tabelle 5) ist ein veranstaltungsspezifisches Vorgehen zu empfehlen. Das vorliegende Instrument bietet sich dafür mit seiner differenzierten Itembatterie und der Abfrage veranstaltungsspezifischer Charakteristika besonders gut an.

Theorie

Das Zusatzmodul zur digitalen Lehre erfasst in verschiedenen Bereichen, wie zufrieden Studierende mit Aspekten der digitalen Lehre sind und welchen Einfluss digitale Formate auf das Lernen von Studierenden haben. Die Entwicklung des Fragebogens wurde motiviert durch den pandemiebedingten Einzug digitaler Formate in fast alle Lehrveranstaltungen an Hochschulen, die insbesondere zwischen dem Sommersemester 2020 und dem Sommersemester 2021 den Lehrbetrieb prägten. Vor der COVID-19 Pandemie waren digitale Elemente kein integraler Bestandteil der Lehre an Hochschulen (Persike & Friedrich, 2016), weshalb mit der Umstellung auf digitale Lehrformate diverse Herausforderungen für Lehrende und Studierende einhergingen. Um auch in Zeiten von rein digitaler Lehre möglichst vollumfassende Qualitätssicherung an Hochschulen sicherstellen zu können, wurde die Lehrevaluation am Fach Psychologie der Westfälischen Wilhelms-Universität (WWU) Münster ab dem Sommersemester 2020 um das Zusatzmodul zur digitalen Lehre ergänzt. Die so erhobenen Daten über die Zufriedenheit von Studierenden in Bezug auf digitale Formate dienten sowohl für Dozierende als auch die Steuerungseinheiten am Fach als Entscheidungsgrundlage, um bei der Lehrplanung in kommenden Semestern digitale Elemente auszuwählen bzw. dessen Einsatz zu regulieren, und unterstützte dadurch über die COVID-19 Pandemie hinaus die Integration digitaler Elemente in den Lehralltag. Das Zusatzmodul wurde mit 10 Items ökonomisch und kurz gehalten, damit es neben der regulären Lehrveranstaltungsevaluation möglichst geringe zeitliche Ressourcen von Studierenden fordert.

Das Zusatzmodul zur digitalen Lehre kann alleinstehend oder, im Rahmen der Lehrevaluation, ergänzend zu bereits vorhandenen Evaluationsmodulen eingesetzt werden. Hierbei erfasst das Zusatzmodul keine Aspekte der Lehre, die bereits im regulären Evaluationsinstrument abgefragt werden (an der WWU Münster die Fragebögen MFE-Sr und MFE-Vr). Stattdessen fokussiert dieser Fragebogen auf spezifische Aspekte, die bei dem Einsatz digitaler Lehr- und Lernformate eine Rolle spielen können, und die im Folgenden näher erläutert werden.

Mit dem Begriff der digitalen Lehre wird generell der Einsatz digitaler Medien zu Lehr- und Lernzwecken bezeichnet (Breitenbach, 2021), wobei es ein breites Spektrum an Medien gibt, die zu diesem Zwecke nutzbar sind. Im ersten Item des Fragebogens (Item 1 in Tabelle 1) wird daher zunächst erfragt, welche digitalen Elemente/Medien in der entsprechenden Lehrveranstaltung eingesetzt wurden. Die Antwortvorgaben (s. Tabelle 1) decken dabei die am häufigsten genutzten digitalen Elemente ab. Weitere, ggf. veranstaltungsspezifische digitale Elemente können zudem in einem offenen Antwortfeld in Item 2 (Tabelle 1) genannt werden. Diese zwei Items haben im Rahmen der Lehrevaluation keine Rückmeldefunktion für die Lehrperson der entsprechenden Veranstaltung, sondern sollen z.B. den Dozierenden anderer Veranstaltungen (denen die zusammengefassten Ergebnisse aller Lehrveranstaltungen im Fach zugänglich sind) die Interpretation der Ergebnisse erleichtern, sowie ihnen Inspiration und Orientierung für mögliche digitale Elemente zur Nutzung in ihren eigenen Lehrveranstaltungen geben.

Verschiedene Aspekte der Wahrnehmung digitaler Veranstaltungen, insbesondere im Vergleich zu Präsenzveranstaltungen, sind in den sechs Items mit Ratingskala (Tabelle 2) abgedeckt. Ähnlich wie es allgemein bei didaktischen Methoden und Materialien der Fall ist (Reinhardt et al., 2021), ist es in gewissem Rahmen von den zu vermittelnden Inhalten einer Lehrveranstaltung abhängig, welche Art und Ausgestaltung der digitalen Umsetzung besonders lernförderlich ist. Bei vorhandenen Freiräumen der Dozierenden bei der Gestaltung des digitalen Formats kann daher die Rückmeldung zur von Studierenden wahrgenommenen Passung der gewählten Elemente hilfreich sein. Diese wird in Item 3 erfragt.
Um eine globalere Einschätzung darüber zu erhalten, inwiefern die Gestaltung des digitalen Formats bzw. der digitalen Elemente für die Vermittlung der Lerninhalte geeignet war, ist der Vergleich mit einer entsprechenden Präsenzveranstaltung aufschlussreich. Item 4 erfasst den eingeschätzten Vergleich im Lernerfolg zwischen der digital umgesetzten Veranstaltung und einer entsprechenden Veranstaltung im Präsenzformat.

Relevant für die Wahrnehmung der digitalen Lehre und das Wohlbefinden der Studierenden sind zudem verschiedene Aspekte des kommunikativen Austauschs unter Studierenden. Verminderter Kontakt und isoliertes Lernen wird von Studierenden als Problem wahrgenommen (Breitenbach, 2021) und wird als Hindernis für Lernmotivation und Lernerfolg angesehen (Deci & Ryan, 2012). Der Fragebogen soll daher erfassen, inwiefern der Austausch zwischen Studierenden in der Form, wie er trotz des digitalen Formats ermöglicht wurde, für die Reflexion als hinreichend empfunden wurde (Item 5), bzw. inwiefern digitale Zusammenarbeit innerhalb der Veranstaltung (Item 6) trotz des digitalen Formats sinnvoll umgesetzt war.

Ein möglicher Nachteil digitaler Lehre betrifft den Arbeitsaufwand, den viele Studierende während der COVID-19 Pandemie als erhöht wahrgenommen haben (Zentrum für Qualitätsentwicklung in Lehre und Studium, 2020). Insbesondere technische infrastrukturelle Herausforderungen können sich dabei unmittelbar auf die zeitlichen Ressourcen von Studierenden auswirken (Grabowski & Pape, 2016). Mit Item 7 wird daher erfasst, inwiefern ein möglicherweise erhöhter Arbeitsaufwand auf die technische Umsetzung der Veranstaltung zurückzuführen ist; mit der möglichen Konsequenz, dass die Lehrperson bei auffällig hohen Angaben auf diesem Item die technische Umsetzung der digitalen Elemente in kommenden Semestern überdenken und ggf. verändern würde.

Da bei rein digitalen Veranstaltungen für die Studierenden nicht die aus Präsenzveranstaltungen gewohnte Möglichkeit besteht, organisatorische oder Verständnisfragen in Person mit der Lehrperson zu besprechen, verschiebt sich die gesamte Kommunikation stattdessen auf digitale, und somit distalere Kanäle. Durch die Angaben der Studierenden bezüglich der Erreichbarkeit der Lehrperson auf Item 8 soll die Lehrperson einen Eindruck darüber gewinnen, wie diese Verschiebung von Kommunikationskanälen sich auf die Wahrnehmung der Studierenden darauf ausgewirkt hat, bei Bedarf mit der Lehrperson kommunizieren zu können.

Schließlich bezieht der Fragebogen das Lernverhalten der Studierenden mit ein, welches sich unter digitalen Lehrformaten verändert (Grabowski & Pape, 2016). Dabei kann die Digitalisierung unterschiedlich auf einzelne Studierende wirken und von ihnen bewertet werden, z.B. in Abhängigkeit von ihren individuellen Bedürfnissen und Potenzialen (Breitenbach, 2021). Durch die erweiterte Verfügbarkeit und Erreichbarkeit von digitalen Inhalten entfallen bspw. festgelegte zeitliche Strukturen, was sich für manche Studierende positiv auf ihr Zeitmanagement und Gefühle der Selbstbestimmung auswirken kann. Andere Studierende leiden dagegen unter dem Wegfall eigentlich vorgegebener Strukturen und zeigen ein verstärktes Aufschiebeverhalten (Prokrastinationsambulanz der PTA der WWU, 2020). Insbesondere bei mangelnder sozialer Eingebundenheit durch die Reduktion des persönlichen Kontakts zu anderen Studierenden und der Lehrperson kann es zudem zu einer im Vergleich zu Präsenzveranstaltungen geringeren Motivation (Schmitz et al., 2021) und daher oberflächlicheren Beschäftigung mit den Lehrinhalten kommen. Item 9 erfasst in einem Mehrfachauswahl-Format die konkreten Auswirkungen des digitalen Formats auf das Lernverhalten. Die Angaben auf diesem Item sollen die Lehrperson sowie den Steuerungseinheiten des Fachs frühzeitig das Ausmaß dieser möglichen positiven und negativen Konsequenzen des gewählten digitalen Formats sichtbar machen, um bei Bedarf in kommenden Semestern mit entsprechenden Formatänderungen oder Zusatzangeboten reagieren zu können.

Skalenentwicklung

Itemkonstruktion und Itemselektion

Die Testentwicklung begann im April 2020 und wurde von drei Mitarbeiterinnen des Evaluationsteams des Fachs Psychologie der WWU Münster durchgeführt. Die Entwicklung erfolgte hauptsächlich nach einer deduktiven Testkonstruktionsstrategie. Basierend auf den im Theorieteil beschriebenen Überlegungen wurden zunächst 25 initiale Itemvorschläge generiert, sodass jeder der oben angesprochenen Aspekte digitaler Lehre durch mehrere (2-3) alternative Items abgedeckt wurde. Daraufhin fand ein Austausch im Evaluationsteam des Fachs Psychologie an der WWU Münster statt, bei dem redundante und unverständliche Items gestrichen, sowie mehrdeutige Itemformulierungen präzisiert wurden. Dabei wurde das Ziel verfolgt, die relevanten Qualitätsmerkmale von digitaler Lehre möglichst repräsentativ abzubilden, gleichzeitig aber eine ökonomische Erhebung mit maximal 10 Items sicherzustellen. In Gesprächen mit der Fachdekanin und mit Dozierenden, die wichtige Perspektiven aus der Sicht von Steuerungseinheiten bzw. Lehrenden ergänzten, entstand durch weitere Präzisierung der Itemtexte die erste Version des Zusatzmoduls mit 10 Items. Im Sommersemester 2020 (Juni 2020) wurde diese erste Version des Zusatzmoduls in der regulären Lehrevaluation im Fach Psychologie der WWU Münster erstmalig eingesetzt. Diese erste Version unterschied sich von der oben vorgestellten finalen Version des Fragebogens (Tabellen 1 und 2) dahingehend, dass drei der Rating-Items „negativ“ formuliert waren, in dem Sinne, dass bei diesen drei Items eher niedrigere Werte wünschenswert waren: Item 4 lautete in der ersten Version „Im Gegensatz zu einer Präsenzveranstaltung gingen durch die Digitalisierung Lerninhalte verloren“, Item 5 lautete „Für die Reflexion der Veranstaltungsinhalte fehlte mir der persönliche Austausch mit anderen Studierenden“ und Item 7 lautete „Durch die technische Umsetzung der Veranstaltung hatte ich zusätzlichen Aufwand“.

Die Daten aus dem Sommersemester 2020 wurden genutzt, um eine psychometrische Überprüfung durchzuführen. Obwohl das zu messende Konstrukt sich nicht sinnvoll in Subfacetten unterteilt und somit die Dimensionalität des Instruments zweitrangig ist, wurde dabei auch eine explorative Faktorenanalyse durchgeführt, um etwaige Redundanzen oder unerwartete Clusterungen der Items zu entdecken (Maximum Likelihood Faktorenanalyse mit Oblimin-Rotation). Die Ergebnisse dieser EFA deuteten Probleme mit den drei negativ formulierten Items an: Obwohl die drei Items inhaltlich unterschiedliche Aspekte der digitalen Lehre betrafen, luden sie auf demselben Faktor, was den Verdacht eines Methodenfaktors durch die negative Formulierung genau dieser drei Items nahelegte. Deshalb wurden dem Fragebogen zunächst die in Tabelle 2 genannten „positiv“ formulierten Items 4, 5 und 7 als zusätzliche Items hinzugefügt. Im Wintersemester 2020/21 und Sommersemester 2021 wurde dieses 13-Item-Instrument in der regulären Lehrevaluation eingesetzt. Eine explorative Faktorenanalyse anhand dieser Daten legte nahe, dass die positiven Formulierungen der ehemals negativen Items die Faktorstruktur veränderten. Dies bestärkte den Verdacht eines Methodenfaktors, dem seit dem Wintersemester 2021/22 dadurch begegnet wird, dass die negativ formulierten Items gestrichen und die positiv formulierten Items wie in Tabelle 2 angegeben in die Itemreihenfolge einsortiert wurden. Bei Interesse sind die Ergebnisse der Faktorenanalyse der ursprünglichen Version aus dem Sommersemester 2020, sowie der Faktorenanalyse der hier dokumentierten Version, im Anhang verfügbar.

Stichproben

Die in Tabellen 1 und 2 aufgeführten Items des Zusatzmoduls digitale Lehre wurden im Wintersemester 2020/21 und im Sommersemester 2021 in der regulären Lehrevaluation aller Lehrveranstaltungen des Fachs Psychologie der WWU Münster eingesetzt. Die Lehrevaluation wird jeweils am Ende der Vorlesungszeit eines Semesters durchgeführt. Als Evaluationssoftware wird dabei eine am Fach Psychologie der WWU entwickelte Online-Plattform genutzt, die aus einer PHP-Weboberfläche mit hinterliegender MySQL-Datenbanken besteht (Haaser et al., 2007). Für alle hier berichteten Analysen wurden Daten aus dem Wintersemester 2020/21 und dem Sommersemester 2021 verwendet. In diesen zwei Semestern wurden insgesamt 5,154 Evaluationen erhoben. Da die zur Evaluation genutzte Software die demographischen Daten eines Studierenden pro Anmeldung im System speichert und bei jeder Anmeldung beliebig viele Veranstaltungen evaluiert werden, können die demographischen Statistiken nur näherungsweise berechnet werden. Um doppelte Evaluationen derselben Veranstaltungen von einer Person sowie absichtlich falsche Angaben zu minimieren, können die Studierenden im Anschluss an jede Evaluation im Selbstausschluss angeben, ob ihre Angaben sinnvoll sind und zur Datenauswertung verwendet werden können. Zu den hier analysierten Daten liegen demografische Angaben zu 3,895 teilnehmenden Studierenden vor. 603 Studierende (15.5%) waren männlich, 3,209 weiblich (82.4%), und 83 (0.02%) machten keine Angabe zu ihrem Geschlecht. Die Teilnehmenden waren zwischen 17 und 67 Jahre alt (M = 23.08; SD = 3.61). 39.1% studierten im Lehramt, 34% im Bachelorstudiengang Psychologie,18.4% im Masterstudiengang Psychologie, 1.3% studierten Psychologie als Nebenfach und 7.3% gaben an, dass sie „sonstige“ Studiengänge studierten. Die Studierenden befanden sich zwischen dem 1. und dem 20. Fachsemester (M = 3.27, SD = 2.26).

Itemanalysen

Alle hier berichteten Analysen wurden mit der Software R (R Core Team, 2022; Version 4.2.0), dem R-Paket psych (Revelle, 2022; Version 2.2.5) und dem R-Paket lme4 (Bates et al., 2015; Version 1.31) durchgeführt. Die Items sind so konstruiert, dass sie jeweils verschiedene Aspekte der Wahrnehmung digitaler Lehre erfassen und sind daher nicht homogen (sondern Manifestationen unterschiedlicher latenter Konstrukte). Darum wird auch keine den Items zugrunde liegende Faktorstruktur erwartet. Tabelle 3 stellt die Korrelationen der Items untereinander dar.

Tabelle 3

Interkorrelationen der Items mit Rating-Skala (Items siehe Tabelle 2; N = 5,154)

	Item 3	Item 4	Item 5	Item 6	Item 7
Item 3
Item 4	.45
Item 5	.32	.39
Item 6	.38	.33	.45
Item 7	.31	.38	.26	.35
Item 8	.38	.30	.24	.28	.21

Anm. Items mit 7-stufiger Ratingskala von 1 („stimme gar nicht zu“) bis 7 („stimme vollkommen zu“) als Antwortformat.

Itemkennwerte

Tabelle 4 zeigt deskriptive Statistiken der sechs Items mit Ratingskala (Tabelle 2). Die Mittelwerte der Itemantworten sind in den hier genutzten Daten tendenziell sehr hoch. Die Verteilungen aller Items sind linksschief und insbesondere keine Normalverteilungen, wie sich an den Werten von Schiefe und Exzess Kurtosis erkennen lässt (West et al., 1995). Diese Form der Verteilungen ist aus inhaltlicher Sicht plausibel und erwartbar: Beispielsweise reflektiert die stark linksschiefe Verteilung von Item 8 („Der/die Lehrende war gut genug erreichbar“) die Tatsache, dass die meisten Dozierenden eine schnelle und reibungslose Kommunikation mit den Studierenden schätzen und entsprechend umsetzen, und dass dies von den Studierenden wahrgenommen wird. Gleichzeitig zeigen die Standardabweichungen zwischen 1 und 1.91, dass die Items trotz der hohen mittleren Ausprägungen Unterschiede in den Studierendenwahrnehmungen (und Unterschiede in der Erreichbarkeit verschiedener Dozierender) abbilden. Wenn das Instrument in Populationen eingesetzt wird, in denen niedrigere Item-Mittelwerte erwartet bzw. beobachtet werden, dann kann mit einer Annäherung an die Normalverteilung gerechnet werden. Für die hier genutzten Daten implizieren die Abweichungen von der Normalverteilung, dass die im Anhang berichteten EFA-Ergebnisse unter Vorbehalt interpretiert werden sollten. Dies stellt allerdings kein Problem für die durch die EFA-Ergebnisse motivierten Entscheidungen im Rahmen der Testkonstruktion (siehe oben) dar, da die Revision der negativ formulierten Items auch aus inhaltlicher Sicht sinnvoll erscheint, und eine Bildung von Subskalen auf Basis der EFA-Faktoren nicht vorgesehen war und nicht empfohlen wird.

Tabelle 4

Mittelwerte (M), Standardabweichungen (SD), Schiefe und Exzess Kurtosis für die Items mit Rating-Skala (Items siehe Tabelle 2; N = 5,154)

	M	SD	Schiefe	Exzess Kurtosis
Item 3	6.23	1.00	-1.68	3.63
Item 4	5.79	1.35	-1.29	1.36
Item 5	4.48	1.91	-0.26	-1.16
Item 6	5.85	1.26	-1.30	1.59
Item 7	5.91	1.47	-1.49	1.55
Item 8	6.29	1.06	-1.96	4.38

Anm. Items mit 7-stufiger Ratingskala von 1 („stimme gar nicht zu“) bis 7 („stimme vollkommen zu“) als Antwortformat.

Da die hier genutzten Daten eine genestete Struktur aufweisen (Evaluationen einzelner Studierender genestet in den evaluierten Lehrveranstaltungen), ist es möglich, die in Tabelle 4 dargestellten Standardabweichungen in zwei Bestandteile zu zerlegen. Sie setzen sich aus der Unterschiedlichkeit der Veranstaltungen (SD_zwischen) und der Unterschiedlichkeit der Evaluationen von verschiedenen Studierenden innerhalb der Veranstaltungen (SD_innerhalb) zusammen. Diese zwei Varianzanteile sind pro Item in Tabelle 5 dargestellt. Sie sind ggf. bei geplanter Anwendung des Fragebogens im Kontext der Lehrevaluation interessant. Dabei sollte berücksichtigt werden, dass die hier berichteten Varianzanteile stark stichprobenabhängig sind, da sie insbesondere vom Grad der Homogenität der betrachteten Lehrveranstaltungen im Fach Psychologie der WWU Münster abhängen. Die in Tabelle 5 berichtete Aufschlüsselung der Gesamtstreuung wurde pro Item mit einer Random-Intercept-Only Multilevel-Analyse bestimmt. Die Intraklassen-Korrrelation ICC beschreibt den Anteil der Varianz zwischen Veranstaltungen an der Gesamtvarianz. Ferner ist der Modellvergleich des Random-Intercept-Only-Modells mit einem Fixed-Intercept-Only-Modell über die Differenz der AICs dargestellt. AIC-Differenzen über 10 sprechen für einen bedeutsamen Unterschied zwischen den zwei betrachteten Modellen (Burnham & Anderson, 2004) und deuten in diesem Kontext also darauf hin, dass sich die Lehrveranstaltungen im Hinblick auf die mittleren Itemantworten unterscheiden. In den vorliegenden Daten galt für alle Items ΔAIC > 10, d.h. die Items differenzierten bedeutsam zwischen den Veranstaltungen.

Tabelle 5

Varianzaufteilung der Items mit Rating-Skala (Items siehe Tabelle 2)

	SD_innerhalb	SD_zwischen	ICC	ΔAIC
Item 3	0.96	0.30	.09	175.80
Item 4	1.30	0.38	.08	106.85
Item 5	1.71	0.79	.18	654.89
Item 6	1.20	0.37	.09	103.21
Item 7	1.41	0.41	.08	152.40
Item 8	0.98	0.41	.15	360.12

Anm. Items mit 7-stufiger Ratingskala von 1 („stimme gar nicht zu“) bis 7 („stimme vollkommen zu“) als Antwortformat.

SD_innerhalb = Standardabweichung der Level-1-Residuen im Random-Intercept-Only-Modell.

SD_zwischen= Standardabweichung der Random Intercepts im Random-Intercept-Only-Modell.

ICC = Quotient aus der Random-Intercept-Varianz und der Gesamtvarianz.

ΔAIC = Differenz vom AIC des Random-Intercept Modells und dem AIC des Fixed-Intercept Modells.

Gütekriterien

Objektivität

Da die Befragung online stattfindet und die Instruktionen sowie die Präsentation der Items standardisiert erfolgen, ist die Durchführung objektiv. Die Auswertungsobjektivität der Items mit Rating-Format sowie der Items mit Mehrfachwahl-Format ist durch die Standardisierung der Auswertung und die Zuweisung eindeutiger numerischer Messwerte zu den Antwortoptionen gegeben. Von einer hohen Interpretationsobjektivität kann aufgrund der Rückmeldung eindeutiger Werte auf einer leicht verständlichen Skala ausgegangen werden.

Reliabilität

Da die Items nicht dasselbe Konstrukt messen, sind sowohl die interne Konsistenz als auch die Testhalbierungs-Reliabilität aus inhaltlicher Sicht keine sinnvollen Maße zur Bestimmung der Reliabilität. Aus Gründen der Transparenz sei dennoch Cronbachs Alpha für die Ratingskalen-Items (Tabelle 2) berichtet, welches α = .73 beträgt. Auch eine Bestimmung der Retestreliabilität ist im Rahmen der anonymen studentischen Veranstaltungskritik nicht möglich.

Validität

Die Inhaltsvalidität des Fragebogens wurde während der Entwicklung wiederholt von Expert:innen (Mitglieder des Evaluationsteams, in die Entwicklung involvierte Dozierende, Fachdekanin des Fachbereichs) überprüft. Dabei wurde bei der Zusammenstellung der Items darauf geachtet, die verschiedenen relevanten Aspekte der digitalen Lehre in hinreichender Breite durch die Items abzudecken. Die einzelnen Items wurden zudem dahingehend optimiert, dass sie jeweils einen spezifischen Aspekt der digitalen Lehre in möglichst eindeutiger und durch die Lehrperson gut interpretierbarer Weise abfragen.

Zur Überprüfung der Konstruktvalidität wurden die Daten aus den in den Evaluationen eingesetzten Kernfragebögen (MFE-Sr für Seminare und MFE-Vr für Vorlesungen) hinzugezogen. Diese Kernfragebögen werden in der Lehrevaluation jeder Veranstaltung eingesetzt. Für die im Folgenden dargestellten Validitätsanalysen wurden aus den Kernfragebögen die Skalen „Dozent:in & Didaktik“, „Überforderung“, „Teilnehmende“ und „Materialien“, sowie Items zu der Qualität eingesetzter Methoden, dem subjektiven Lernerfolg, der Überforderung durch Zeitaufwand und der Bereitschaft, die Veranstaltung weiterzuempfehlen verwendet. Diese Skalen bzw. Items lauten wie folgt: Die Skala „Dozent:in & Didaktik“ wird als Mittelwert von sechs Items berechnet und bildet die Beurteilung der Qualität des Lehrverhaltens ab (Items dieser Skala: „Ich habe durch die Veranstaltung einen guten Überblick über die behandelten Themengebiete bekommen“, „Der/Die Lehrende benutzte oft Beispiele, die mein Verständnis der Lehrinhalte gefördert haben“, „Ich finde, der/die Lehrende ging auf Fragen und Anregungen der Studierenden angemessen ein“, „Ich finde, der/die Lehrende hat das Thema interessant aufgearbeitet“, „Ich konnte im Verlauf der Veranstaltung die Gliederung immer nachvollziehen“, „Ich finde, der/die Lehrende teilte die zur Verfügung stehende Zeit gut ein“; jeweils beantwortet auf derselben 7-stufigen Ratingskala wie die in Tabelle 2 dargestellten Items). Die Skala „Überforderung“ ist der Mittelwert aus drei Items und stellt die wahrgenommene Forderung durch die Veranstaltung dar („Ich fühle mich durch die Inhalte des Seminars...“, „Ich fühle mich durch das Tempo der Stoffvermittlung...“, „Ich fühle mich durch den mit dem Seminar verbundenen Zeitaufwand...“; jeweils 7-stufige Ratingskala von 1 = „sehr unterfordert“ über 4 = „angemessen gefordert“ zu 7 = „sehr überfordert“). Die Skala „Teilnehmende“ wird nur in Seminaren (MFE-Sr) erhoben. Sie besteht aus zwei Items und spiegelt das Urteil über das Engagement der Kommiliton:innen in der Veranstaltung wider („Die meisten Teilnehmenden waren gut auf die einzelnen Termine vorbereitet“, „Die meisten Teilnehmenden brachten sich aktiv ein“; 7-stufige Ratingskala wie die Items in Tabelle 2). Die Skala „Materialien“ besteht aus zwei Items und erfasst das Urteil über die wahrgenommene Nützlichkeit der zur Verfügung gestellten Materialien für die Lernziele der Veranstaltung („Die im Seminar verwendeten Methoden (z. B. Diskussion, Textarbeit, Rollenspiel) trugen zum Verständnis der Inhalte bei“, „Die im Rahmen des Seminars verwendeten Materialien (Folien, Filme, Skizzen, etc.) trugen zum Verständnis der Inhalte bei“; 7-stufige Ratingskala wie die Items in Tabelle 2). Das in letzterer Skala enthaltene Item „Methoden“ wurde in den folgenden Validitätsanalysen zusätzlich als Einzelitem betrachtet („Die im Seminar verwendeten Methoden (z. B. Diskussion, Textarbeit, Rollenspiel) trugen zum Verständnis der Inhalte bei“). Der subjektive Lernerfolg wird mit einem Item erfasst („Ich habe in der Veranstaltung viel gelernt“; 7-stufige Ratingskala wie die Items in Tabelle 2). Das Item „Überforderung durch Zeitaufwand“ aus der Skala „Überforderung“ wurde zusätzlich als einzelnes Item hinzugezogen („Ich fühle mich durch den mit dem Seminar verbundenen Zeitaufwand...“ – 1 = „sehr unterfordert“ bis 7 = „sehr überfordert“). Schließlich wird die Bereitschaft zur Weiterempfehlung mit einem dichotomen Item erhoben („Ich würde dieses Seminar anderen Studierenden weiterempfehlen“ mit Antwortoptionen „Ja“ und „Nein“).

Um die konvergente und divergente Konstruktvalidität des Fragebogens MFE-ZdL zu prüfen, wurden die sechs Items mit Ratingskala fokussiert (Tabelle 2). Diese Items bilden verschiedene Aspekte der digitalen Lehre ab. Für jeden dieser Aspekte formulierten zwei der Testautor:innen unabhängig voneinander Hypothesen über die laut nomologischem Netzwerk erwartbaren Zusammenhänge zwischen dem jeweiligen Item und den Skalen und Items des Kernfragebogens. In einem zweiten Schritt wurden diese Hypothesen diskutiert und nur die konsensuell erwarteten Korrelationen (konvergente Validität) bzw. Nullkorrelationen (divergente Validität) schriftlich als Erwartungen festgehalten. Pro Item entstanden dabei zwischen einer und drei Erwartungen im Sinne der konvergenten Validität (grün hinterlegte Zellen) und jeweils zwei bis drei Erwartungen zur Überprüfung der divergenten Validität (gelb hinterlegte Zellen). Die empirisch beobachteten Korrelationen sind in Tabelle 6 dargestellt.

Tabelle 6

Konvergente und divergente Validität: Korrelationen mit verwandten (grün hinterlegt) und unverwandten (gelb hinterlegt) Items und Skalen (N = 5,154)

	Item 3 Passung	Item 4 Lerninhalte	Item 5 Reflektion	Item 6 Zusammenarbeit	Item 7 Kein Mehraufwand	Item 8 Erreichbar
D & D^a	.59	.40	.33	.35	.32	.47
Überforderung	-.20	-.12	-.19	-.20	-.26	-.13
Teilnehmende	.36	.20	.33	.35	.20	.23
Materialien	.57	.35	.26	.29	.24	.35
Methoden	.55	.29	.34	.35	.30	.31
Lernerfolg	.48	.31	.26	.26	.22	.29
Überf. (Zeit)^b	-.18	-.09	-.13	-.14	-.25	-.11
Weiterempfehlung	.10	.06	.05	.00	.05	.05

Anm. ^aD & D =Dozent:in & Didaktik

^bÜberf. (Zeit) =Überforderung durch Zeitaufwand

Die Items weisen überwiegend mittlere bis hohe Zusammenhänge zu verwandten Konstrukten (grün hinterlegt) auf, was als Nachweis konvergenter Validität betrachtet werden kann. Die Korrelationen mit unverwandten Konstrukten (gelb hinterlegt) fallen niedriger aus, sind jedoch nach Konvention von Cohen (1992) immer noch als geringe bis mittlere Zusammenhänge zu interpretieren. Dies könnte dafürsprechen, dass Studierende ihr Gesamturteil über die Veranstaltung in die Beantwortung der Items einfließen lassen, die sich auf spezifische Aspekte der Lehre beziehen.

Um dieses unspezifische Gesamturteil aus den Korrelationen herauszurechnen, haben wir die Zusammenhänge nochmals als Partialkorrelationen, unter Kontrolle für die Skala „Dozent:in & Didaktik“ berechnet. Diese Skala des Kernfragebogens erfasst die Qualität der Lehrweise und des Dozent:innenverhaltens und ist somit ein guter Indikator für den Gesamteindruck der Studierenden. Die Partialkorrelationen mit verwandten Konstrukten (grün hinterlegt) und mit unverwandten Konstrukten (gelb hinterlegt) sind in Tabelle 7 dargestellt.

Wie in Tabelle 7 ersichtlich wird, lassen sich durch den Gesamteindruck einer Veranstaltung und deren didaktischer Umsetzung die Zusammenhänge mit den theoretisch unverwandten Items und Skalen nahezu perfekt erklären. Die Auspartialisierung führt zudem erwartungsgemäß zu geringeren Korrelationen mit verwandten Konstrukten. In den meisten Fällen reduzieren sich diese Zusammenhänge allerdings nicht auf oder nahe Null, sodass die konvergente Konstruktvalidität weiterhin – auch bei Berücksichtigung der gemeinsamen Zusammenhänge mit dem Gesamteindruck der Veranstaltung – empirisch gestützt wird. Eine Ausnahme bildet das Item 4 (Lerninhalte vollständig vermittelt), welches nicht über die allgemeine Wahrnehmung der Veranstaltung hinaus mit dem Lernerfolg oder der Bereitschaft zur Weiterempfehlung korrelierte. Es scheint somit keinen Aspekt der Lehre zu erfassen, der spezifisch für die digitale Umsetzung ist. Das Item könnte daher, insbesondere bei gleichzeitigem Einsatz der „Dozent:in & Didaktik“ Skala, zwecks einer ökonomischen Befragung aus dem MFE-ZdL entfernt werden.

Tabelle 7

Konvergente und divergente Validität: Partialkorrelationen mit verwandten (grün hinterlegt) und unverwandten (gelb hinterlegt) Items und Skalen bei Kontrolle für Dozent:in & Didaktik (N = 5154)

	Item 3 Passung	Item 4 Lerninhalte	Item 5 Reflektion	Item 6 Zusammenarbeit	Item 7 Kein Mehraufwand	Item 8 Erreichbar
Überforderung	-.02	.00	.21	-.10	-.17	.03
Teilnehmende	.12	.02	.21	.23	.06	.01
Materialien	.27	.10	.04	.06	.02	.03
Methoden	.26	.03	.17	.17	.11	-.02
Lernerfolg	.13	.06	.04	.02	.00	-.06
Überf. (Zeit)^a	-.02	.02	-.04	-.05	-.18	.03
Weiterempfehlung	.02	.01	.01	-.06	.00	-.03

Anm. ^aÜberf. (Zeit) =Überforderung durch Zeitaufwand

Deskriptive Statistiken (Normierung)

Deskriptive Statistiken für die Rating-Items des Fragebogens (Tabelle 2) werden in Tabelle 4 präsentiert. Beim Einsatz des Fragebogens in zukünftigen Evaluationen sind Vergleiche zu den in Tabelle 4 gezeigten Statistiken allerdings nur bedingt aussagekräftig, da diese Daten eine sehr spezifische Population von Veranstaltungen beschreiben (Fach Psychologie; Universität Münster mit ggf. universitätsspezifischen technischen Implementierungen der digitalen Elemente; Datenerhebung im ersten Jahr der COVID-19 Pandemie). Eine allgemeine Normierung des Instruments ist nicht vorgesehen. Beim Einsatz des Instruments in der Lehrevaluation an anderen Universitäten bzw. Fachbereichen wird empfohlen, in der Dozierendenrückmeldung die Itemmittelwerte der entsprechenden Veranstaltung im Vergleich zum Gesamtmittelwert über alle weiteren, in Format und Inhalt ähnlichen, Veranstaltungen darzustellen.

Nebengütekriterien

Das Zusatzmodul digitale Lehre ermöglicht eine sehr zeit- und kostenökonomische Erfassung der studentischen Wahrnehmung verschiedener Aspekte der digitalen Lehre. Die Durchführungsdauer wird von den Autor:innen auf ein bis zwei Minuten geschätzt und ist somit für die teilnehmenden Studierenden zumutbar. Einer Verfälschung der Antworten wird durch die Zusicherung von Anonymität sowie die Möglichkeit zum Selbstausschluss am Ende der Befragung entgegengewirkt.

Kontakt

Oberhoff, L., Mühlinghaus, R., Kegel, K., Humberg, S.

Dazugehörige Publikationen