Diagnostik

Pädagogische Diagnostik: Wie kann ich den Leistungsstand meiner Schülerinnen und Schüler effektiv erfassen?

Zur Vermittlung von Lerninhalten im Schulalltag gehört immer auch die Überprüfung des tatsächlich erreichten Wissensstandes von Schülerinnen und Schülern. Diese alltägliche Leistungsdiagnostik, z.B. in Form von Klassenarbeiten, Referaten oder bewerteten Hausaufgaben, kennt jeder aus der eigenen Schulzeit. Eine derartige Erfassung von Leistungen ist sowohl für eine faire Bewertung als auch für die individuelle Rückmeldung der Lernergebnissean die Schülerinnen und Schüler unerlässlich. Gleichzeitig ist sie auch für die Lehrkraft von Bedeutung, um den eigenen Unterricht zu evaluieren und die Ergebnisse in der Planung zukünftiger Lerneinheiten zu berücksichtigen (z.B. um Wiederholungsbedarf zu identifizieren).

Bei der hohen Anzahl von Schülerinnen und Schülern im Schulalltag ist es schwer, stets den Überblick zu behalten und die Fähigkeiten aller Kinder richtig einzuschätzen. Umso wichtiger ist es für (angehende) Lehrkräfte, sich mit den Voraussetzungen einer systematischen und hochwertigen Leistungserfassung vertraut zu machen. Nur so können die selbst gewählten Prüfungsformen angemessen bewertet und theoriegeleitet optimiert werden.
Diese Übersicht bietet einen Einstieg in die wichtigsten Grundlagen, die Lehrkräfte in der alltäglichen Praxis der Leistungserfassung berücksichtigen sollten.

Ziele von Leistungsdiagnostik im Schulkontext

Zunächst sollte klar definiert werden, welches Ziel mit einer Leistungserfassung verfolgt wird. Auch wenn man im Rahmen einer Leistungsprüfung immer etwas über den Leistungsstand einer Person oder einer Gruppe erfahren möchte, so kann man die erhobenen Informationen für verschiedene Zwecke nutzen und entsprechend verschiedene diagnostische Strategien unterscheiden. Im Schulkontext gibt es einige typische Fälle der Datenverwertung:
Zum einen kann eine individuelle Bewertung der aktuellen Leistung vorgenommen werden (Statusdiagnostik), beispielsweise um Noten zu vergeben. Auch die Erfassung eines individuellen Leistungsverlaufs zur differenziellen Rückmeldung über einen bestimmten Zeitraum kann angestrebt werden (Prozessdiagnostik). In beiden Fällen ist zu entscheiden, ob der relative Leistungskontext der Klasse, Altersgruppe oder Schule etc. eine Rolle spielen oder nur die absolute Kompetenz des einzelnen Schülers im Fokus stehen soll. Eine weitere typische Situation ist die Auswahl von Schülerinnen und Schülern (Selektionsdiagnostik), die beispielweise in ein Förderunterrichtsprogramm oder ein Exzellenzprogramm aufgenommen werden sollen. Im Regelfall sind Kapazitäten solcher Programme begrenzt, weshalb eine gezielte Identifikation geeigneter Schülerinnen und Schüler notwendig ist. Hier kann eine spezifisch geplante Diagnostik helfen, die richtigen Entscheidungen zu treffen.

Anforderungen an gute Methoden zur Leistungserfassung

Weitgehend unabhängig von dem konkreten Ziel der Leistungsüberprüfung gibt es in der psychologischen Diagnostik drei Hauptgütekriterien, anhand derer man die Qualität eines Testverfahrens und die daraus resultierenden Befunde bewerten kann. Gemäß dieser Kriterien müssen gute diagnostische Erhebungsmethoden (1) valide, (2) reliabel und (3) objektiv sein. Doch was bedeutet das?

Die Validitätist das wichtigste Merkmal und bezeichnet die Eigenschaft eines Tests, tatsächlich das zu messen, was zu messen beabsichtigt ist. Wenn beispielsweise die Kenntnisse der Bruchrechnung überprüft werden sollen, so muss der Test auch den gesamten interessierenden Bereich der Bruchrechnung (und nur diesen) abprüfen, um eine inhaltlich korrekte Aussage über die Bruchrechenfähigkeiten der Schülerinnen und Schüler zu erlauben. Dies wird umso schwieriger, je breiter der Bereich bzw. das Merkmal ist, das man erfassen möchte. Will man beispielsweise eine Aussage über die allgemeinen mathematischen Fähigkeiten eines Lernenden treffen, so werden die Konzeption des Tests und die Auswahl der Aufgaben deutlich komplexer. Hier muss nämlich zuvor genau definiert werden, was man unter ‚allgemeinen mathematischen Fähigkeiten‘ versteht, um später eine richtige Einordnung der Ergebnisse zu ermöglichen.

Die Reliabilität bezeichnet dagegen die Genauigkeit, mit der ein Test das zu erfassende Merkmal tatsächlich misst. Ein Test, der z.B. zu verschiedenen Zeitpunkten und somit unter verschiedenen Umständen bei gleichbleibender Ausprägung der Fähigkeit zu einem sehr ähnlichen Ergebnis führt, gilt als reliabel im Sinne der Stabilität der Merkmalsmessung. Diese Form der Messgenauigkeit kann man auch mit einer Waage vergleichen: Nur wenn keine bedeutenden Schwankungen in der Genauigkeit der Messung vorliegen, kann man z.B. einen Gewichtsverlauf korrekt abbilden. Wäre die Waage hingegen kaputt und zufällig mehr oder weniger Gewicht anzeigen als tatsächlich vorliegt, wäre die Messung wertlos. Vergleichbar verhält es sich auch mit der Leistungsmessung von Schülerinnen und Schülern. Diese sollten bei angenommener gleich bleibender Kompetenz auch im Test gleichbleibende Werte erzielen. Nur so kann eine Veränderung der Testergebnisse auf einen Lernerfolg, z.B. durch den Unterricht, und nicht nur auf zufällige Schwankungen zurückgeführt werden. Eine Messung der Reliabilität über verschiedene Messzeitpunkte ist im Schulalltag aus ökonomischen Gründen natürlich nicht umsetzbar. Generell kann man aber sagen, dass sich die Reliabilität mit einer höheren Anzahl an Testaufgaben erhöht. Darüber hinaus spielt die so genannte ‚interne Konsistenz‘ der Aufgaben als eine weitere Eigenschaft der Reliabilität eine wichtige Rolle. Damit ist gemeint, dass alle eingesetzten Aufgaben nur die interessierende Eigenschaft messen und somit weitgehend homogen sind. Es sollten also keine Aufgaben hinzugenommen werden, die für die zu messende Leistung unbedeutend sind. Dabei ist allerdings zu beachten, dass eine zu hohe Homogenität von Testaufgaben der Validität schaden kann, nämlich wenn die Breite des Leistungsbereichs nicht ausreichend erfasst wird (Reliabilitäts-Validitäts-Dilemma).

Schließlich ist noch die Objektivität eines Tests von Bedeutung. Damit ist gemeint, dass die Ergebnisse des Tests weitgehend unabhängig von der konkreten Situation der Durchführung (Durchführungsobjektivität) sowie der individuellen Auswertung und Interpretation der Ergebnisse durch eine bestimmte Lehrkraft (Auswertungsobjektivität) sein sollten. Ein objektiver Test sollte also gewährleisten, dass verschiedene Personen in verschiedenen Situationen zu einer vergleichbaren Einschätzung der vorliegenden Leistung kommen.
Von diesen Gütekriterien lässt sich ableiten, dass vor allem wohldurchdachte, schriftliche Tests geeignet sind, um die Anforderungen zufriedenstellend zu erfüllen. Schriftliche Tests können als so genannte standardisierte Verhaltensbeobachtungen interpretiert werden, da sie formal gesehen für alle Schülerinnen und Schüler die gleiche Ausgangssituation bieten. Bei entsprechender Sorgfalt der thematischen Auswahl und Konstruktion von Aufgaben können schriftliche Tests sehr valide sein. Die Darstellung der Fragen in schriftlicher Form und eine festgelegte zeitliche Bearbeitungsgrenze sorgen im Regelfall dafür, dass schriftliche Tests besonders objektiv in der Durchführung sind. Auch die Auswertung und Interpretation kann durch geeignete Regeln der Punktevergabe weitgehend sichergestellt werden, insbesondere wenn z.B. Mehrfachwahlaufgaben (Multiple-Choice) mit vorgegebenen Antwortmöglichkeiten eingesetzt werden.
Im Vergleich dazu schneiden beispielsweise mündliche Prüfungen im Hinblick auf ihre Reliabilität (geringere Anzahl von Aufgaben sowie viele potenzielle Störeinflüsse) und Objektivität (Bewertung erfolgt zeitgleich mit der Leistungserbringung und ist somit für Verzerrungen anfällig) im Regelfall schlechter ab. Durch die Möglichkeit zur gezielten Nachfrage und der kohärent zu erbringenden Erklärung eines Sachverhalts durch die Schülerinnen und Schülerkönnen mündliche Prüfungen bei ausreichender Strukturierung aber durchaus eine gute Validität aufweisen.
Gemäß dieser Gütekriterien sollte man sich im Schulalltag für sämtliche Anwendungen der Leistungsmessung fragen, inwieweit die Standards zufriedenstellend erfüllt werden.

Einordnung von Testleistungen

Ein Punktewert in einem Test allein ist bedeutungslos. So ist es für die Interpretation der Leistung im Regelfall unerlässlich, diesen Wert geeignet zu referenzieren. Hierbei sind im Wesentlichen drei Vergleichsgrößen von Bedeutung: (1) Die Erreichung eines bestimmten inhaltlichen Kriteriums (Kriteriumsorientierte Diagnostik), (2) der Vergleich mit einer bedeutenden sozialen Vergleichsgruppe (Normorientierte Diagnostik) oder (3) ein Vergleich mit der eigenen Leistung zu einem anderen Zeitpunkt (Intraindividuelle Diagnostik). Das Referenzieren der Leistung anhand eines sachlich definierten, festen Kriteriums ist vor allem sinnvoll, wenn es darum geht, zu beurteilen, ob eine Leistung dem erwünschten Standard entspricht oder nicht (z.B. Zertifizierungen). Die Leistung anderer Personen ist hier nicht relevant. Wird dagegen im Verhältnis zu einer Vergleichsnorm bewertet, so misst man der relativen Leistung eines Schülers im Vergleich zu seiner sozialen Bezugsgruppe (z.B. Klassenkameraden) eine besonders hohe Bedeutung zu. Dies ist vor allem dann wichtig, wenn Schüler nach ihrer Leistungsfähigkeit quantitativ unterschieden werden sollen, z.B. im Zuge eines Auswahlprozesses. Gerade im Schulalltag lassen sich diese beiden Formen der Referenz nicht immer eindeutig trennen, da oft eine Mischung aus zu erfüllenden Kriterien und einer Referenz zur Klassenleistung vorliegt. Eigene Leistungen als Vergleichsgröße innerhalb einer Person sind vor allem geeignet, um Lernentwicklungen abzubilden. Hierdurch kann unter anderem Frustration vermieden werden, z.B. wenn die Leistungsfähigkeit eines Kindes so gering ist, dass individuelle Verbesserungen im Vergleich zu anderen Schülerinnen und Schülern stets unauffällig bleiben. Ein Vergleich mit der eigenen vorherigen Leistung kann hier helfen, auch kleine Verbesserungen sichtbar zu machen und so die Lernmotivation zu stärken.

Verfahren zur Leistungsmessung

Als Lehrkraft ist man im Regelfall darauf angewiesen, seine Testaufgaben selbst zu erstellen. Dies ist gar nicht so leicht und bedarf einigen methodischen Wissens. Es ist deshalb sehr empfehlenswert, sich mit Richtlinien für die Erstellung von Testaufgaben näher zu beschäftigen. Insbesondere bei der Verwendung von Multiple-Choice (MC) Aufgaben gibt es einige Fallstricke, die zu bedenken sind (siehe z.B. auch Haladyna, 2002). Ein großer Vorteil von MC Aufgaben liegt darin, dass solche Tests schnell durchführbar und auswertbar sind und somit eine kurzfristige, effiziente Kontrolle des Leistungsstandes möglich ist. Selbstverständlich wird in Abhängigkeit von der Fragestellung auch der Einsatz von Freitextaufgaben, mündlichen Prüfungen und Beobachtungsverfahren oft sehr sinnvoll sein. Dies ist im Einzelfall zu entscheiden.
In manchen Situationen (z.B. diagnostische Selektionsentscheidungen) kann es sich lohnen, auf etablierte Schulleistungstests zurückzugreifen, die zur Erfassung spezifischer Teilleistungsbereiche professionell entwickelt wurden (z.B. Lese-Rechtschreib-Tests, Mathematik-Tests). Solche standardisierten Verfahren haben den Vorteil, dass sie eine hohe Validität, Reliabilität und Objektivität aufweisen und eine verlässliche Normierung bezogen auf die Altersgruppe bzw. Klassenstufe vorliegt. Die Anschaffung ist allerdings sehr teuer und steht somit oft in keinem angemessenen Verhältnis zum tatsächlichen Nutzen. Für spezifische diagnostische Einzelfallentscheidungen bezogen auf einzelne Schülerinnen und Schüler sollte daher eher auf spezialisierte psychologisch-diagnostische Praxen zurückgegriffen werden.

Zusammenfassung

Für den Schulalltag lässt sich festhalten, dass vor allem schriftliche Leistungstests bei sorgsamer Konstruktion den diagnostischen Anforderungen an Validität, Reliabilität und Objektivität gerecht werden können. Generell ist es ratsam, Testaufgaben anhand der gelehrten Inhalte strukturiert zu erstellen und dabei möglichst die gesamte Breite der zu testenden Leistung zu berücksichtigen. Eine hohe Anzahl an Testaufgaben, die sich ausschließlich auf die zu messende Leistung beziehen, ist optimal. Die Auswertung sollte anhand nachvollziehbarer Kriterien vorgenommen werden, die im Regelfall im Vorfeld schriftlich zu definieren sind. Weiterhin ist stets zu bedenken, welchem Zweck die Leistungsmessung dient und ob die Testergebnisse entsprechend normorientiert, kriteriumsorientiert oder individualorientiert zu referenzieren und interpretieren sind.

Weiterführende Literatur

Gage, N. L., Berliner, D. C., & Bach, G. (1996). Teil V: Messen und Bewerten. Pädagogische Psychologie (S. 581-671). Weinheim: Psychologische Verlags Union.
Haladyna, T. M., & Rodriguez, M. C. (2013). Developing and validating test items. New York: Routledge.
Ingenkamp, K. H. (2008). Lehrbuch der pädagogischen Diagnostik. Weinheim: Beltz.
Wilhelm, O., & Kunina, O. (2006). Pädagogisch-Psychologische Diagnostik. In Wild, E., & Möller, J. (Hrsg.), Pädagogische Psychologie (S. 308-331). Heidelberg: Springer.