BEAST: ein neues Trainingstool zur Bewertungskompetenz bei schriftlichen Texten

Wer bei der Bewertung von schriftlichen Lernertexten unsicher ist, kann mit endlosen Infragestellungen konfrontiert werden. Doch man möchte gern seinen Lernenden eine stimmige Bewertung bieten. Zu diesem Zweck entwickelten Forschende aus Deutschland (Leibniz-Institut für die Pädagogik der Naturwissenschaft und Mathematik, Christian-Albrechts-Universität zu Kiel) und aus der Schweiz (PH FHNW) im Rahmen des Projektes ASSET (Assessing Students‘ English Texts) ein webbasiertes Trainingstool zur Beurteilung englischsprachiger Texte. Dabei kann man das eigene Bewerten authentischer Essays einüben. Das CeDiLE hat es ausprobiert und gibt hier eine kurze Erklärung und ein Feedback zu seiner ersten Erfahrung mit diesem Online-Tool ab.

Was ist BEAST und was nützt es?

Das webbasierte Trainingstool BEAST ermöglicht es, die Beurteilung von vielen argumentativen Lernertexten (bzw. Essays) zu trainieren und strebt an, eine stimmigere Einschätzung der Schreibkompetenz auf der Sekundarstufe II zu erreichen. Die vorhandenen authentischen Texte stammen aus einem grossen Textkorpus (über 1000 Texte) und wurden von ca. 17-jährigen GymnasiastInnen verfasst. Das Tool BEAST wendet sich an alle Interessierten, die in Ihrem Alltag englischsprachige Texte beurteilen. Die Bewertung erfolgt anhand einer ,,holistischen“ (globalen) Skala von 0 bis 5 Punkten. Dies bedeutet, dass einem Text nur eine einzelne Punktzahl zugeordnet werden kann, die gewissen Textmerkmalen entspricht.

So läuft der Bewertungsprozess mit dem Trainingstool BEAST ab:
Nach einer kurzen Umfrage über seine persönlichen Angaben zu Forschungszwecken (z.B. seine Unterrichtsstufe; die Dauer seiner Unterrichtserfahrung; seine eigene Sprachkompetenz in Englisch) soll man in einem ersten Schritt fünf Texte nacheinander mit einigen Klicks bewerten. Dabei kann man mit einem ,,Marker“ Textabschnitte in verschiedenen Farben beliebig markieren (vermutlich zur Hilfe der Prüfenden bei der Bewertung). Wichtig ist auch, dass alle nötigen Informationen zur Aufgabe (Aufgabestellung und Beurteilungsskala) vor der Bewertung bereitgestellt werden. Nach dem ersten Versuch werden weitere Informationen über die einzelnen Stufen der Skala gegeben. Dabei wird erklärt, wie die Skala mit den Niveaus des gemeinsamen europäischen Referenzrahmens für Sprachen (GER) zusammenhängt. Da sollte man also mit dem GER vertraut sein. Anschliessend werden die Expertenurteile angezeigt, so dass man die von den ExpertInnen vergebenen Punkte mit seiner eigenen Beurteilung vergleichen kann. Durch das gleiche Verfahren können weitere Texte bewertet werden.

Holistische oder analytische Skalen? Was ForscherInnen sagen

Zur Beurteilung schriftlicher und mündlicher Leistungen werden oft entweder analytische Skalen (in welchen mehrere Aspekte, wie z.B. Wortschatz, Grammatik und Kohärenz, getrennt beurteilt werden) oder holistische Skalen (in welchen, wie bei BEAST, die Beurteilung verschiedener Aspekte durch eine einzige Punktzahl ausgedrückt wird) eingesetzt (Wolfe & Jiao, 2016). Aus der Fachliteratur zur Beurteilung schriftlicher und mündlicher Texte geht hervor, dass es keine ,,bessere“ Methode gibt; sei sie eher analytisch oder holistisch (vgl. Cumming, Kantor & Powers, 2002; Lumley, 2005).

Ein Vorteil holistischer Beurteilungen ist nach Barkaoui (2011), dass sie zu höherer Interrater-Reliabilität führen (d.h. die Urteile der Prüfenden stimmen besser überein). Aus Vogelin, Jansen, Keller, Machts & Moller (2019) geht hervor, dass Lehramtsstudierende hochwertige von eher minderwertigen Texten in holistischer Weise erfolgreich unterscheiden konnten.
Positiv an analytischen Methoden ist, dass sie eine detailliertere und vielschichtige Bewertung von Texten ermöglichen. Sie eignen sich besser für Lernende, die ungleiche Kompetenzen in verschiedenen Aspekten des Schreibens zeigen, und v.a. für unausgebildete Prüfende (Hamp-Lyons, 2003; Weigle, 2002).

Hingegen weisen Forschungsergebnisse auch Nachteile in beiden Methoden auf. Bei holistischen Skalen konnte festgestellt werden, dass Prüfende zwar ähnliche Scores vergaben, aber das Beurteilungskriterium der Skala unterschiedlich interpretierten (vgl. Harsch & Martin, 2013; Smith, 2000). Auch können holistische Skalen schwer zu interpretieren sein (Weigle, 2002).
Beim Einsatz analytischer Raster kann das Urteil einer Lehrperson durch den sog. ,,Halo-Effekt“ (Thorndike, 1920) verzerrt werden, d.h. ein besonderes Textmerkmal kann die Beurteilung der anderen Textmerkmale beeinflussen. So spielt für Prüfende, die Lernertexte analytisch beurteilen, die lexikalische Qualität der Texte eine wesentliche Rolle (vgl. Rezaei & Lovorn, 2010; Keller, Vögelin, Jansen, Machts & Möller, 2019; Vögelin & al., 2019).

Solche Erkenntnisse deuten auf die Wichtigkeit einer spezifischen Ausbildung der Beurteilungskompetenz bei Lehrenden hin (zur sog. „assessment literacy“ vgl. z.B . Hamp-Lyons, 2017 ; Tsagari & Vogt, 2017 ; White & Delaney, 2019).

Ein praktisches Tool mit Potenzial

Mit einer Grosszahl authentischer Texte von Lernenden und durch den Vergleich mit Beurteilungen von ExpertInnen kann die eigene Textbewertung gedrillt und verbessert werden. An diesem Punkt soll betont werden, dass holistische Skalen v.a. für die schnelle Beurteilung einer grossen Anzahl Texte sinnvoll sind. Für eine diagnostische Beurteilung, bei der es um Stärke-Schwäche-Analysen und allgemein um lernförderndes Feedback geht, ist eine holistische Skala fehl am Platz (zur Unterscheidung von Testfunktionen vgl. z.B. Studer, 2012; Fulcher, 2010). So bleibt das Fernziel des BEAST-Tools wohl die Verbesserung der Bewertungskompetenz.

Auch ist nicht immer klar, warum sich der von ExpertInnen vergebene Score von demjenigen des Benutzers unterscheidet: Warum sollte man diesem Text (den ExpertInnen gemäss) eine 4 statt eine 2 erteilen? Mit einer Begründung für den vergebenen Score könnten die Benutzer aus der Abweichung lernen und ihre Bewertungskompetenz ggf. verbessern.

Im Grossen und Ganzen ist das Konzept des Trainingstools BEAST interessant im Rahmen einer schnellen und globalen Evaluation vieler Texte von GymnasiastInnen . Klar ist aber auch, dass ein solches Tool eine differenzierte (auch analytische) Bewertung von Lernertexten durch die Lehrperson nicht ersetzen kann: Genauere Standortbestimmungen und gezielte Hinweise für das Weiterlernen sind auf Basis einer holistischen Bewertung nicht möglich.

Anyway, am besten sollte man das BEAST-Tool selber ausprobieren.

Literatur

Barkaoui, K. (2011). Effects of marking method and rater experience on ESL essay scores and rater performance. Assessment in Education: Principles, Policy & Practice, 18(3), 279–293.

Cumming, A., Kantor, R., & Powers, D. E. (2002). Decision making while rating ESL/EFL writing tasks: A descriptive framework. The Modern Language Journal, 86(1), 67–96.

Fulcher, G. (2010). Practical language testing. London, England: Hodder.

Hamp-Lyons, L. (2003). Writing teachers as assessors of writing. In B. Kroll (Ed.). Exploring the dynamics of second language writing, 162–189. Cambridge: Cambridge University Press.

Hamp-Lyons, L. (2017). Language assessment literacy for language-learning oriented assessment. Papers in Language Testing and Assessment, 6(1), 88-111.

Harsch, C. & Martin, G. (2013). Comparing holistic and analytic scoring methods: issues of validity and reliability. Assessment in Education: Principles, Policy & Practice, 20(3), 281-307, DOI: 10.1080/0969594X.2012.742422.

Keller, S.D., Vögelin, C., Jansen, T., Machts, N. & Möller, J. (2019). Can an instructional video increase the quality of English teachers’ assessment of learner essays? RISTAL, 2, 118–139.

Lumley, T. (2005). Assessing second language writing: The rater’s perspective. Frankfurt: Lang.

Rezaei, A., & Lovorn, M. (2010). Reliability and validity of rubrics for assessment through writing. Assessing Writing, 15(1), 18-39.

Smith, D. (2000). Rater judgments in the direct assessment of competency-based second language writing ability. In G. Brindley (Ed.) Studies in immigrant English language assessment Vol. 1, 159–89. Sydney. National Centre for English Language Teaching and Research, Macquarie University.

Studer, T. (2012). Leistungsbeurteilung. Testfunktionen als Orientierungshilfe. In Grundschulmagazin Praxis 5, 7-8.

Thorndike, E. L. (1920). A constant error in psychological ratings. The Journal of Applied Psychology, 33(1), 263–271.

Tsagari, Dina & Vogt, Karin. (2017). Assessment Literacy of Foreign Language Teachers around Europe: Research, Challenges and Future Prospects. Papers in Language Testing and Assessment, 6(1), 41-63.

Vogelin, C., Jansen, T., Keller, S. D., Machts, N., & Moller, J. (2019). The Influence of Lexical Features on Teacher Judgments of ESL Argumentative Essays. Assessing Writing, 39, 50-63. https://doi.org/10.1016/j.asw.2018.12.003.

Weigle, S. C. (2002). Assessing writing. Cambridge: Cambridge University Press.

White, E., & Delaney, T. (Eds.). (2019). Handbook of research on assessment literacy and teacher-made testing in the language classroom. Hershey, PA: Information Science Reference (an imprint of IGI Global).

Photo by Green Chameleon on Unsplash