Gütekriterien (wissenschaftlicher) Testverfahren

Der folgende Text wurde dem Beitrag "Zur Mängelerkennung in familienpsychologischen Gutachten" von Herrn Dr. phil. Werner G. Leitner entnommen. Dieser Beitrag ist erschienen in Familie und Recht 2/2000, ISSN 0937-2180.

Gütekriterien wissenschaftlicher Testverfahren - ein notwendiger Exkurs
Die Gütekriterien sind mit Lienert (1969) von elementarster Bedeutung dafür, ob ein Verfahren als solches im wissenschaftlichen Sinne überhaupt als Test bezeichnet werden kann. Letztlich sind sie also ganz elementare Standards dafür, ob oder inwieweit die mit seiner Hilfe gemachten Aussagen wissenschaftliche Aussagefähigkeit besitzen. Untereinander lassen sich die Gütekriterien im Hinblick auf ihre Wertigkeit in Haupt- und Nebengütekriterien unterteilen.

Objektivität
In der angloamerikanischen Literatur wird Objektivität im Sinne eines Testgütekriteriums nicht immer einheitlich verwendet. So hat CATTELL (vgl. DORSCH, 1987, S.454 bzw. DORSCH, 1994, S.525) beispielsweise diejenigen Testverfahren als "objektive Tests" bezeichnet, die von ihrer Absicht her nicht durchschaubar sind. Manche Autoren legen diesbezüglich ihr Augenmerk auf die Objektivität als Einheitlichkeit der Testvorlage. Von LIENERT (1969, zitiert in DORSCH, 1987, S.455 bzw. DORSCH, 1994, S.525) wurde die Objektivität als Testgütekriterium für den deutschsprachigen Raum definiert als "Grad, in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind" (a.a.O.). Bei dieser Definition steht die "interpersonelle Übereinstimmung" (a.a.O.) im Vordergrund. Diese Übereinstimmung spielt im Hinblick auf die Durchführung (Durchführungsobjektivität), die Auswertung (Auswertungsobjektivität) und die Interpretation eine Rolle.

Reliabilität
Bei der Reliabilität handelt es sich um die Zuverlässigkeit einer Meßmethode beziehungsweise eines standardisierten Testverfahrens, die angibt, mit welchem Grad der Genauigkeit ein solches Verfahren Ergebnisse liefert. Die Meßgenauigkeit wird dabei unter diesem Aspekt unabhängig von der Gültigkeit seiner Resultate untersucht. Beim Konzept der Reliabilität wird davon ausgegangen, daß jede Messung gewissen Meßfehlern unterliegt, wobei die Ergebnisse aus der Sicht der klassischen Testtheorie einen wahren und einen Fehlervarianz-Anteil enthalten. Als Reliabilitätskoeffizient läßt sich der Quotient zwischen wahrer Varianz und gesamter Varianz festlegen. Im Hinblick auf die Methoden der Reliabilitätsermittlung lassen sich mit der Retest-Methode, der Paralleltest-Methode und der Testhalbierungsmethode verschiedene Aspekte der Zuverlässigkeit unterscheiden (vgl. DORSCH, 1987, S.565 bzw. DORSCH, 1994, S.656 f).

Nach den Standards für pädagogisches und psychologisches Testen, ausgearbeitet vom "Committee to Develop Standards for Educational and Psychological Testing" der "American Educational Research Association (AERA)", der "American Psychological Association, (APA)" und dem "National Council on Measurement in Education (NCME)" in der deutschen Fassung von Häcker, Leitner und Amelang (1998, S. 23) "(wird) unter Reliabilität... das Ausmaß verstanden, in dem Testwerte frei von Meßfehlern sind". Aus diesen Ausführungen wird deutlich wie zuverlässig (oder besser unzuverlässig) Werte von Tests in psychologischen Gutachten für das Familiengericht sind, bei denen die Tests keine Reliabilität aufweisen.

Validität
Im Gegensatz zur Reliabilität wird bei der Validität (Gültigkeit) über den Grad der Genauigkeit einer Messung hinaus untersucht, inwieweit ein Verfahren tatsächlich die Verhaltensweise oder das Merkmal mißt, die/das es zu messen vorgibt (vgl. Lienert, 1969, zitiert in Dorsch et al.. 1994, S. 838; vgl, auch Häcker & Stapf, 1998). Hierbei lassen sich bestimmte Validitätsarten unterscheiden: inhaltliche Validität, kriteriumsbezogene Validität sowie Konstruktvalidität (vgl. Dorsch et al., 1994, S, 838 r; vgl. auch Hacker & Stapf, 1998).

Nach den Standards für pädagogisches und psychologisches Testen, ausgearbeitet vom "Committee to Develop Standard« for Educational and Psychological Testing" der "American Educational Research Association (AERA)", der "American Psychological Association (APA)" und dem "National Council on Measurement in Education (NCME)" in der deutschen Fassung von Häcker, Leutner und Amelang (1998, S. 10} "(gilt) die Ermittlung der Validität eines Tests... als wichtigster Aspekt der Testevaluation. Es wird dabei beurteilt, wie angemessen, wie bedeutsam und wie nützlich die spezifischen Schlußfolgerungen sind, die aus solchen Testwerten gezogen werden können. Der Prozeß, in dem empirische Belege für die Richtigkeit solcher Schlußfolgerungen akkumuliert werden, wird als Validierung bezeichnet". (Häcker, Leitner und Amelang, 1998, S. 10). Aus diesen Ausführungen läßt sich ebenfalls sehr leicht erschließen, "wie angemessen, wie bedeutsam und wie nützlich" folglich Schlußfolgerungen aus Tests in psychologischen Gutachten für das Familiengericht sind, die keine Validität aufweisen. Im dazugehörigen Glossar dieser Standards wird Validität demzufolge definiert als "das Ausmaß, in dem eine bestimmte Schlußfolgerung aus einem Test angemessen oder bedeutsam ist", (a.a.0., S. 110).

Normierung
Ein wichtiges Nebengütekriterium neben den drei Hauptgütekriterien Objektivität, Reliabilität und Validität ist die Normierung. Aus testtheoretischer Sicht handelt es sich bei dementsprechend vorhandenen Normenskalen um "Standardisierte Testskalen zur ökonomischen Vergleichbarkeit von Testwerten" [Dorsch et al.. 1994, S. 519, vgl. auch Hacker & Stapf, 1998). Solche Vergleichsmaßstäbe lassen sich auf Grund der Rohwertverteilungen erstellen und bilden eine wichtige Grundlage für die Befunderstellung, deren Brauchbarkeit über Güte und Wert eines Testverfahrens nicht unwesentlich mitentscheidet.