Die schlechte Aussagekraft von Screening-Fragebögen für die Störung durch Glücksspielen

[A systematic review evaluating screening instruments for gambling disorder finds lack of adequate evidence]

In den meisten wissenschaftlichen Studien wird die Störung durch Glücksspielen (SdG) mit Hilfe verschiedener Screening-Fragebögen erhoben, da diese eine zeit- und kosteneffektive Möglichkeit bieten, zahlreiche Personen zu befragen. Die bekanntesten sind der South Oaks Gambling Screen (SOGS), den auch die Bundeszentrale für gesundheitliche Aufklärung BZgA für Ihre Berichte zum Glücksspielen in Deutschland einsetzt oder der Problem Gambling Severity Index (PGSI). Fragebögen müssen validiert werden, d.h. es muss überprüft werden, ob die Fragebögen inhaltlich das messen, was sie messen sollen. Im Fall der vorgestellten Studie war die Frage, wie gut oft genutzte Fragebögen eine SdG erfassen können. Der Goldstandard bei der Validierung eines klinischen Fragebogens ist der Vergleich der Fragebogenergebnisse einer Person (SdG liegt vor/ liegt nicht vor) mit den Ergebnissen eines klinisch-diagnostischen Interviews mit Fachpersonal. Stimmen Fragebogenergebnis und das Ergebnis des Interviews hoch überein, kann davon ausgegangen werden, dass der Fragebogen eine hohe Validität besitzt. Das Interview mit klinisch-psychologischem Fachpersonal wird als sehr gute Vergleichsquelle angesehen, da es in dem Interview für den Interviewenden und die befragte Person die Möglichkeit gibt, Verständnisfragen zu beantworten. Dies ist bei bloßer Vorlage eines Screening-Fragebogens nicht möglich.

Die Autor*innen dieser Studie hatten es sich zum Ziel gesetzt, in einem systematischen Review Studien zu finden, die verschiedene Screening-Fragebögen validiert haben. Systematisches Review bedeutet, dass Autor*innen Studien systematisch, d.h. nach vorher festgelegten Kriterien und für andere Forscher genau nachvollziehbar, in wissenschaftlichen Fachdatenbanken suchen, einschließen und inhaltlich auswerten. In diesem Fall konnten anhand der festgelegten Kriterien am Ende nur 4 Studien zu 3 Screening-Fragebögen eingeschlossen werden: SOGS, PGSI und der Massachusetts Gambling Screen (MAGS). Die Autor*innen beschreiben dies als eine der Limitationen ihrer Studie. Viele Studien wurden ausgeschlossen, da Screening-Fragebögen nicht wie von den Autor*innen gefordert an einem klinisch-diagnostischen Interview validiert wurden.
Als inhaltliches Ergebnis des systematischen Reviews zeigte sich, dass der SOGS 99 von 100 Personen korrekt als „mit SdG“ klassifiziert und somit eine sehr hohe Sensitivität (korrekt positiv) aufweist. Allerdings klassifiziert er nur 22 von 100 Personen korrekt als „ohne SdG“ und wies somit eine geringe Spezifität (korrekt negativ) auf. Der MAGS klassifiziert nur jede dritte betroffene Person korrekt als „mit SdG“. Gleichzeitig klassifiziert der MAGS 99 von 100 Personen „ohne SdG“ korrekt und besitzt somit eine sehr hohe Spezifizität. Der PGSI klassifiziert 33 von 100 Personen „mit SdG“ korrekt und 92 von 100 Personen werden korrekt als „ohne SdG“ erkannt.
Die Autor*innen haben in ihrem Artikel eine Analyse der prädiktiven Güte der Screening-Fragebögen durchgeführt. Der positive prädiktive Wert ist dabei die Wahrscheinlichkeit, dass eine Person, die von einem Screening-Fragebogen positiv getestet wurde, auch tatsächlich die Störung aufweist. Respektive gibt der negative prädiktive Wert die Wahrscheinlichkeit an, dass eine Person, die vom Screening-Fragebogen negativ getestet wurde, diese Störung auch wirklich nicht aufweist. Die prädiktive Güte bezieht nicht nur die Sensitivität und Spezifität ein, sondern ist auch abhängig von der Prävalenz einer Störung in der Bevölkerung. Basierend auf einer Prävalenz der SdG in den USA von etwa 2%, einer Population von 1,3 Millionen US-Soldaten (die Mehrzahl der Autor*innen arbeitet für die Streitkräfte) und den im systematischen Review gewonnen Angaben zu Sensitivität und Spezifizität für die drei Fragebögen berechneten sie, wie hoch die prädiktive Güte der drei Verfahren ist. Für den SOGS ergibt sich ein positiver prädiktiver Wert von nur 3% (PGSI: 15%, MAGS: 41%). Die negativen prädiktiven Werte betragen für alle drei Verfahren 99%.
Die Vorteile des SOGS und des PGSI sind, dass sie -im Sinne der Aufgabe eines Screening-Fragebogens- Personen mit SdG sehr gut entdecken (99% und 92% Sensitivität), sodass diese z.B. an das Hilfesystem für eine gründliche Diagnostik oder Anamnese weitergeleitet werden können. Gleichzeitig sind Screening-Fragebögen auf Grund der geringen Spezifität nicht für epidemiologische Studien geeignet, die als vorrangiges Ziel die möglichst exakte Angabe des Auftretens einer Störung haben.
Allerdings wurden in allen drei Studien spezielle Stichproben eingesetzt (College-Studenten, selbstidentifizierte Teilnehmer an Glücksspielen), so dass die Ergebnisse möglicherweise nicht sehr gut auf die Allgemeinbevölkerung generalisiert werden können. Die Autor*innen stellen fest, dass es -wenn überhaupt- sehr wenige Sreening-Fragebögen für SdG gibt, die adäquat validiert wurden und eine methodologisch hochwertige Qualität aufweisen, um ihre Nutzung für große Gesundheitssysteme vorzuschlagen. Sie geben auch an, dass man sich hinsichtlich der Fähigkeiten eines Screening-Fragebogens entscheiden muss, ob er möglichst alle Fälle entdecken soll (und man zusätzliche falsch-positive Fälle in Kauf nimmt) oder ob die genaue Anzahl der betroffenen Personen entdeckt werden soll. Beides ist für eine psychische Störung, wie die SdG mit relativ niedrigen Prävalenzwerten in der Allgemeinbevölkerung anhand nur eines Screening-Fragebogens nicht möglich.

(Ott, J. L., Smolenski, D., J. & 8 Kolleg*innen, 2020)
Journal of Clinical Epidemiology, 120, 86-93.