Ein einfaches Beispiel warum CoV-2 Infektionszahlen nicht informativ sind – Einschätzung vom 19. Januar 2021

[mit Thorsten Schank] Gegeben die öffentliche Diskussion um die Datenlage in Deutschland (siehe z.B. tagesschau.de, Gérard Krause oder FAZ) stellen wir hier ein einfaches Beispiel vor, das veranschaulicht, wieso die Entwicklung von CoV-2 Infektionszahlen (siehe Dashboard-RKI, dort irrtümlich Covid-19-Fälle genannt) kein guter Indikator für die epidemiologische Lage ist. Wir stellen erst das Beispiel vor und wenden es dann auf die bestätigten CoV-2 Infektionszahlen an.

  • Das Beispiel einer einfachen und einer doppelten Verzerrung

Stellen wir uns vor, wir möchten den Durchschnittslohn in der Bundesrepublik ermitteln. Wir interessieren uns vor allem für die Frage, wie schnell der durchschnittliche Lohn steigt. Stellen wir uns weiter vor, wir können nur den Durchschnittslohn von Menschen über 40 Jahre und unter 40 Jahre beobachten. Der Anteil der ArbeitnehmerInnen sei für beide Gruppen der Einfachheit willen 50%. Der Durchschnittslohn sei 400 Geldeinheiten für Menschen über 40 Jahre und 200 Geldeinheiten (GE) für Menschen unter 40 Jahre. Alle Löhnen steigen um 10% zwischen zwei Zeitpunkten. Auch diese Werte sind als Beispiel gewählt.

Mit diesen Werten ergibt sich ein Durchschnittslohn von 300 GE zu einem ersten Zeitpunkt. Nach Anstieg um 10% ergibt sich ein Durchschnittslohn von 330 GE. Die Durchschnittslöhne von 300 GE und 330 GE sind die wahren Werte, die korrekt über die Lohnentwicklung, sowohl bezüglich des Lohniveaus, als auch des Wachstums, informieren.

Stellen wir uns vor, wir haben eine verzerrte Stichprobe. Wir beobachten zu 60% ArbeitnehmerInnen über 40 Jahre und zu 40% ArbeitnehmerInnen unter 40 Jahre. Der berechnete Durchschnittslohn ist dann 0,6 x 400 GE + 0,4 x 200 GE = 240 GE + 80 GE = 320 GE. Der Durchschnittslohn wird als zu hoch eingeschätzt, da die überdurchschnittlich verdienende Gruppe überrepräsentiert ist. Das ist eine erste Verzerrung.

Wenn man die Wachstumsrate von 10% berücksichtigt, dann ergibt sich ein Durchschnittslohn nach Anstieg um 10% von 0,6 x 440 GE + 0,4 x 220 GE = 264 GE + 88 GE = 352 GE. Das Schöne ist, dass selbst diese verzerrte Berechnung („Schätzer“) für den Durchschnittslohn einen korrekten Anstieg widerspiegelt. Der Anstieg des falschen Durchschnittslohns von 320 GE auf 352 GE ist 10%, genau wie in den wahren Daten. Eine immer auf die gleiche Art verzerrte Berechnung (immer 60% und 40% Gewichtung statt 50% zu 50%) liefert also immer noch eine korrekte Bestimmung des Anstiegs.

Nun „verschlimmern“ wir die Situation noch etwas und nehmen an, dass wir zu einem Zeitpunkt 60% und 40% der Gruppen beobachten, zum anderen Zeitpunkt aber 80% und 20%. Dann bekommen wir zunächst den bereits bekannten verzerrten Durchschnittslohn von 320 GE. Den neu berechneten Durchschnittslohn nach Wachstum berechnen wir nun mit den neuen Gewichten und bekommen 0,8 x 440 GE + 0,2 x 220 GE = 352 GE + 44 GE = 396 GE. Nicht überraschend liegt dieser neue Durchschnitt über den 352 GE von oben.

Das Problem ist nun, dass diese Änderung der Gewichte zum zweiten Zeitpunkten eine zweite Verzerrung einführt. Somit ist mit (396-320)/320 = 76/320 = 23,75% der Anstieg nun höher als die wahren 10%. Mit der doppelten Verzerrung ist also nicht einmal die Änderung über die Zeit informativ bezüglich der wahren Entwicklung des Durchschnittslohnes. Dies folgt aus dem Anstieg des Anteils der überdurchschnittlich verdienenden Gruppe über die Zeit.

  • Anwendung auf Infektionszahlen

Übertragen wir dieses Beispiel auf gemeldete Infektionszahlen in Deutschland. Es gibt eine Vielzahl von Gründen, die zu einem Test auf SARS CoV-2 führen. Diese beinhalten symptomatische Fälle, etwa bei einem Arztbesuch, aber auch asymptomatische Fälle (Reiserückkehrer, Kontaktpersonen, medizinisches Personal etc.). Um obiges Beispiel übertragen zu können nehmen wir an, der Anteil der asymptomatischen Fälle sei konstant. Nehmen wir auch an, um weiter obigem Beispiel zu folgen, dieser läge bei 50%.

Um sicherzustellen, dass der Anstieg der gemeldeten Infektionen dem Anstieg der wahren Infektionen gleicht, müsste der Anteil der asymptomatischen Fälle an allen gemeldeten Infektionen konstant bleiben. (So wie der Anteil der Menschen über 40 an den gemeldeten Löhnen oben konstant bleiben müsste). Es dürfte also die erste Verzerrung vorliegen, nicht aber die zweite Verzerrung. Es gibt jedoch keinen Mechanismus, der sicherstellt, dass der Anteil der gemeldeten Infektionen, der von asymptomatischen Fällen stammt, über die Zeit konstant ist. Damit ist der Anstieg der gemeldeten Infektionen nicht informativ bezüglich des wahren Anstiegs der Infektionen. Vielmehr ist es klar, dass sich der Anteil von Testungen von symptomatischen Fällen, Reiserückkehrern, Kontaktpersonen usw. teilweise von Woche zu Woche ändert. Somit sind die Änderungen von Infektionszahlen über die letzten 7 Tage nicht informativ für den wahren Infektionsverlauf. Änderungen über längere Zeiträume (etwa ein Vergleich der ersten mit der zweiten Welle) beinhalten noch viel weniger Information.

Obiges Beispiel deutet auch in Richtung eines Auswegs: Würde man als Beispiel nur „alle über 40“ oder „alle unter 40“ nehmen, dann wäre der Anstieg des Lohnes dieser Gruppe informativ für den Lohnanstieg insgesamt. Voraussetzung ist natürlich, dass der Anstieg in beiden Gruppen über die Zeit identisch ist (oder, wie im obigen Beispiel, sogar konstant). Würde man Infektionszahlen in Teilgrößen aufteilen, also „Schubladen“ oder „Containern“ (Jan Boris Rätz, Piotr Heller) zuordnen, dann wären diese Teilgrößen informativer für den Anstieg (oder Rückgang) von wahren Infektionszahlen. Wir müssten also nur wissen, warum ein Test durchgeführt wurde und wir hätten endlich einen aktuellen informativeren Indikator für die Pandemielage (neben den informativen aber etwas verzögerten Indikatoren Belegung von Intensivbetten und Todeszahlen).

Weitere Herausforderungen zur Erstellung eines unverzerrten Indikators für die Pandemielage bleiben bestehen. Dies verlangt nach weitergehenden Untersuchungen.