Dr. Stefan Lang am 27. Oktober 2016

Statistik im wissenschaftlichen Schreiben: Konfidenzintervall und P-Wert


Kategorie Statistik

Die Leser von biomedizinischen Originalartikeln (Paper) oder Doktorarbeiten möchten wissen, wie glaubwürdig die Daten sind. Zu diesem Zweck werden in wissenschaftlichen Forschungsartikeln nicht nur Mittelwerte plus/minus Standardabweichung angegeben, sondern auch der P-Wert und/oder das Konfidenzintervall. Hier eine kurze Erklärung, worin sich diese beiden statistischen Konzepte unterscheiden.

Statistik im Paper oder in der Doktorarbeit: der P-Wert

Statistik: Balkendiagramm mit Standardabweichung. Was sagt der p-Wert?Eines ist klar: Kleine P-Werte besitzen eine größere Evidenz als große P-Werte. Denn der P-Wert gibt das Ausmaß der Evidenz gegen die Null-Hypothese wieder.

Wenn zum Beispiel ein neues Medikament mit einem herkömmlichen verglichen wird, lautet die Nullhypothese: Es gibt keinen Unterschied zwischen diesen beiden Medikamenten.

Wenn ich nun einen Unterschied zwischen den Medikamenten feststelle, besagt ein kleiner P-Wert, dass die Null-Hypothese sehr unwahrscheinlich ist. Oder andersherum: Dass die Wahrscheinlichkeit, dass der Unterschied allein auf dem Zufall beruht, sehr gering ist.

Oftmals wird im Ergebnisteil eines Fachartikels (Paper) oder einer Doktorarbeit der konkrete P-Wert wie P = 0,0038 angegeben. Meistens jedoch wird das Signifikanzniveau genannt: P < 0,05. Die Wahrscheinlichkeit, dass die Unterschiede zwischen den Medikamenten zufällig waren, liegt also unter 5 %.

Das Konfidenzintervall ist eine Wertebereich

Konfidenzintervall in einem Fachartikel.Das Konfidenzintervall ist ein Wertebereich, der einen bestimmten Parameter (zum Beispiel eine Mittelwert) mit einer vorab definierten Wahrscheinlichkeit enthält (meist 95 %).

Oder anders ausgedrückt: In 95 von 100 Experimenten wird das Konfidenzintervall den wahren Wert überdecken. Die Weite dieses Intervalls hängt vom Stichprobenumfang und von der Standardabweichung ab. Ein großer Stichprobenumfang führt meist zu einem engeren Intervall.

P-Wert und Konfidenzintervall: Wann nehme ich was?

In der Statistik beruht der P-Wert und das Konfidenzintervall also auf unterschiedlichen Konzepten, sie sind nicht gleichbedeutend und haben in einem Paper oder in einer Doktorarbeit unterschiedliche Vorteile:

  • Die Werte des Konfidenzintervalls werden direkt auf Datenebene angegeben. D.h.: Wenn ich die Abnahme des Blutdrucks in mm Hg messe, wird auch das Konfidenzintervall in mm Hg angegeben (95 % CI = 2,7– 7,8 mmg Hg). Der P-Wert ist dagegen eine abstrakte Größe (P = 0,01).
  • Auf der anderen Seite sind P-Werte sehr viel übersichtlicher als Konfidenzintervalle. Wenn ich zum Beispiel zu den Effekten verschiedener Wirkstoffe eine Tabelle anfertige, kann der Leser/ die Leserin des Papers oder der Doktorarbeit anhand der P-Werte auf einen Blick erkennen, welche Ergebnisse signifikant waren.

Statistik: Signifikanz und klinische Relevanz

Das Konfidenzintervall sagt auch etwas über die klinische Relevanz aus. Ein Beispiel: In einer großen klinischen Studie wurde ein Blutdrucksenker getestet. Die durchschnittliche Reduktion betrug 17 mm Hg und der Effekt war mit P = 0,01 signifikant.

P-Wert und Konfidenzintervall in der StatistikDas bedeutet: Würde man 100 vergleichbare Studien durchführen, würde nur eine einzige Studie rein zufällig eine Senkung um 17 mm Hg zeigen. Das Ergebnis war signifikant, der Fachartikel sieht also nach einer erfolgreichen klinischen Studie aus. Aber ist dieses Ergebnis auch klinisch bedeutsam?

Die Frage beantwortet das Konfidenzintervall: 95 % CI = 3,1–27,4 mm Hg; P = 0,01. Wir erkennen sofort, dass der Konfidenz-Bereich sehr groß ist. Die Werte sind sehr heterogen: Die Blutdrucksenkung um 27,4 mm Hg wäre klinisch relevant, eine Senkung um 3,1 mm Hg jedoch nicht.

In diesem Beispiel war die Verwendung des Konfidenzintervalls also äußerst sinnvoll. Dennoch stehen P-Werte und Konfidenzintervalle nicht in Konkurrenz zueinander. Das eine ist ein übersichtlicher abstrakter Wert, das andere liefert Informationen zur klinischen Relevanz. Beide ergänzen sich.

Etwas mehr Details zum Thema? „Why the P-value culture is bad and confidence intervals a better alternative“ von J. Ranstam (Osteoarthritis Cartilage. 2012 Aug;20(8):805-8 [PubMed-Link]).