In der Statistik werden p-Werte häufig beim Testen von Hypothesen für t-Tests, Chi-Quadrat-Tests, Regressionsanalysen, ANOVAs und einer Vielzahl anderer statistischer Methoden verwendet.
Obwohl dies so häufig vorkommt, interpretieren Menschen p-Werte häufig falsch, was zu Fehlern bei der Interpretation der Ergebnisse einer Analyse oder Studie führen kann.
In diesem Beitrag wird erklärt, wie Sie p-Werte klar und praktisch verstehen und interpretieren können.
Hypothesentest
Um p-Werte zu verstehen, müssen wir zuerst das Konzept des Hypothesentests verstehen.
Ein Hypothesentest ist ein formaler statistischer Test, mit dem wir eine Hypothese ablehnen oder nicht ablehnen. Beispielsweise können wir die Hypothese aufstellen, dass ein neues Medikament, eine neue Methode oder ein neues Verfahren einen gewissen Nutzen gegenüber einem aktuellen Medikament, einer Methode oder einem Verfahren bietet.
Um dies zu testen, können wir einen Hypothesentest durchführen, bei dem wir eine Nullhypothese und eine alternative Hypothese verwenden:
Nullhypothese – Es gibt keinen Effekt oder Unterschied zwischen der neuen Methode und der alten Methode.
Alternative Hypothese – Es gibt einen Effekt oder Unterschied zwischen der neuen Methode und der alten Methode.
Ein p-Wert gibt an, wie glaubwürdig die Nullhypothese angesichts der Probendaten ist. Unter der Annahme, dass die Nullhypothese wahr ist, gibt der p-Wert die Wahrscheinlichkeit an, einen Effekt zu erzielen, der mindestens so groß ist wie der, den wir tatsächlich in den Probendaten beobachtet haben.
Wenn der p-Wert eines Hypothesentests ausreichend niedrig ist, können wir die Nullhypothese ablehnen. Insbesondere wenn wir einen Hypothesentest durchführen, müssen wir zu Beginn ein Signifikanzniveau wählen. Übliche Auswahlmöglichkeiten für Signifikanzniveaus sind 0,01, 0,05 und 0,10.
Wenn die p-Werte unter unserem Signifikanzniveau liegen, können wir die Nullhypothese ablehnen.
Andernfalls können wir die Nullhypothese nicht ablehnen, wenn der p-Wert gleich oder größer als unser Signifikanzniveau ist.
Wie man einen P-Wert interpretiert
Die Lehrbuchdefinition eines p-Werts lautet:
Ein p-Wert ist die Wahrscheinlichkeit, eine Stichprobenstatistik zu beobachten, die mindestens so extrem ist wie Ihre Stichprobenstatistik, vorausgesetzt, die Nullhypothese ist wahr.
Angenommen, eine Fabrik behauptet, sie produziere Reifen mit einem Durchschnittsgewicht von 200 Pfund. Ein Prüfer stellt die Hypothese auf, dass sich das tatsächliche Durchschnittsgewicht der in dieser Fabrik hergestellten Reifen von 200 Pfund unterscheidet. Daher führt er einen Hypothesentest durch und stellt fest, dass der p-Wert des Tests 0,04 beträgt. So interpretieren Sie diesen p-Wert:
Wenn die Fabrik tatsächlich Reifen mit einem Durchschnittsgewicht von 200 Pfund herstellt, erhalten 4% aller Audits den in der Stichprobe beobachteten oder größeren Effekt aufgrund eines zufälligen Stichprobenfehlers. Dies zeigt uns, dass es ziemlich selten wäre, die vom Auditor erstellten Beispieldaten zu erhalten, wenn die Fabrik tatsächlich Reifen mit einem Durchschnittsgewicht von 200 Pfund herstellte.
Abhängig von dem in diesem Hypothesentest verwendeten Signifikanzniveau würde der Prüfer wahrscheinlich die Nullhypothese ablehnen, dass das wahre Durchschnittsgewicht der in dieser Fabrik hergestellten Reifen tatsächlich 200 Pfund beträgt. Die Beispieldaten, die er aus dem Audit erhalten hat, stimmen nicht sehr gut mit der Nullhypothese überein.
Wie man einen P-Wert nicht interpretiert
Das größte Missverständnis über p-Werte besteht darin, dass sie der Wahrscheinlichkeit eines Fehlers entsprechen, indem eine echte Nullhypothese (bekannt als Typ I-Fehler) zurückgewiesen wird.
Es gibt zwei Hauptgründe, warum p-Werte nicht die Fehlerrate sein können:
1. P-Werte werden unter der Annahme berechnet, dass die Nullhypothese wahr ist und dass der Unterschied zwischen den Probendaten und der Nullhypothese einfach zufällig ist. Daher können p-Werte nicht die Wahrscheinlichkeit angeben, dass die Null wahr oder falsch ist, da sie basierend auf der Perspektive der Berechnungen zu 100% wahr ist.
2. Obwohl ein niedriger p-Wert anzeigt, dass Ihre Beispieldaten unter der Annahme, dass die Null wahr ist, unwahrscheinlich sind, kann ein p-Wert Ihnen immer noch nicht sagen, welcher der folgenden Fälle wahrscheinlicher ist:
- Die Null ist falsch
- Die Null ist wahr, aber Sie haben eine ungerade Stichprobe erhalten
In Bezug auf das vorherige Beispiel ist hier eine korrekte und falsche Interpretation des p-Werts:
- Richtige Interpretation: Angenommen, die Fabrik produziert Reifen mit einem Durchschnittsgewicht von 200 Pfund, würden Sie den beobachteten Unterschied erhalten, den Sie in Ihrer Stichprobe erhalten haben, oder einen extremeren Unterschied bei 4% der Audits aufgrund eines zufälligen Stichprobenfehlers.
- Falsche Interpretation: Wenn Sie die Nullhypothese ablehnen, besteht eine Wahrscheinlichkeit von 4%, dass Sie einen Fehler machen.
Beispiele für die Interpretation von P-Werten
Die folgenden Beispiele veranschaulichen die korrekte Interpretation von p-Werten im Rahmen von Hypothesentests.
Beispiel 1
Eine Telefongesellschaft behauptet, dass 90% ihrer Kunden mit ihrem Service zufrieden sind. Um diese Behauptung zu testen, sammelte ein unabhängiger Forscher eine einfache Zufallsstichprobe von 200 Kunden und fragte sie, ob sie mit ihrem Service zufrieden seien. 85% antworteten mit Ja. Der diesen Beispieldaten zugeordnete p-Wert betrug 0,018.
Richtige Interpretation des p-Werts: Unter der Annahme, dass 90% der Kunden tatsächlich mit ihrem Service zufrieden sind, würde der Forscher den beobachteten Unterschied erhalten, den er in seiner Stichprobe erhalten hat, oder einen extremeren Unterschied bei 1,8% der Audits aufgrund eines zufälligen Stichprobenfehlers.
Beispiel 2
Ein Unternehmen erfindet einen neuen Akku für Telefone. Das Unternehmen behauptet, dass diese neue Batterie mindestens 10 Minuten länger als die alte Batterie funktioniert. Um diese Behauptung zu testen, nimmt ein Forscher eine einfache Zufallsstichprobe von 80 neuen Batterien und 80 alten Batterien. Die neuen Batterien laufen durchschnittlich 120 Minuten mit einer Standardabweichung von 12 Minuten und die alten Batterien durchschnittlich 115 Minuten mit einer Standardabweichung von 15 Minuten. Der p-Wert, der sich aus dem Test für einen Unterschied im Populationsmittelwert ergibt, beträgt 0,011.
Richtige Interpretation des p-Werts: Unter der Annahme, dass die neue Batterie für dieselbe Zeit oder weniger als die alte Batterie arbeitet, würde der Forscher den beobachteten Unterschied oder einen extremeren Unterschied in 1,1% der Studien aufgrund eines zufälligen Stichprobenfehlers erhalten.