Buch: Statistics Done Wrong

Geschrieben von Dee am Friday, 10. March 2017

Titel	Statistics Done Wrong
Autor	Alex Reinhart
Sprache	Deutsch
Genre	Sachbuch
Verlag	mitp, 2016
Seitenanzahl	208 Seiten

Einleitung

Im Gegensatz zum Buchtitel „Statistics Done Wrong“ handelt es sich bei dem Werk um die deutsche Auflage aus dem mitp-Verlag. Verfasst hat das Buch Alex Reinhart, der Doktorand an der Carnegie Mellon University in Pittsburgh ist und dort Statistik unterrichtet. Also prinzipiell der richtige Mann für den Job, einem zu erklären, wie man Statistik nicht macht.

Ich selbst habe mit Statistik wenig zu tun und konnte mir nie merken, wie viele Bälle ich irgendwo rausziehen muss, um irgendwann einen blauen in der Hand zu haben … und dann fällt mir ein, dass das Stochastik und nicht Statistik ist. So viel also dazu …

Inhalt

Alex Reinhart behandelt in dem Buch zahlreiche Probleme, die man als Statistiker oder zumindest als Wissenschaftler und Forscher machen kann, wenn man gerade kein ausgebildeter Statistiker ist.

Leider (?) kann man schwer ein Buch über Statistik schreiben, ohne nicht zumindest ansatzweise die theoretischen Hintergründe zu erklären. So startet das Buch auch mit Teststärken, Konfidenzintervallen und Signifikanztests. Hat man den Teil über- und verstanden, gibt es auch zahlreiche Beispiele, wo man sich statistisch verheddern kann. Über Pseudoreplikationen hin zu Prävalenzfehlern und doppelter Datennutzung ist alles dabei.

Die Beispiele sind dabei aus dem Leben gegriffen und entsprechend verweist Reinhart auf diverse Forschungsarbeiten und -berichte, die solche statistischen Fehler begangen haben. Ganz zum Schluss, nach all der Schwarzmalerei, gibt der Autor noch Hinweise, was zu tun ist und wie man es besser machen kann.

Ein Kapitel nimmt auch das Thema Open Source und Open Data ein. Alex Reinhart erklärt, wieso es wichtig ist, nicht nur die statistischen Ergebnisse zu veröffentlichen, sondern auch die Datenbasis, die eingesetzten Methodiken und Werkzeuge, sodass jeder prinzipiell die Ergebnisse prüfen und nachstellen kann.

Zielgruppe

Statistiken betreffen zwei Gruppen von Menschen. Die einen, die die Statistik erstellen und (meist vereinfacht) darstellen. Und die, die das Ergebnis dann lesen müssen. (Okay, es gibt oft noch eine dritte Gruppe, wenn es um statistische Ergebnisse aus Experimenten mit Menschen geht, aber die lasse ich mal unter den Tisch fallen.) Das Buch richtet sich klar an die erste Gruppe.

Viele Beispiele sind aus dem medizinischen Sektor (vermutlich, weil es dort mehr Studien gibt, die man analysieren kann), insofern ist das Buch für ebensolche Wissenschaftler geschrieben. Apropos Wissenschaftler, eine Ausbildung in einer Naturwissenschaft kann helfen, die Inhalte besser zu verstehen. Am besten ist natürliche eine mathematische Ausbildung. Es sei aber dazu gesagt (siehe Kritik), dass man auch als Nicht-Diplom-Mathematiker die Inhalte versteht. Und erst recht muss man kein Mediziner sein, auch wenn die meisten Beispiele aus diesem Gebiet stammen.

Kritik

Der Anfang des Buches ist sehr theoretisch und wissenschaftlich. Durch die ersten zwei Kapitel muss man sich schon durchbeißen – selbst als Mathematiker fällt einem das Verständnis nicht auf Anhieb leicht. Dabei ist es aber wichtig, dass man die Grundlagen verstanden hat, um mit dem Rest des Buches irgendetwas anfangen zu können.

Glücklicherweise verzichtet Alex Reinhart auf mathematische Formeln oder irgendwelchen andere Zauberei (manchen kommt Mathe ja manchmal so vor). Ganz im Gegenteil helfen vor allem die Beispiele immer wieder zu verstehen, dass das Ganze tatsächlich in der Realität benutzt wird – teilweise bekommt dann wieder Angst, wenn man überlegt, auf Basis welcher Forschungen man Medikamente verschrieben bekommt.

Beeindruckend war ich von dem Verweis auf Open-Source-Software wie Sweave, IPython oder LaTeX. Obwohl es für Wissenschaftler eigentlich selbstverständlich sein sollte, die eigene Arbeiten so zu veröffentlichen, dass man sie später noch nachvollziehen kann, geht dies aus verschiedenen Gründen oft unter – manchmal leider auch aus Angst davor, dass jemand mit der Datenbasis oder den Ergebnissen selbst einen Forschungsdurchbruch erzielt.

Sehr gut gefallen hat mir u.a. das Kapitel über „Korrelation und Kausalität“ – etwas, was viele Menschen immer wieder durcheinanderbringen. So klingt es seltsam, wenn ich sage, dass Menschen mit einer Yacht länger leben als die Menschen ohne. Das liegt dann nämlich meist nicht an der Yacht (Korrelation), sondern an dem Geld und der besseren medizinischen Versorgung (Kausalität).

Noch interessanter war aber die Vorstellung des Simpson-Paradoxons (weswegen das auch einen eigenen Absatz bekommt). Die Grundidee ist: Wenn man die Datenbasis zweier Versuchsreihen anders aufteilt, kehrt sich das Ergebnis um. Als Beispiel stellt man sich die Untersuchungen zweier medizinischer Verfahren A und B vor. Das Verfahren A funktioniert in 75 von 100 Fällen (75%), Verfahren B in 68 von 100 (68%). Klar scheint das erste besser. Teilt man die Fälle aber nach einem bestimmten Kriterium auf, kommt man ggf. darauf, dass das Verfahren A in 5 von 10 (50%) und in 70 von 90 Fällen (77,78%) funktioniert, Verfahren B aber in 28 von 50 (56%) und in 40 von 50 Fällen (80%). Das heißt, durch die Unterteilung ist Verfahren B plötzlich das bessere. Das passiert immer dann, wenn die Verteilung der Aufteilung nicht mehr gleichmäßig ist. Ich fand diesen kleinen „Trick“ sehr faszinierend. Mehr zu dem Thema gibt es natürlich in der Wikipedia. (Schade fand ich nur, dass es tatsächlich keine realen Zahlen, sondern nur Prozentwerte gab, sodass ich mir die Datenbasis erst selbst suchen musste – und Wikipedia gerade nicht bei der Hand hatte.)

Fazit

Mit Statistik habe ich in der Tat öfters zu tun, da so gut wie jedes Unternehmen irgendwelche Graphen und Statistiken führt, um irgendeinen Sachverhalt (vereinfacht) darzustellen. In der Regel sind die erstellen Statistiken auch okay, aber mitunter findet man nach dem Lesen des Buches tatsächlich den einen oder anderen Denkfehler und hinterfragt die präsentierten Erkenntnisse – vor allem wenn daraus aufwändige Maßnahmen abgeleitet werden sollen. Insofern hat mir das Buch sehr geholfen, und ich hoffe, dass wenn ich mal wieder eine eigene Statistik erstellen muss, ich darauf achte, wie ich die „Statistik falsch mache“.

Wer die andere Seite kennenlernen möchte, dass heißt, auf was man als Leser von Statistik-Ergebnissen bzw. -diagrammen aufpassen muss, dem sei das Buch „So lügt man mit Statistik“ von Walter Krämer empfohlen, dass ich vor ca. zehn Jahren geschenkt bekommen habe. Alex Reinhart verweist zwar in seinem Buch mehr auf „Wie lügt man mit Statistik“ von Darrell Huff, aber das habe ich (noch) nicht gelesen. Jedenfalls erfährt man darin einige Tricks, wie man Statistiken mitunter so darstellen kann, dass sie das gewünschte Ergebnis zeigen und nicht zwingend die objektive Realität.

Daher zum Abschluss ein Nicht-Zitat: „Ich traue keiner Statistik, die ich nicht selbst gefälscht habe.“ (siehe Wikiquote).

Trackbacks

Trackback-URL für diesen Eintrag

Keine Trackbacks

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

Noch keine Kommentare

deesaster.org