Jak nie analizować danych statystycznych, cz. 5

jest to ciąg dalszy innego wpisu

przykład 8

(cytat z filmu „Co mi zrobisz, jak mnie złapiesz?”)

Klient: Panie kierowniku, ja już czekam cały miesiąc!!
Kierownik warsztatu: Pan siada, sekundę… Miesiąc, mówi pan?!
Klient: Noo!
Kierownik: No i już nieprawda, bo nie miesiąc, a 37 dni kalendarzowych.
Klient: Więc już więcej!
Kierownik: Więc już się pan mija z prawdą, prawda? Noo. 37 dni… no skoro pan tyle czeka, to może pan poczekać jeszcze jeden dzień.
Klient: Ja mam czekać jeszcze jeden dzień, a ten pan dopiero…!
Kierownik: Nie, chwileczkę, niech pan siada. Pan jest moim gościem na razie, ja mówię. Samochód tego pana przywieziono dzisiaj rano, 8 godzin temu. Czyli że dla niego jeden dzień czekania dłużej to jest 300% więcej czasu.
Klient: Ale…
Kierownik: Jest czy nie jest?
Klient: No jest.
Kierownik: No, jest. A dla pana, skoro pan czekasz 37 dni, to jeden dzień więcej to będzie… yyy… No kochany, no jakby nie liczyć no… (Liczy różnymi sposobami). No jakby nie liczyć… To dla pana jeden dzień jest niecałe 3, dokładnie 2 koma 702. No to na stratę 2 koma 7 no, to jeszcze możemy sobie pozwolić, ale, żeby stracić 300% czasu… ho, ho, kochany, co to to nie – my na czas musimy patrzeć po gospodarsku!

Jak nie analizować danych statystycznych, cz. 4

jest to ciąg dalszy innego wpisu

Przykład 7:

Wyobraźmy sobie, że ktoś nas pyta “Jakie przedsiębiorstwa mają największy wpływ na rynek i dlaczego?” Wyobraźmy też sobie, że dysponujemy danymi statystycznymi podobnymi do tych, przedstawionych na poniższym rysunku:

 

Jakie wnioski można wysunąć analizując ten wykres? Można powiedzieć, że największy wpływ na rynek mają:

  1. przedsiębiorstwa małe, bo jest ich na rynku najwięcej,
  2. albo przedsiębiorstwa małe na równi z dużymi, bo zatrudniają dużą część pracowników,
  3. albo przedsiębiorstwa duże, bo mają największe nakłady inwestycyjne,
  4. albo żadna z tych grup, bo mają porównywalne przychody.

Jak widać, każda z tych odpowiedzi jest w pewnym stopniu właściwa. Więc gdzie jest to “ale…”? Problem polega na tym, że autor cytowanego na początku pytania nie dopowiedział, co znaczy “mają największy wpływ na rynek”.

To tak jakby mówić, że sytuacja w firmie poprawiła się. Co znaczy “poprawiła się”? W tym miesiącu sprzedali 100% więcej niż poprzednio; firma wyszła z kryzysu i uniknęła bankructwa, a może zakupiła nowy automat do kawy do sekretariatu kierownika?

Jak nie analizować danych statystycznych, cz. 3

jest to ciąg dalszy innego wpisu

Przykład 6:

(na postawie książki: Andrzej K. Wróblewski „Prawda i mity w fizyce”, Iskry 1987) Na początku XX wieku jeden z astronomów zapostulował analizując wykonane wcześniej przez różnych naukowców pomiary, że prędkość światła zmienia się w czasie sinusoidalnie. Słuszności swojego twierdzenia dowodził pokazując dopasowaną do danych pomiarowych krzywą sinusoidalną:

Jednocześnie inny naukowiec, do tych samych danych próbował dopasować prostą malejącą sugerując, że prędkość światła zmniejsza się z roku na rok.

Gdyby powyższe twierdzenia były słuszne i miały sprawdzenie w praktyce, oznaczałoby to ogromne konsekwencje nie tylko dla dzisiejszej fizyki, ale również techniki i innych dziedzin wiedzy.

Można by rzec, że na szczęście w powyższych rozważaniach popełniono poważny błąd: pominięto całkowicie sprawę błędów (niepewności) pomiarów. Przyglądając się ponownie tym danym pomiarowym, jednakże tym razem z uwzględnieniem dokładności z jakimi pomiary te wykonano wyraźnie widać, że dopasowanie zarówno sinusoidy jak i prostej malejącej było słabo uzasadnione:

Wniosek z tego nasuwa się taki: analizując wyniki jakiś badań należy zawsze zwracać uwagę na dokładność pomiarów oraz na poziom ich zaufania.

Jak nie analizować danych statystycznych, cz. 2

jest to ciąg dalszy innego wpisu

Przykład 3:

Zrobiono badania statystyczne w jaki sposób robią zakupy mężczyźni i kobiety, i otrzymano następujące wyniki:

  • mężczyzna mając kupić sobie spodnie idzie do konkretnego sklepu i je kupuje; kosztuje to go 50 zł i zajmuje 12 minut
  • kobieta mając kupić sobie spodnie obchodzi wszystkie sklepy w galerii handlowej, spotyka przyjaciółkę, plotkuje z nią przez jakiś czas w kawiarni, ogląda wszystkie wystawy i kupuje również inne rzeczy; w sumie wydaje 650 zł co zajmuje jej 199 minut

Patrząc na ilość wydanych pieniędzy i czas trwania zakupów można by stwierdzić, że kobieta jest mniej ekonomiczna. Lecz dane te można też zinterpretować w inny sposób – wyliczyć koszt na minutę:

  • mężczyzna wydał ok. 4,17 zł/min
  • kobieta wydała ok. 3,27 zł/min!!!

Wniosek: Gdyby kobieta wydawała na minutę tyle samo pieniędzy co mężczyzna to wydałaby prawie 830 zł a nie 650 zł. W ten sposób zaoszczędziła pieniądze i może sobie jeszcze kupić spodnie oraz dalej iść na zakupu cały czas oszczędzając…

Przykład 4 (paradoks Simpsona):

Firmy A i B prowadzą takie same szkolenia. Dokonano analizy ilość osób kończących szkolenia z oceną pozytywną, z podziałem na płeć:

  • mężczyźni:
    • firma A: 210 osób zdało, 190 – nie zdało (zdawalność 52,5%)
    • firma B: 30 osób zdało, 70 – nie zdało (zdawalność 30,0%)
  • kobiety:
    • firma A: 590 osób zdało, 10 – nie zdało (zdawalność 98,3%)
    • firma B: 870 osób zdało, 30 – nie zdało (zdawalność 96,7%)

Zarówno dla kobiet jak i mężczyzn oddzielnie firma A kształci lepiej. Jednak dokonując analizy całościowej:

  • firma A: 800 osób zdało, 200 – nie zdało (zdawalność 80%)
  • firma B: 900 osób zdało, 100 – nie zdało (zdawalność 90%)

wynika, że firma B jest lepsza!

Przykład 5:

Prezes niewielskiej spółki przedstawił na walnym zebraniu zachwycające wyniki związane z poziomem płac w firmie. Szczycił się, że średnia płaca wynosi 3.100 zł. Nie powiedział jednak, że wartość ta została zawyżona przez jego pensję i pensje wicedyrektora. Dokładna lista płac wyglądała tak:

  • prezes: 20.000 zł/m-c
  • wicedyrektor: 5.000 zł/m-c
  • księgowa: 3.000 zł/m-c
  • szef produkcji: 2.000 zł/m-c
  • szef zaopatrzenia: 2.000 zł/m-c
  • sekretarka: 1.600 zł/m-c
  • sześciu pracowników: każdy po 600 zł/m-c

Podając tylko wartość średnią (3.100 zł) zataił prawdziwe informacje, że wartością modalną (najczęściej występującą) jest bardzo niska płaca poszczególnych pracowników (po 600 zł każdy).

Jak nie analizować danych statystycznych

Często ludzie wyciągają wnioski na podstawie wykresów. Wykresy takie przygotowywane są na podstawie zebranych pomiarów, ankiet lub obserwacji. Proces przygotowywania takiego wykresu zazwyczaj przebiega prawidłowo, jednakże zdarzają się osoby dokonujące ich analizy w sposób pospieszny i bezmyślny, nie zastanawiając się nawet przez chwilę, czy ich wnioski są sensowne, czy mają ręce i nogi.

Oto dwa takie przykłady:

Przykład 1:

Wykres ten przedstawia zależność strat majątkowych poniesionych przez właścicieli w pożarach ich domów od liczby strażaków biorących udział w gaszeniu tych domów. Wyraźnie widać, że im więcej strażaków brało udział w akcji, tym większe były straty. Czy to oznacza, że aby stary były jak najmniejsze do pożaru powinno jeździć jak najmniej jednostek gaśniczych?

Oczywiście, że nie: Chodzi o to, że ten wykres musi tak wyglądać i nigdy nie będzie wyglądał inaczej. Jak do pożaru wzywana jest duża liczba strażaków, oznacza że pożar jest poważny, a to naturalnie oznacza że straty mogą być (będą) większe.

Przykład 2:

Wykres przedstawia liczbę ataków rekinów na surferów w kolejnych dziesięcioleciach. Wyraźnie widać wzrost liczby ataków. Czy to oznacza, że przez ostatnie pół wieku rekiny stały się znacznie agresywniejsze niż to było kiedyś?

Oczywiście, że nie: Z tego wykresu należy raczej wnioskować, co jest bardziej prawdopodobne, że to liczba surferów się powiększyła!