Statystyka opisowa na maturze podstawowej sprowadza się do czterech miar: średniej arytmetycznej, mediany, dominanty oraz odchylenia standardowego. Każda z nich opowiada inną historię o tych samych danych, więc warto rozumieć, czym się różnią, a nie tylko znać wzory.
Średnia arytmetyczna – najpopularniejsza, ale nie zawsze najlepsza
Średnią arytmetyczną \( n \) liczb \( x_1, x_2, \ldots, x_n \) liczymy jako: \[ \bar{x} = \frac{x_1 + x_2 + \ldots + x_n}{n} \] Średnia jest wygodna, ale ma jedną istotną słabość: jest bardzo czuła na wartości odstające. Jedna ekstremalnie duża lub mała liczba w zbiorze danych może znacząco zniekształcić wynik względem „typowej” wartości w zbiorze.Przykład wpływu wartości odstającej
Jeśli pięciu pracowników zarabia \( 4000, 4200, 4100, 4300 \) i \( 20\,000 \) zł, średnia wynosi \( 7320 \) zł – znacznie więcej niż zarabia większość z nich. To dlatego w takich sytuacjach **mediana bywa lepszym opisem** typowej sytuacji niż średnia, podobnie jak w zadaniach z prawdopodobieństwa klasycznego trzeba czasem wybrać inną metodę niż ta najbardziej oczywista.Mediana – wartość środkowa
Mediana to wartość, która po uporządkowaniu danych od najmniejszej do największej znajduje się na środku zbioru. Sposób jej wyznaczania zależy od parzystości liczby danych.- Dla nieparzystej liczby danych — mediana to wartość środkowa po uporządkowaniu,
- dla parzystej liczby danych — mediana to średnia arytmetyczna dwóch środkowych wartości.
Zadanie 1: Wyznaczanie mediany
Wyznacz medianę zbioru danych: \( 8, 3, 10, 5, 7, 12, 4 \).
Pokaż rozwiązanie
Porządkujemy dane od najmniejszej do największej:
\[ 3, 4, 5, 7, 8, 10, 12 \]
Jest \( 7 \) danych (liczba nieparzysta), więc mediana to wartość na czwartej pozycji:
\[ Me = 7 \]
Odpowiedź: mediana wynosi \( 7 \).
Dominanta (moda) – wartość najczęstsza
Dominanta to wartość, która powtarza się w zbiorze najczęściej. Zbiór danych może mieć jedną dominantę, kilka dominant (gdy więcej niż jedna wartość powtarza się tyle samo razy) albo żadnej (gdy wszystkie wartości są różne).Zadanie 2: Wyznaczanie dominanty
Wyznacz dominantę zbioru ocen z klasówki: \( 3, 4, 4, 5, 3, 4, 2, 4 \).
Pokaż rozwiązanie
Zliczamy wystąpienia każdej oceny: \( 2 \) — raz, \( 3 \) — dwa razy, \( 4 \) — cztery razy, \( 5 \) — raz.
Ocena \( 4 \) występuje najczęściej.
Odpowiedź: dominanta wynosi \( 4 \).
Odchylenie standardowe – jak bardzo dane są rozproszone?
Odchylenie standardowe mierzy, jak daleko od średniej typowo leżą poszczególne wartości w zbiorze danych. Liczymy je w trzech krokach: najpierw wariancję, a potem jej pierwiastek. \[ \sigma^2 = \frac{(x_1 – \bar{x})^2 + (x_2 – \bar{x})^2 + \ldots + (x_n – \bar{x})^2}{n} \] \[ \sigma = \sqrt{\sigma^2} \]Dlaczego odchylenie standardowe, a nie sama różnica od średniej?
Gdybyśmy po prostu zsumowali różnice \( x_i – \bar{x} \), wynik zawsze wyniósłby zero — dodatnie i ujemne odchylenia od średniej znoszą się nawzajem. Podnoszenie do kwadratu eliminuje ten problem, a **pierwiastkowanie na końcu** przywraca wynik do oryginalnej jednostki danych.Zadanie 3: Obliczanie odchylenia standardowego
Oblicz odchylenie standardowe zbioru danych: \( 2, 4, 4, 6 \).
Pokaż rozwiązanie
Najpierw liczymy średnią:
\[ \bar{x} = \frac{2+4+4+6}{4} = 4 \]
Następnie różnice od średniej i ich kwadraty:
\[ (2-4)^2 = 4, \quad (4-4)^2 = 0, \quad (4-4)^2 = 0, \quad (6-4)^2 = 4 \]
Wariancja to średnia tych kwadratów:
\[ \sigma^2 = \frac{4+0+0+4}{4} = 2 \]
Odchylenie standardowe to pierwiastek z wariancji:
\[ \sigma = \sqrt{2} \approx 1{,}41 \]
Odpowiedź: odchylenie standardowe wynosi \( \sqrt{2} \approx 1{,}41 \).
Porównanie czterech miar statystycznych
| Miara | Co opisuje | Wrażliwość na odstające |
|---|---|---|
| Średnia | typową wartość | wysoka |
| Mediana | wartość środkową | niska |
| Dominanta | najczęstszą wartość | brak |
| Odchylenie standardowe | rozproszenie danych | wysoka |
Zobacz też: Prawdopodobieństwo i kombinatoryka – teoria i podstawowe wzory
Jak interpretować wynik na egzaminie?
Matura często pyta nie tylko o wartość liczbową, ale o interpretację wyniku — na przykład co oznacza wysokie odchylenie standardowe w kontekście zadania. Wysokie odchylenie oznacza dane silnie rozproszone wokół średniej, a niskie — dane skupione blisko średniej, czyli bardziej „jednolite”.Co sprawdzić przed oddaniem odpowiedzi?
- Czy podałeś jednostkę zgodną z danymi z treści zadania?
- Czy wynik leży w sensownym zakresie względem podanych danych?
- Czy zinterpretowałeś wynik, jeśli zadanie o to prosiło?