class: center, middle, inverse, title-slide .title[ # Statystyka i wizualizacja danych ] .subtitle[ ## Testy nieparametryczne ] .author[ ### Jakub Nowosad
nowosad@amu.edu.pl
] --- class: inverse, middle, center # Testy nieparametryczne --- ## Testy nieparametryczne - Nie wymagają spełnienia założenia o normalności rozkładu (w przeciwieństwie do metod parametrycznych, które zakładają, że dane są ilościowe, populacja posiada rozkład normalny, a próba ma odpowiednią wielkość) - Wnioski wysunięte na podstawie testów nieparametrycznych nie mają tak dużej mocy jak testu parametryczne (zazwyczaj) - Testy nieparametryczne wymagają spełnienia mniejszej liczby założeń, są bardziej elastyczne oraz można je stosować również do danych nieilościowych --- ## Testy nieparametryczne - Testy nieparametryczne są oparte o analizę rang (czyli o kolejność a nie aktualne wartości) - Dane w porównywanych grupach są porządkowane (rosnąco lub malejąco) i na tej podstawie są wykonywane obliczenia - Metody nieparametryczne są najbardziej odpowiednie w przypadku prób o małych liczebnościach (patrz **Centralne Twierdzenie Graniczne**), zazwyczaj jako górną granicę stosowania testów nieparametycznych przyjmuje się *n=100* --- class: inverse, middle, center # Test U Manna-Whitneya --- ## Test U Manna-Whitneya - Nieparametryczna alternatywa **testu t-Studenta** dla prób niezależnych - Stosowany, gdy rozkład w populacji odbiega od normalnego lub gdy skala jest porządkowa, ale nie jest przedziałowa - Moc testu jest znaczaco większa od **testu t-Studenta**, gdy rozkład odbiega wyraźnie od normalnego --- ## Test U Manna-Whitneya - Hipoteza zerowa: `\(H_0 : \mu_1 = \mu_2\)` - Hipoteza alternatywna: `\(H_A : \mu_1 \neq \mu_2\)` --- ## Test U Manna-Whitneya - przykład ```r library(gapminder) gapminder2007 = subset(gapminder, year == 2007) head(gapminder2007) ``` <table> <thead> <tr> <th style="text-align:left;"> country </th> <th style="text-align:left;"> continent </th> <th style="text-align:right;"> year </th> <th style="text-align:right;"> lifeExp </th> <th style="text-align:right;"> pop </th> <th style="text-align:right;"> gdpPercap </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Afghanistan </td> <td style="text-align:left;"> Asia </td> <td style="text-align:right;"> 2007 </td> <td style="text-align:right;"> 43.828 </td> <td style="text-align:right;"> 31889923 </td> <td style="text-align:right;"> 974.5803 </td> </tr> <tr> <td style="text-align:left;"> Albania </td> <td style="text-align:left;"> Europe </td> <td style="text-align:right;"> 2007 </td> <td style="text-align:right;"> 76.423 </td> <td style="text-align:right;"> 3600523 </td> <td style="text-align:right;"> 5937.0295 </td> </tr> <tr> <td style="text-align:left;"> Algeria </td> <td style="text-align:left;"> Africa </td> <td style="text-align:right;"> 2007 </td> <td style="text-align:right;"> 72.301 </td> <td style="text-align:right;"> 33333216 </td> <td style="text-align:right;"> 6223.3675 </td> </tr> <tr> <td style="text-align:left;"> Angola </td> <td style="text-align:left;"> Africa </td> <td style="text-align:right;"> 2007 </td> <td style="text-align:right;"> 42.731 </td> <td style="text-align:right;"> 12420476 </td> <td style="text-align:right;"> 4797.2313 </td> </tr> <tr> <td style="text-align:left;"> Argentina </td> <td style="text-align:left;"> Americas </td> <td style="text-align:right;"> 2007 </td> <td style="text-align:right;"> 75.320 </td> <td style="text-align:right;"> 40301927 </td> <td style="text-align:right;"> 12779.3796 </td> </tr> <tr> <td style="text-align:left;"> Australia </td> <td style="text-align:left;"> Oceania </td> <td style="text-align:right;"> 2007 </td> <td style="text-align:right;"> 81.235 </td> <td style="text-align:right;"> 20434176 </td> <td style="text-align:right;"> 34435.3674 </td> </tr> </tbody> </table> --- ## Test U Manna-Whitneya - przykład #### Czy pomiędzy Amerykami a Azją jest istotna statystycznie różnica w wartościach PKB na osobę? -- ```r gapminder2007_sel = subset(gapminder2007, continent %in% c("Asia", "Americas")) wilcox.test(gdpPercap ~ continent, data = gapminder2007_sel) ``` ``` ## ## Wilcoxon rank sum exact test ## ## data: gdpPercap by continent ## W = 486, p-value = 0.2539 ## alternative hypothesis: true location shift is not equal to 0 ``` --- class: inverse, middle, center # Test Wilcoxona --- ## Test Wilcoxona - Nieparametryczna alternatywa testu **t-Studenta** dla prób zależnych - Test wykorzystywany jest do oceny zmian - Test Wilcoxona zakłada, że losowa próba z populacji ma symetryczny rozkład (niekoniecznie normalny) --- ## Test Wilcoxona - Hipoteza zerowa: `\(H_0 : \mu_1 = \mu_2\)` - Hipoteza alternatywna: `\(H_A : \mu_1 \neq \mu_2\)` --- ## Test Wilcoxona (przykład) ```r gapminder8707 = subset(gapminder, year %in% c(1987, 2007)) head(gapminder8707) ``` <table> <thead> <tr> <th style="text-align:left;"> country </th> <th style="text-align:left;"> continent </th> <th style="text-align:right;"> year </th> <th style="text-align:right;"> lifeExp </th> <th style="text-align:right;"> pop </th> <th style="text-align:right;"> gdpPercap </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Afghanistan </td> <td style="text-align:left;"> Asia </td> <td style="text-align:right;"> 1987 </td> <td style="text-align:right;"> 40.822 </td> <td style="text-align:right;"> 13867957 </td> <td style="text-align:right;"> 852.3959 </td> </tr> <tr> <td style="text-align:left;"> Afghanistan </td> <td style="text-align:left;"> Asia </td> <td style="text-align:right;"> 2007 </td> <td style="text-align:right;"> 43.828 </td> <td style="text-align:right;"> 31889923 </td> <td style="text-align:right;"> 974.5803 </td> </tr> <tr> <td style="text-align:left;"> Albania </td> <td style="text-align:left;"> Europe </td> <td style="text-align:right;"> 1987 </td> <td style="text-align:right;"> 72.000 </td> <td style="text-align:right;"> 3075321 </td> <td style="text-align:right;"> 3738.9327 </td> </tr> <tr> <td style="text-align:left;"> Albania </td> <td style="text-align:left;"> Europe </td> <td style="text-align:right;"> 2007 </td> <td style="text-align:right;"> 76.423 </td> <td style="text-align:right;"> 3600523 </td> <td style="text-align:right;"> 5937.0295 </td> </tr> <tr> <td style="text-align:left;"> Algeria </td> <td style="text-align:left;"> Africa </td> <td style="text-align:right;"> 1987 </td> <td style="text-align:right;"> 65.799 </td> <td style="text-align:right;"> 23254956 </td> <td style="text-align:right;"> 5681.3585 </td> </tr> <tr> <td style="text-align:left;"> Algeria </td> <td style="text-align:left;"> Africa </td> <td style="text-align:right;"> 2007 </td> <td style="text-align:right;"> 72.301 </td> <td style="text-align:right;"> 33333216 </td> <td style="text-align:right;"> 6223.3675 </td> </tr> </tbody> </table> --- ## Test Wilcoxona (przykład) ```r library(dplyr) library(tidyr) gapminder8707 = select(gapminder8707, country, year, lifeExp) gapminder8707 = pivot_wider(gapminder8707, values_from = lifeExp, names_from = year) names(gapminder8707) = c("kraj", "rok1987", "rok2007") head(gapminder8707) ``` ``` ## # A tibble: 6 × 3 ## kraj rok1987 rok2007 ## <fct> <dbl> <dbl> ## 1 Afghanistan 40.8 43.8 ## 2 Albania 72 76.4 ## 3 Algeria 65.8 72.3 ## 4 Angola 39.9 42.7 ## 5 Argentina 70.8 75.3 ## 6 Australia 76.3 81.2 ``` --- ## Test Wilcoxona (przykład) #### Czy pomiędzy rokiem 1987 a 2007 nastąpiła istotnie statystyczna zmiana w wartościach oczekiwanej długości życia? -- ```r wilcox.test(gapminder8707$rok1987, gapminder8707$rok2007, paired = TRUE) ``` ``` ## ## Wilcoxon signed rank test with continuity correction ## ## data: gapminder8707$rok1987 and gapminder8707$rok2007 ## V = 1441, p-value = 1.337e-13 ## alternative hypothesis: true location shift is not equal to 0 ``` --- class: inverse, middle, center # Zadania --- ## Zadania 1. Wczytaj dane z pakietu **gapminder**. Porównaj wartości oczekiwanej długości życia pomiędzy Afryką a Azją. Stwórz wizualizację, a następnie wykonaj test statystyczny. Jaki dał on wynik? 2. Porównaj PKB na osobę pomiędzy krajami z Europy pomiędzy rokiem 1977 a 1987. Czy pomiędzy tymi latami można zauważyć różnicę w PKB? Stwórz wizualizację, a następnie wykonaj test statystyczny. Jaki dał on wynik? 3. Wczytaj dane `data/pomiary_pol.csv`. Czy istnieje istotna statystycznie różnica pomiędzy średnią temperaturą roczną dla Karpat Wschodnich i Karpat Zachodnich? Stwórz wizualizację, a następnie wykonaj test statystyczny. 4. Czy istnieje istotna statystycznie różnica pomiędzy sumą roczną opadów dla województw podlaskiego i kujawsko-pomorskiego? Stwórz wizualizację, a następnie wykonaj test statystyczny.