class: center, middle, inverse, title-slide .title[ # Statystyka i wizualizacja danych ] .subtitle[ ## Testowanie istotności proporcji ] .author[ ### Jakub Nowosad
nowosad@amu.edu.pl
] --- class: inverse, middle, center # Dane jakościowe --- ## Dane jakościowe Zajmując się danymi jakościowymi można zadać sobie pytania o: 1. prawdopodobieństwo wystąpienia zjawiska z jednej grupy w odniesieniu do drugiej 2. to czy prawdopodobieństwo to zależy od innej zmiennej (ilościowej lub jakościowej) --- class: inverse, middle, center # Test chi-2 --- ## Test zgodności chi-kwadrat - Służy do porównania ze sobą zaobserowanego rozkładu naszej zmiennej z jakimś teoretycznym rozkładem --- ## Test niezależności chi-kwadrat - Test niezależności chi-kwadrat (**test chi-2 Pearsona**) służy do badania zależności między dwoma zmiennymi jakościowymi - Test stosuje się w celu zbadania zależności pomiędzy dwiema zmiennymi kategorialnymi - Jeżeli różnica pomiędzy nimi jest istotna statystycznie możemy uznać, że pomiędzy zmiennymi zachodzi relacja --- ## Test chi-kwadrat McNemara - Test dla prób zależnych --- class: inverse, middle, center # Przykłady --- ## Test zgodności chi-2 - przykład ```r plon = read.csv("data/plony.csv") head(plon) ``` ``` ## id jakosc_gleby plon opady ## 1 1 niska brak srednie ## 2 2 wysoka niski niskie ## 3 3 srednia sredni niskie ## 4 4 niska brak niskie ## 5 5 srednia brak wysokie ## 6 6 niska brak niskie ``` --- ## Test zgodności chi-2 - przykład ```r gleba_freq = table(plon$jakosc_gleby) gleba_freq ``` ``` ## ## niska srednia wysoka ## 34 29 37 ``` --- ## Test zgodności chi-2 - przykład ```r gleba_prob = c(1/3, 1/3, 1/3) ``` --- ## Test zgodności chi-2 - przykład ```r chisq.test(gleba_freq, p = gleba_prob) ``` ``` ## ## Chi-squared test for given probabilities ## ## data: gleba_freq ## X-squared = 0.98, df = 2, p-value = 0.6126 ``` --- ## Test niezależności chi-2 - przykład ```r tbl = table(plon$jakosc_gleby, plon$plon) tbl ``` <table> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:right;"> brak </th> <th style="text-align:right;"> niski </th> <th style="text-align:right;"> sredni </th> <th style="text-align:right;"> wysoki </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> niska </td> <td style="text-align:right;"> 18 </td> <td style="text-align:right;"> 8 </td> <td style="text-align:right;"> 5 </td> <td style="text-align:right;"> 3 </td> </tr> <tr> <td style="text-align:left;"> srednia </td> <td style="text-align:right;"> 5 </td> <td style="text-align:right;"> 12 </td> <td style="text-align:right;"> 11 </td> <td style="text-align:right;"> 1 </td> </tr> <tr> <td style="text-align:left;"> wysoka </td> <td style="text-align:right;"> 2 </td> <td style="text-align:right;"> 7 </td> <td style="text-align:right;"> 18 </td> <td style="text-align:right;"> 10 </td> </tr> </tbody> </table> --- ## Test niezależności chi-2 - przykład ```r chisq.test(tbl) ``` ``` ## Warning in chisq.test(tbl): Chi-squared approximation may be incorrect ``` ``` ## ## Pearson's Chi-squared test ## ## data: tbl ## X-squared = 33.897, df = 6, p-value = 7.041e-06 ``` --- ## Test chi-2 McNemara - przykład ```r pres = matrix( c(794, 150, 86, 570), nrow = 2, byrow = TRUE, dimnames = list( "1 badanie" = c("Zgoda", "Niezgoda"), "2 badanie" = c("Zgoda", "Niezgoda") ) ) pres ``` ``` ## 2 badanie ## 1 badanie Zgoda Niezgoda ## Zgoda 794 150 ## Niezgoda 86 570 ``` --- ## Test chi-2 McNemara - przykład ```r mcnemar.test(pres, correct = FALSE) ``` ``` ## ## McNemar's Chi-squared test ## ## data: pres ## McNemar's chi-squared = 17.356, df = 1, p-value = 3.099e-05 ``` --- class: inverse, middle, center # Zadania --- ## Zadania Wczytaj plik `data/opad_cyrkulacja.rds`: ```r opad_cyrkul = readRDS("data/opad_cyrkulacja.rds") ``` 1. W wieloleciu opad nie występuje w 200 dniach w roku, niski opad jest notowany w 110 dniach roku, a wysoki opad występuje jedynie w 55 dniach roku. Czy rozkład grup opadu w badanym roku 2014 różnił się istotnie od wielolecia? 2. Czy wielkość opadu różni się w zależności od występującego układu cyrkulacyjnego? 3. Czy istnieje relacja pomiędzy klasą opadu a wielkością plonu w zbiorze danych `plon`? 4. Wśród mieszkańców dzielnicy wykonano badanie dotyczące poczucia bezpieczeństwa na pobliskim skrzyżowaniu. 412 osób określiło je jako niebezpieczne, a 213 jako bezpieczne. Następnie zainstalowano system monitoringu w pobliżu skrzyżowania i powtórzono badanie. Tym razem 400 osób określiło skrzyżowanie jako niebezpieczne (2 osoby z nich wcześniej uważały je za bezpieczne), a 225 jako bezpieczne. Czy system monitoringu wpłynął w istotny sposób na odczucia mieszkańców?