Laboratorium 4 statystyka.doc

(658 KB) Pobierz
Wprowadzenie do SPSS

9 | Strona                                               Statystyka laboratorium 4

 

1.     Tworzenie bazy w programie SPSS

 

Tworzenie bazy danych za pomocą importu z arkusza kalkulacyjnego Excel.

Zadanie 1. Kodowanie zmiennych w arkuszu Excel.

 

Otwórz Zbiór w Excelu Dane laboratorium 4 statystyka.

Zakoduj wszystkie zmienne tekstowe według formuły:

Płeć: nowa kolumna  kod_płeć  , sposób zakodowania: kobieta – 1; mężczyzna – 0;

Wykształcenie: nowa kolumna  kodwyksz  , sposób zakodowania: średnie - 1 ,
maturalne – 2, wyższe – 3, wyższe magisterskie – 4;

Miejscowość zamieszkiwana: nowa kolumna  kod_miejscowość  , sposób zakodowania: wieś - 1, gmina – 2, miasto – 3;

Czy pali papierosy: nowa kolumna  kod_palenie  , sposób zakodowania: tak- 1, nie – 0.

Zamknij zbiór.

 

Zadanie 2. Utworzenie zbioru w programie SPSS

1.              Uruchom SPSS.

Plikà Otwórz à   Dane



 

 

 

 

 

 

             

 

 

 

2.           Wybierz plik typu Excel i otwórz plik Dane laboratorium 4 statystyka.



Wybierz opcję Czytaj nazwy zmiennych z pierwszego wiersza danych

Jeśli widzisz

To dobrze wykonano polecenie.

3.       Wejdź w  zakładkę Zmienne

W etykietach wpisz nazwy, które mają pojawiać się w tabelach i na wykresach.

4.       Zapisywanie bazy.

a.       Wybierz Plik następnie Zapisz jako i wpisz nazwę pliku Nazwisko_laboratorium4.

b.       Wybierz Save.

Pojawi się raport w postaci

który można zapisać lub zamknąć.

 

 

 

 

 

 

 

 

 

 

 

Analiza pojedynczej zmiennej

 

Przypomnienie ( a może coś nowego?)

 

Oznaczmy obserwowane wartości zmiennej X przez x1, x2, …, xn.

 

Miary położenia

 

Dla zmiennych wyrażonych w skali interwałowej i ilorazowej klasycznymi miarami tendencji centralnej to najczęściej  średnie, które informują o przeciętnym poziomie cechy, nie odzwierciedlając różnic pomiędzy poszczególnymi jednostkami.

W zależności od postaci wartości zmiennej stosujemy:

-średnią arytmetyczną (gdy wartości zmiennej można dodawać),

-średnią geometryczną (gdy wartości zmiennej można mnożyć),

-średnią harmoniczną  (gdy wartości zmiennej można dodawać).

Wartość średniej wyznaczamy jeśli wartości zmiennej są jednorodne.

 

Średnia arytmetyczna

 

Średnia arytmetyczna równa się sumie wszystkich wartości zmiennej podzielonej przez ich liczbę.

Dla zmiennej, która przyjmuje wartości x1, x2, …, xn średnia arytmetyczna wynosi:

5% średnia  ucięta               - średnia wyznaczona z wartości zmiennej , z których wyeliminowano 5% największych i 5% najmniejszych wartości.

Wartość 5% średniej  uciętej wyznacza się gdy chcemy aby zmienne nietypowe nie zakłócały wartości średniej.

Średni błąd średniej (błąd standardowy)            .

Błąd standardowy - odchylenie średnie wyników pomiarów tej samej wielkości otrzymanych przy użyciu tego samego narzędzia pomiarowego.

 

Średnia geometryczna

 

Średnia geometryczna jest pierwiastkiem n - tego stopnia iloczynu n wartości zmiennej. Stosuje się ją głównie przy badaniu zmian tempa zjawisk . Średnia geometryczna w mniejszym stopniu niż średnia arytmetyczna odzwierciedla wpływ wartości ekstremalnych na przeciętny poziom zmiennej. Średnia geometryczną wyznacza się ze wzoru:

Z definicji wynika, że średnią geometryczną możemy wyznaczać tylko wtedy, gdy wartości obserwacje są liczbami dodatnimi i różnymi od zera.

 

Średnia harmoniczna

Średnią harmoniczna (dla liczb różnych od zera) nazywamy odwrotność średniej arytmetycznej z odwrotności wartości zmiennej. Oblicza się ją, gdy wartości zmiennej są podane w jednostkach względnych. Średnia harmoniczną wyznacza się ze wzoru:

przy czym:

Dla wszystkich zmiennych, wyrażonych co najmniej na skali porządkowej, można wyznaczać nieklasyczne miary tendencji centralnej. Należą do nich:

-mediana,

-dominanta (moda),

-kwantyle.

Mediana (zwana też wartością środkową) to w wartość w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba wartości zmiennej.

Dominanta (moda) - to najczęściej występująca wartość zmiennej.

Kwantylem rzędu p (Kp), gdzie 1 > p > 0, nazywamy każdą liczbę xp przed, którą znajduje się 100p% wartości zmiennej. Kwantyle dla  p = 0,25, p = 0,5, p = 0,75 nazywany kwartylami.

Gdy:    p = 0,25 – kwartyl dolny (inaczej kwartyl rzędu 1 oznaczany przez Q1, percentyl 25),

p = 0,5 -  mediana (inaczej kwartyl rzędu 2, percentyl 50),

p = 0,75 – kwartyl górny ( inaczej kwartyl rzędu 3 oznaczany przez Q3, percentyl 75).

 

W programie SPSS wartości kwanty li wyznaczane są kilkoma metodami, są to:

- algorytm standardowy,

- metoda średniej ważonej,

- metoda Empirical,

-metoda Aempirical,

- metoda zawiasów Tukey’a dla wyznaczenia 25, 50 i 75 percentyla (zwanych zawiasami Tukey’a).

W programie SPSS wyznaczane są alternatywne do mediany i średniej wartości tendencji centralnej.

Noszą one nazwę M-estymatorów i wyznaczane są metodami iteracyjnymi. M - estymatory stosowane są gdy rozkład zmiennej jest asymetryczny lub symetryczny lecz z długimi ogonami po lewej i prawej stronie. M – estymatory noszą nazwy pochodzące od nazwisk osób, które je wprowadziły.

Miary zmienności (rozproszenia, dyspersji)

Miary zmienności dzielimy na:

Miary klasyczne:

 

- wariancja (dla zmiennych, które można mnożyć),
- odchylenie standardowe(dla zmiennych, które można mnożyć),
- odchylenie przeciętne (dla zmiennych, które można dodawać),
- współczynnik zmienności (dla zmiennych, które można mnożyć i dzielić),

Miary pozycyjne:

 

- rozstęp (dla zmiennych, które można dodawać),
- odchylenie ćwiartkowe (dla zmiennych, które można dodawać),,
- współczynnik zmienności.

 

Wariancję wyznaczamy ze wzoru:

 

                                             ,

odchylenie standardowe:

.

                                                                                                 

Odchylenie standardowe informuje o ile średnio odchylają się wartości zmiennej od wartości średniej . Im mniejsza wartość odchylenia tym wartości zmiennej są bardziej skupione wokół średniej.

Rozstęp  R to wartość bezwzględna (moduł)  różnicy pomiędzy wartością maksymalną
i minimalną badanej zmiennej.

 

                                                                                            

 

Odchylenie ćwiartkowe Q (rozstęp międzykwartylowy) - jest to wielkość określająca odchylenie wartości zmiennej od mediany. Mierzy poziom zróżnicowania tylko części jednostek; po odrzuceniu  jednostek o wartościach niewiększych niż Q1 oraz jednostek o wartościach niemniejszych niż Q3. Im większa szerokość rozstępu ćwiartkowego, tym większe zróżnicowanie wartości zmiennej.

              .

Współczynnik zmienności wyznacza się ze wzoru.

Miary asymetrii

 

Istnieje wiele miar służących do wyznaczania asymetrii rozkładu do najczęściej stosowanych należy trzeci moment centralny , który wyznacza się  ze wzoru: 

             

lub współczynnik skośności              .             

Współczynnik skośności przyjmuje wartość zero dla rozkładu symetrycznego, wartości ujemne dla rozkładów o lewostronnej asymetrii (wydłużone lewe ramię rozkładu) i wartości dodatnie dla rozkładów o prawostronnej asymetrii (wydłużone prawe ramię rozkładu).

 

*Błąd skośności :                  

             

Miary koncentracji

Miary koncentracji mierzą koncentrację wartości zmiennej wokół średniej.  Do najczęściej stosowanych współczynników koncentracji należy kurtoza  Definiuje się ją następującym wzorem:

,                                                                     

gdzie nazywane czwartym momentem centralnym wyznacza się ze wzoru: 

.             

* Błąd kurtozy:                                             

 

Rozkłady zmiennych można podzielić ze względu na wartość kurtozy na rozkłady:

mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)

leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym (wykres  wysmukły)

platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym (wykres spłaszczony).

( *) Wartości błędów skośności i kurtozy mają interpretację, jeśli badane obserwacje traktowane są jako próba z populacji (w statystyce matematycznej).

Jeśli to przyjmuje się że w badanej populacji nie występuje asymetria.

Jeśli to przyjmuje się że w badanej populacji badana zmienna ma rozkład mezokurtyczny.

 

Zadanie 3. Analiza statystyczna zmiennej jakościowej wyrażonej w skali nominalnej

 

Przeprowadzić analizę zmiennej Miejscowość zamieszkiwana.

 

Aby program SPSS wyznaczył wszystkie statystyki wybieramy:

 



 

Pojawi się okno Częstości. Za pomocą strzałki przenosimy do okienka Zmienne nazwę zmiennej, która ma być analizowana

A następnie wybieramy Statystyki, które nas interesują.



Zaznaczono wszystkie statystyki, które można otrzymać w oknie Częstości.

Wynikiem będą tabele.

Zgłoś jeśli naruszono regulamin