Jezyk_R_Kompletny_zestaw_narzedzi_dla_analitykow_danych_jezrko.pdf

(1797 KB) Pobierz
Tytuł oryginału: R for Data Science: Import, Tidy, Transform, Visualize, and Model Data
Tłumaczenie: Joanna Zatorska
ISBN: 978-83-283-3684-1
© 2018 Helion S.A.
Authorized Polish translation of the English edition of R for Data Science, ISBN 9781491910399 © 2017
Garrett Grolemund, Hadley Wickham.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means,
electronic or mechanical, including photocopying, recording or by any information storage retrieval system,
without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje
naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich
właścicieli.
Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były
kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane
z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie
ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji
zawartych w książce.
Wydawnictwo HELION
ul. Kościuszki 1c, 44-100 GLIWICE
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
http://helion.pl
(księgarnia internetowa, katalog książek)
Pliki z przykładami omawianymi w książce można znaleźć pod adresem:
ftp://ftp.helion.pl/przyklady/jezrko.zip
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie/jezrko
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis treści
Wstęp ......................................................................................................................... 9
Część I. Przegląd ...........................................................................................21
1. Wizualizacja danych za pomocą pakietu ggplot2 ........................................................ 23
Wstęp
Pierwsze kroki
Mapowanie estetyk
Typowe problemy
Panele
Obiekty geometryczne
Przekształcenia statystyczne
Dostosowanie położenia
Systemy współrzędnych
Warstwowa gramatyka graficzna
23
24
26
32
33
35
40
46
50
52
2. Organizacja pracy: podstawy ..................................................................................... 55
Podstawy kodowania
Co się kryje pod nazwą?
Wywoływanie funkcji
55
56
56
3. Przekształcanie danych za pomocą pakietu dplyr ....................................................... 59
Wprowadzenie
Filtrowanie wierszy za pomocą funkcji filter()
Organizowanie wierszy za pomocą funkcji arrange()
Wybieranie kolumn za pomocą funkcji select()
Dodawanie nowych zmiennych za pomocą funkcji mutate()
Zgrupowane wartości sumaryczne za pomocą funkcji summarize()
Grupowanie wyników mutowania (i filtrowania)
59
61
65
66
68
71
83
3
Kup książkę
Poleć książkę
4. Organizacja pracy: skrypty ......................................................................................... 87
Uruchamianie kodu
Diagnostyka RStudio
88
88
5. Eksploracyjna analiza danych .................................................................................... 91
Wstęp
Pytania
Odchylenie
Wartości brakujące
Kowariancja
Wzorce i modele
Wywołania ggplot2
Więcej informacji
91
92
93
100
102
112
115
115
6. Organizacja pracy: projekty ..................................................................................... 117
Co jest prawdziwe?
Gdzie przebywają nasze analizy?
Ścieżki i katalogi
Projekty RStudio
Podsumowanie
117
118
119
119
121
Część II. Przygotowywanie .......................................................................... 123
7. Dane typu tibble z użyciem pakietu tibble ................................................................ 125
Wstęp
Tworzenie danych typu tibble
Typ tibble w porównaniu z typem data.frame
Interakcje ze starszym kodem
125
125
127
128
8. Importowanie danych za pomocą pakietu readr ....................................................... 131
Wstęp
Zaczynamy
Parsowanie wektora
Parsowanie pliku
Zapis do pliku
Inne typy danych
131
131
134
140
145
146
9. Czyszczenie danych z wykorzystaniem pakietu tidyr ................................................. 149
Wstęp
Czyszczenie danych
Rozkład i gromadzenie
149
150
153
4
Spis treści
Poleć książkę
Kup książkę
Rozdzielanie i łączenie
Brakujące wartości
Studium przypadku
Dane nieoczyszczone
157
160
162
166
10. Dane relacyjne z wykorzystaniem pakietu dplyr ........................................................167
Wstęp
nycflights13
Klucze
Złączenia mutujące
Złączenia filtrujące
Problemy ze złączeniami
Operacje na zbiorach
167
168
170
172
180
183
184
11. Przetwarzanie napisów za pomocą pakietu stringr ....................................................187
Wstęp
Podstawy napisów
Dopasowywanie wzorców do wyrażeń regularnych
Grupowanie i odwołania wsteczne
Narzędzia
Inne typy wzorców
Inne sposoby użycia wyrażeń regularnych
Pakiet stringi
187
187
191
197
198
207
209
210
12. Czynniki z użyciem pakietu forcats ............................................................................211
Wstęp
Tworzenie czynników
Badania General Social Survey
Modyfikowanie kolejności czynnika
Modyfikowanie poziomów czynników
211
211
213
214
218
13. Przetwarzanie daty i czasu za pomocą pakietu lubridate ...........................................221
Wstęp
Tworzenie daty lub czasu
Komponenty danych typu data i czas
Odcinki czasu
Strefy czasowe
221
222
226
230
234
Spis treści
Kup książkę
5
Poleć książkę
Zgłoś jeśli naruszono regulamin