DMpreprocessingdodatkowe.pdf

(2240 KB) Pobierz
Zaawansowana Eksploracja
Danych
Przetwarzanie wstępne danych
JERZY STEFANOWSKI
Instytut Informatyki
Politechnika Poznańska
Wykład 3
TPD – Zaawansowana eksploracja danych
2008/2009
Aktualizacja 2010
Plan wykładów
1.
2.
3.
4.
Miejsce przetwarzania wstępnego danych w procesie KDD
Typy przetwarzanych danych
Związki z integracją danych
Oczyszczanie danych
Wykrywanie błędów
Nieznane wartości atrybutów
Identyfikacja obserwacji odstających
5. Transformacje atrybutów
6. Dyskretyzacja atrybutów liczbowych
7. Redukcja rozmiarów danych
Selekcja atrybutów
Wybór obiektów
Slajdy – niektóre częściowo oparte na materiałach od Han i
Tan, Steinbach, Kumar
Proces odkrywanie wiedzy i etapy początkowe
Kilka pytań:
• Jakie
źródła
danych są związane z zadaniem /
zastosowaniem?
• Które z dostępnych danych są adekwatne do celów
zastosowania (data relevant)?
• Czy mamy dostęp do innych
źródeł
danych?
• Jakiej wielkości są dane historyczne (obiekty i
atrybuty)?
• Kto dobrze zna posiadane dane (who is data
expert)?
Zróżnicowanie typów danych
Han’s book
Records (tablice danych)
Relational records
Data matrix, e.g., numerical matrix,
crosstabs
Document data: text documents:
term-frequency vector
Transaction data
Graph
World Wide Web
Social or information networks
Molecular Structures
Ordered events
Spatial data: maps
Temporal data: time-series
Sequential Data: transaction
sequences
Genetic sequence data
TID
Items
1
2
3
4
5
Bread, Coke, Milk
Beer, Bread
Beer, Coke, Diaper, Milk
Beer, Bread, Diaper, Milk
Coke, Diaper, Milk
Zgłoś jeśli naruszono regulamin