DMpreprocessingdodatkowe.pdf
(
2240 KB
)
Pobierz
Zaawansowana Eksploracja
Danych
Przetwarzanie wstępne danych
JERZY STEFANOWSKI
Instytut Informatyki
Politechnika Poznańska
Wykład 3
TPD – Zaawansowana eksploracja danych
2008/2009
Aktualizacja 2010
Plan wykładów
1.
2.
3.
4.
Miejsce przetwarzania wstępnego danych w procesie KDD
Typy przetwarzanych danych
Związki z integracją danych
Oczyszczanie danych
•
•
•
Wykrywanie błędów
Nieznane wartości atrybutów
Identyfikacja obserwacji odstających
5. Transformacje atrybutów
6. Dyskretyzacja atrybutów liczbowych
7. Redukcja rozmiarów danych
•
•
Selekcja atrybutów
Wybór obiektów
•
Slajdy – niektóre częściowo oparte na materiałach od Han i
Tan, Steinbach, Kumar
Proces odkrywanie wiedzy i etapy początkowe
Kilka pytań:
• Jakie
źródła
danych są związane z zadaniem /
zastosowaniem?
• Które z dostępnych danych są adekwatne do celów
zastosowania (data relevant)?
• Czy mamy dostęp do innych
źródeł
danych?
• Jakiej wielkości są dane historyczne (obiekty i
atrybuty)?
• Kto dobrze zna posiadane dane (who is data
expert)?
Zróżnicowanie typów danych
→
Han’s book
•
Records (tablice danych)
•
Relational records
•
Data matrix, e.g., numerical matrix,
crosstabs
•
Document data: text documents:
term-frequency vector
•
Transaction data
•
Graph
•
World Wide Web
•
Social or information networks
•
Molecular Structures
•
Ordered events
•
Spatial data: maps
•
Temporal data: time-series
•
Sequential Data: transaction
sequences
•
Genetic sequence data
TID
Items
1
2
3
4
5
Bread, Coke, Milk
Beer, Bread
Beer, Coke, Diaper, Milk
Beer, Bread, Diaper, Milk
Coke, Diaper, Milk
Plik z chomika:
Lexor2
Inne pliki z tego folderu:
cwicz-inddrzew.pdf
(128 KB)
DMpreprocessingdodatkowe.pdf
(2240 KB)
DMwstep.pdf
(699 KB)
DMmultipleclassifiers.pdf
(1715 KB)
CASESTUDY12.pdf
(183 KB)
Inne foldery tego chomika:
Bazy danych 1 (BD1)
HDA - Hurtownie Danych
Zgłoś jeśli
naruszono regulamin