Analiza podobienstwa_6_RD.pdf

(1869 KB) Pobierz
Analiza podobieństwa
W praktyce chemometrycznej występuje bardzo często potrzeba analizy
struktury wewnętrznej wielowymiarowego zbioru danych. Analiza taka
stanowić może:
i) niezbędny etap wstępnej obróbki danych,
ii) źródło danych dla poprawnej redukcji liczby zmiennych
objaśniających,
iii) podstawę optymalnej metody graficznej prezentacji danych,
iv) samodzielny cel analizy chemometrycznej.
Ze względu na stosowane podejście matematyczne techniki analizy struktury
danych podzielić można na dwie grupy metod.
Pierwsza z nich bazuje na pojęciu odległości obiektów lub zmiennych w
przestrzeni wielowymiarowej. Przyjmuje się przy tym, że obiekty
położone blisko siebie wykazują wzajemne podobieństwo.
Podejście takie pozwala dokonać podziału obiektów lub zmiennych na grupy
charakteryzujące się dużym stopniem wzajemnego podobieństwa.
Odmienne podejście stosowane jest w drugiej grupie metod zwanych
analizą głównych składowych. Podstawą tych metod jest analiza rozkładu
zasobów zmienności zawartej w danych pomiędzy poszczególne zmienne.
Niezależnie od zastosowanego podejścia matematycznego analiza struktury
danych stanowić może podstawę samodzielnej metody chemometrycznej
zwanej
analizą zależności
(ang.
Exploratory Analysis).
Jej celem jest
określenie relacji pomiędzy obiektami analizowanych danych oraz zależności
pomiędzy zmiennymi opisującymi te obiekty.
Przedmiotem zarówno analizy podobieństwa jak i analizy głównych
składowych jest macierz danych
X
zawierająca w każdym z n wierszy
wartości m zmiennych określonych dla każdego z n obiektów (próbek):
����
11
X
= ����
����1
����
����1
����
1����
����
��������
����
��������
����
1����
����
��������
����
��������
Nie dysponujemy przy tym żadnymi innymi informacjami na temat badanych
obiektów.
PRZYGOTOWANIE DANYCH
Przed rozpoczęciem właściwej analizy podobieństwa macierz danych należy
poddać wstępnej obróbce. Prawidłowe wykonanie tego etapu warunkuje
uzyskanie poprawnych i wiarygodnych wyników całej analizy.
Przygotowanie danych obejmuje dwa problemy: kompletowanie danych i
transformację zmiennych.
Gromadzenie danych
Bardzo istotnym elementem prac przygotowawczych jest skompletowanie
poprawnych wartości wszystkich danych potrzebnych do wypełnienia
macierzy
X.
Macierz ta nie może zawierać pustych miejsc.
Wstawianie w takie puste
miejsca wartości 0 jest najgorszym z możliwych rozwiązań. Jeżeli z jakichś
powodów nie można uzyskać wartości choćby tylko jednej zmiennej
objaśniającej dla danej próbki, to odpowiadający jej wiersz należy w zasadzie
usunąć z macierzy danych.
Pewnym wyjątkiem od tej reguły jest sytuacja, gdy wartość danej
zmiennej nie może być prawidłowo zmierzona z powodu ograniczeń
metody pomiarowej (np. za mała lub za duża czułość).
Postępowanie przy progu oznaczalności
Szczególnie często mamy do czynienia z tym problemem, gdy mierzona
wielkość znajduje się
poniżej progu oznaczalności stosowanej metody
pomiarowej.
Częstym błędem jest w takim przypadku wstawienie do
macierzy danych wartości 0.
Dane pierwotne poddaje się następnie pewnym transformacjom, mogą
zaistnieć dwie sytuacje:
-
nie można wykonać danego rodzaju transformacji dla wartości 0 (ma
to miejsce np. przy transformacji logarytmicznej),
transformację
można wykonać, lecz w efekcie otrzymujemy wartość
nie odpowiadającą rzeczywistości i próbka nabiera charakteru punktu
odbiegającego.
-
Typowym sposobem postępowania jest w takim przypadku wpisanie do
macierzy danych wartości równej połowie progu oznaczalności.
Transformacje zmiennych
Po prawidłowym skompletowaniu macierzy danych pierwotnych, poddawane
są one odpowiednim transformacjom. Polega to zwykle na modyfikacjach
kolumn macierzy danych.
Transformacje te mają na celu ułatwienie dalszej
analizy i obejmują:
i) transformacje specyficzne, zależne od natury wielkości mierzonej,
ii) centrowanie danych,
iii) skalowanie zapewniające współmierność zestawu zmiennych.
W zależności od natury poszczególnych zmiennych wskazane jest często
przeprowadzenie pewnych transformacji szczegółowych, zwłaszcza jeśli dane
obejmują bardzo różnorodny zestaw zmiennych. Chodzi o to, aby
rozkład
błędów w całym zestawie miał ten sam charakter.
Centrowanie danych, czyli taka ich transformacja liniowa (translacja), aby
wartości średnie wszystkich zmiennych pokrywały się z początkiem układu
współrzędnych jest typową operacją na danych przeznaczonych do analizy
podobieństwa.
Operacja ta nie wpływa bezpośrednio na rozkład próbek w m-
wymiarowej przestrzeni, za to ułatwia i upraszcza wykonanie niektórych
innych operacji.
Na przykład, w analizie głównych składowych centrowanie
jest
n i e z b ę d n y m
etapem początkowym.
Zgłoś jeśli naruszono regulamin