Krzysztof Bzura, Mariusz Zięba IiE R3S5, SQL projekt
Tworzymy drzewo klasyfikujące na podstawie „Source_data”. Uwzględniamy wszystkie zmienne oprócz zmiennych ID oraz oczywiście Bike_buyer, ponieważ właśnie dla tej kolumny tworzymy model klasyfikujący.
Tworząc model na podstawie wszystkich zmiennych oprócz zmiennej ID nie da się określić trafności, czułości i specyficzności modelu, ponieważ w kolumnie wyjściowej wszystkie wartości przyjmują wartość NO co świadczy, że zmienne do modelu są źle dobrane.W związku z tym tworzymy nowe drzewo klasyfikacyjne ze wszystkimi zmiennymi oprócz:
· ID
· Marital_status
· Gender
· Bike_buyer
· Home_owner
Model1:
Tworzymy kolejny model na podstawie wszystkich zmiennych oprócz:
· Education
· Occupation
· Region
Model2:
Dla obydwu modeli tworzymy macierz klasyfikacji i wyliczamy trafność, czułośc oraz specyficzość.
Model 1:
8974 – liczba przypadków poprawnie odrzuconych74 – liczba poprawnie sklasyfikowanych przykładów z wybranej klasy26 – liczba przykladów błędnie przydzielonych do wybranej klasy, podczas gdy w rzeczywistości do niej nie należą926 – liczba błednie sklasyfikowanych przykładów z tej klasy, to jest decyzja egatywa podczas gdy w rzeczywistości przykład ten jest pozytywny (błąd pominięcia).
Model 2:
8997 – liczba przypadków poprawnie odrzuconych24 – liczba poprawnie sklasyfikowanych przykładów z wybranej klasy3 – liczba przykladów błędnie przydzielonych do wybranej klasy, podczas gdy w rzeczywistości do niej nie należą976 – liczba błednie sklasyfikowanych przykładów z tej klasy, to jest decyzja egatywa podczas gdy w rzeczywistości przykład ten jest pozytywny (błąd pominięcia).
Wybieramy model na podstawie czułości
Model 1:Czułość = 7,4%Model 2:Czułość = 2,4%
Dzięki zastosowaniu pierwszego modelu udaje nam się o 5% lepiej określić zmienna BikeBuyer.5% więcej ludzi kupi rower. Bardziej nas interesują klienci, którzy kupią rower niż Ci, którz go nie kupią.Model ten lepiej klasyfikuje przypadki yes niż model losowy.
sbox