projekt msSQL.docx

(10330 KB) Pobierz

Krzysztof Bzura, Mariusz Zięba IiE R3S5, SQL projekt

 

Tworzymy drzewo klasyfikujące na podstawie  „Source_data”. Uwzględniamy wszystkie zmienne oprócz zmiennych ID oraz oczywiście Bike_buyer, ponieważ właśnie dla tej kolumny tworzymy model klasyfikujący.



                                            

 

 

 

 

 

 

 

 

 

Tworząc model na podstawie wszystkich zmiennych oprócz zmiennej ID nie da się określić trafności, czułości i specyficzności modelu, ponieważ w kolumnie wyjściowej wszystkie wartości przyjmują wartość NO co świadczy, że zmienne do modelu są źle dobrane.
W związku z tym tworzymy nowe drzewo klasyfikacyjne ze wszystkimi zmiennymi oprócz:

·         ID

·         Marital_status

·         Gender

·         Bike_buyer

·         Home_owner


Model1:

Tworzymy kolejny model na podstawie wszystkich zmiennych oprócz:

·         ID

·         Bike_buyer

·         Education

·         Occupation

·         Region

Model2:

 


Dla obydwu modeli tworzymy  macierz klasyfikacji i wyliczamy trafność, czułośc oraz specyficzość.

Model 1:
 

 

8974 – liczba przypadków poprawnie odrzuconych
74 – liczba poprawnie sklasyfikowanych przykładów z wybranej klasy
26 – liczba przykladów błędnie przydzielonych do wybranej klasy, podczas gdy w rzeczywistości do niej nie należą
926 – liczba błednie sklasyfikowanych przykładów z tej klasy, to jest decyzja egatywa podczas gdy w rzeczywistości przykład ten jest pozytywny (błąd pominięcia).

 

Model 2:

 



 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8997 – liczba przypadków poprawnie odrzuconych
24 – liczba poprawnie sklasyfikowanych przykładów z wybranej klasy
3 – liczba przykladów błędnie przydzielonych do wybranej klasy, podczas gdy w rzeczywistości do niej nie należą
976 – liczba błednie sklasyfikowanych przykładów z tej klasy, to jest decyzja egatywa podczas gdy w rzeczywistości przykład ten jest pozytywny (błąd pominięcia).
 


Wybieramy model na podstawie czułości


Model 1:
Czułość = 7,4%
Model 2:
Czułość = 2,4%

Dzięki zastosowaniu pierwszego modelu udaje nam się o 5% lepiej określić zmienna BikeBuyer.
5% więcej ludzi kupi rower. Bardziej nas interesują klienci, którzy kupią rower niż Ci, którz go nie kupią.
Model ten lepiej klasyfikuje przypadki yes niż model losowy.

 

Zgłoś jeśli naruszono regulamin