projekt msSQL.docx

(10330 KB) Pobierz

Krzysztof Bzura, Mariusz Zięba IiE R3S5, SQL projekt

Tworzymy drzewo klasyfikujące na podstawie „Source_data”. Uwzględniamy wszystkie zmienne oprócz zmiennych ID oraz oczywiście Bike_buyer, ponieważ właśnie dla tej kolumny tworzymy model klasyfikujący.

Tworząc model na podstawie wszystkich zmiennych oprócz zmiennej ID nie da się określić trafności, czułości i specyficzności modelu, ponieważ w kolumnie wyjściowej wszystkie wartości przyjmują wartość NO co świadczy, że zmienne do modelu są źle dobrane.
W związku z tym tworzymy nowe drzewo klasyfikacyjne ze wszystkimi zmiennymi oprócz:

· ID

· Marital_status

· Gender

· Bike_buyer

· Home_owner

Model1:

Tworzymy kolejny model na podstawie wszystkich zmiennych oprócz:

· ID

· Bike_buyer

· Education

· Occupation

· Region

Model2:

Dla obydwu modeli tworzymy macierz klasyfikacji i wyliczamy trafność, czułośc oraz specyficzość.

Model 1:

8974 – liczba przypadków poprawnie odrzuconych
74 – liczba poprawnie sklasyfikowanych przykładów z wybranej klasy
26 – liczba przykladów błędnie przydzielonych do wybranej klasy, podczas gdy w rzeczywistości do niej nie należą
926 – liczba błednie sklasyfikowanych przykładów z tej klasy, to jest decyzja egatywa podczas gdy w rzeczywistości przykład ten jest pozytywny (błąd pominięcia).

Model 2:

8997 – liczba przypadków poprawnie odrzuconych
24 – liczba poprawnie sklasyfikowanych przykładów z wybranej klasy
3 – liczba przykladów błędnie przydzielonych do wybranej klasy, podczas gdy w rzeczywistości do niej nie należą
976 – liczba błednie sklasyfikowanych przykładów z tej klasy, to jest decyzja egatywa podczas gdy w rzeczywistości przykład ten jest pozytywny (błąd pominięcia).

Wybieramy model na podstawie czułości

Model 1:
Czułość = 7,4%
Model 2:
Czułość = 2,4%

Dzięki zastosowaniu pierwszego modelu udaje nam się o 5% lepiej określić zmienna BikeBuyer.
5% więcej ludzi kupi rower. Bardziej nas interesują klienci, którzy kupią rower niż Ci, którz go nie kupią.
Model ten lepiej klasyfikuje przypadki yes niż model losowy.

Plik z chomika:

sbox

Inne pliki z tego folderu:

projekt msSQL.docx (10330 KB)
Projekt.docx (1240 KB)
xxx.docx (250 KB)
projekt-kopia.docx (328 KB)
PS BJAM - projekt.docx (251 KB)

projekt msSQL.docx

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: