Page 1

Czynniki wpływające na decyzję pracownika o odejściu z firmy

Praca przygotowana w ramach realizacji przedmiotu Data Mining


Spis treści Wstęp ...................................................................................................................................................... 1 Rozdział 1. Opis zbioru danych .............................................................................................................. 3 Rozdział 2 Eksploracja statystyk i wykresów ......................................................................................... 6 2.1 Rozkład zmiennej objaśnianej ...................................................................................................... 6 2.2 Podstawowe statystyki .................................................................................................................. 6 2.2.1 Zmienne jakościowe .............................................................................................................. 7 2.2.3 Zmienne przedziałowe ........................................................................................................... 9 2.3 Przygotowanie zmiennych do analizy......................................................................................... 10 2.3.1 Braki danych ........................................................................................................................ 10 2.3.2 Zależność zmiennych objaśniających ze zmienną celu........................................................ 11 2.3.3 Wybór zmiennych oraz partycjonowanie zbioru ................................................................. 11 2.3.4 Przekształcanie zmiennych ................................................................................................. 13 Rozdział 3 Modele regresji logistycznej ............................................................................................... 14 3.1 Specyfikacja zbudowanych modeli ............................................................................................. 14 Regresja (1) i Regresja (5): ........................................................................................................... 16 Regresja (2) i Regresja (6) ............................................................................................................ 16 Regresja (3) i Regresja (7) ............................................................................................................ 17 Regresja (4) i Regresja (8) ............................................................................................................ 17 Porównanie modeli regresji logistycznej .......................................................................................... 17 Rozdział 4 Sieci neuronowe.................................................................................................................. 19 4.1 Wprowadzenie ............................................................................................................................ 19 4.2 Specyfikacja zbudowanych modeli sieci neuronowej................................................................. 19 4.3 Porównanie modeli sieci neuronowej ......................................................................................... 21 Rozdział 5 Drzewa decyzyjne ............................................................................................................... 24 5.1 Charakterystyka modelu drzewa decyzyjnego ............................................................................ 24 5.2 Konstrukcja i ewolucja modelu................................................................................................... 24 5.3 Porównanie i wybór najlepszego modelu drzewa decyzyjnego .................................................. 32 Rozdział 6 Porównanie modeli ............................................................................................................. 34 Podsumowanie ...................................................................................................................................... 37 Spis rysunków ....................................................................................................................................... 38 Spis tabel ............................................................................................................................................... 39 Źródła ................................................................................................................................................ 39

Dane pozostałych autorów publikacji chronione prawnie. Pytania w tej sprawie proszę kierować na marcin.czarnecki.sgh@gmail.com.

1


Wstęp Kluczem do sukcesu każdej organizacji jest przyciągnięcie i zatrzymanie w niej utalentowanych ludzi. Odejście pracownika oznacza w większości przypadków stratę dla pracodawcy – utratę możliwości korzystania z jego kwalifikacji i doświadczenia zdobytego w czasie, kiedy był zatrudniony w firmie. Wśród konsekwencji odejścia pracownika dodatkowo można wymienić m.in. utratę klientów (mogą oni odejść wraz z pracownikiem) czy zmniejszenie motywacji innych pracowników. Zmiana składu osobowego wiąże się ze stresem, w końcu obowiązki osoby odchodzącej najczęściej są czasowo przejmowane przez członków jej zespołu, do czasu odpowiedniego przygotowania nowej osoby do samodzielnego wykonywania tych zadań.1 Celem niniejszej pracy jest określenie, jakie czynniki sprawiają, że pracownicy zostają na swoim miejscu pracy, a jakie skłaniają ich do odejścia. Temat ten wydaje się szczególnie interesujący z dwóch powodów. Po pierwsze, na warszawskim rynku pracy pojawiają się stopniowo coraz młodsze osoby, często są to studenci. Obecne pokolenie jest szczególnie zainteresowane czynnikami tworzącymi miejsce pracy przyjazne pracownikowi. Dzięki posiadaniu takich informacji młodzi ludzie będą mogli podejmować bardziej świadome decyzje związane ze swoim zatrudnieniem. Oprócz tego, niniejsza analiza może okazać się przydatna doradcom HR w celu przeprowadzenia gruntownej analizy sytuacji kadrowej oraz uzyskania rekomendacji co do proponowanych działań w celu poprawy sytuacji i zatrzymania większej ilości pracowników.

Dolot, A. (2018). Przyczyny odchodzenia pracowników z organizacji. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Krakowie, 977(5), 129-142. 1

2


Rozdział 1. Opis zbioru danych Analiza przeprowadzona została na podstawie danych o 1470 pracownikach pewnej firmy. Poniżej znajdują się wyjaśnienia nazw zmiennych zbioru wyjściowego oraz informacja, które zmienne zostały odrzucone z dalszej analizy: • • • • • • •

• • • • • • • • • • • • • • • • • • •

Age – wiek pracownika w latach; Attrition – zmienna binarna przyjmująca wartość „YES” jeśli pracownik odszedł z pracy i „NO”, jeśli nie odszedł; BusinessTravel – zmienna określająca, czy i jak często pracownik odbywa podróże służbowe; DailyRate – stawka dzień pracy w jednostce pieniężnej; Department – dział firmy, w którym pracuje dana osoba; DistanceFromHome – odległość z miejsca pracy do miejsca zamieszkania danego pracownika; Education – poziom wykształcenia, w którym wartości numeryczne oznaczają odpowiednio kolejne (uporządkowane od najniższego do najwyższego stopnie edukacji): 1 'Below College' 2 'College' 3 'Bachelor' 4 'Master' 5 'Doctor'; EducationField – obszar edukacji, np. nauki ścisłe, medyczne, przyrodnicze; EmployeeCount – zmienna przyjmująca wartość 1 dla każdego pracownika, odrzucona w dalszej analizie; EmployeeNumber – numer przyporządkowany danemu pracownikowi, zmienna odrzucona w dalszej analizie; EnvironmentSatisfaction – poziom satysfakcji danego pracownika z wykonywanej przez niego pracy w skali od 1 do 4: 1 'Low' 2 'Medium' 3 'High' 4 'Very High'; Gender – płeć pracownika, kobieta lub mężczyzna; HourlyRate – stawka za godzinę pracy w jednostce pieniężnej; JobInvolvement – zaangażowanie w pracę w skali od 1 do 4, 1 'Low' 2 'Medium' 3 'High' 4 'Very High'; JobLevel – poziom danego stanowiska w strukturze organizacyjnej firmy; JobRole – nazwa stanowiska; JobSatisfaction – satysfakcja z pracy w skali od 1 do 4: 1 'Low' 2 'Medium' 3 'High' 4 'Very High'; MaritalStatus – stan cywilny pracownika (w związku małżeńskim, rozwiedziony, panna/kawaler); MonthlyIncome – miesięczny przychód na członka rodziny w jednostkach pieniężnych; MonthlyRate -stawka miesięczna w jednostkach pieniężnych; NumCompaniesWorked – liczba firm, w której pracownik pracował do tej pory; Over18 – czy pracownik ma powyżej 18 lat, zmienna przyjmuje wartość „Y” dla każdego pracownika, zostanie odrzucona w dalszej analizie; OverTime – czy pracownik często w jego odczuciu wyrabia nadgodziny; PercentSalaryHike – procentowa podwyżka płac; PerformanceRating – ocena jakości pracy danego pracownika - 1 'Low' 2 'Good' 3 'Excellent' 4 'Outstanding'; RelationshipSatisfaction – satysfakcja z relacji z innymi pracownikami 1 'Low' 2 'Medium' 3 'High' 4 'Very High'; 3


• • • • •

• • • •

StandardHours – liczba godzin pracy, jednakowa dla wszystkich pracowników, zmienna odrzucona w dalszej analizie; StockOptionLevel – poziom pracownika w skali (0-3) uprawniający do nabywania przez niego akcji firmy, w której pracuje; TotalWorkingYears – liczba przepracowanych lat w sumie, w obecnej i poprzednich firmach; TrainingTimesLastYear – liczba odbytych szkoleń w firmie w roku poprzedzającym rok badania; WorkLifeBalance – ocena subiektywna zachowania przez pracownika równowagi pomiędzy karierą zawodową a życiem prywatnym w skali od 1 do 4: 1 'Bad' 2 'Good' 3 'Better' 4 'Best'; YearsAtCompany – liczba przepracowanych lat w obecnej firmie; YearsInCurrentRole - liczba przepracowanych lat na obecnym stanowisku; YearsSinceLastPromotion – liczba lat, która upłynęła od ostatniego awansu pracownika; YearsWithCurrManager – liczba lat, odkąd pracownik podlega obecnemu przełożonemu.

Zmienne opisane powyżej jako odrzucone w dalszej analizie ze względu na brak użytecznej informacji wnoszonej przez nie do modelu zostały przez nas usunięte ze zbioru przed ich importem do programu SAS Enterprise Miner. Analizowanym zmiennym zostały przypisane następujące role i poziomy:

4


Tabela 1 – role i poziomy analizowanych zmiennych

Źródło – opracowanie własne w programie SAS Enterprise Miner

5


Rozdział 2 Eksploracja statystyk i wykresów Rysunek 1 Przygotowanie danych do analizy

Źródło – opracowanie własne w programie SAS Enterprise Miner

2.1 Rozkład zmiennej objaśnianej Rysunek 2 Rozkład zmiennej celu

Źródło – opracowanie własne w programie SAS Enterprise Miner

Liczebności dla zmiennej objaśnianej wynoszą odpowiednio 237 osób (tj. 16%), które odeszły z pracy i 1233 (tj. 84% ), które zostały.

2.2 Podstawowe statystyki Na początku warto zwrócić uwagę na podstawowe statystyki opisowe zmiennych jakościowych oraz przedziałowych.

6


2.2.1 Zmienne jakościowe Analizując zmienną płeć możemy stwierdzić, że 60% pracowników firmy stanowili mężczyźni, 17% z nich odeszło z pracy. Wśród kobiet odsetek odejścia z pracy wyniósł 15%.

Rysunek 3 Rozkład zmiennej BussinessTravel

Źródło – opracowanie własne w programie SAS Enterprise Miner

Zmienna BussinesTravel pokazuje, że zdecydowana większość (tj. 75%) pracowników podróżuje rzadko, natomiast 19% podróżuje często. Z powyższego wykresu można zauważyć, że niewielki odsetek (tj. 8%) pracowników, którzy nie podróżują biznesowo, odchodzi z pracy. 15% osób, które podróżuje rzadko, odchodzi z pracy. W przypadku pracowników często wyjeżdżających w sprawach biznesowych, 25% odchodzi z pracy.

7


Rysunek 4 Rozkład zmiennej Department

Źródło – opracowanie własne w programie SAS Enterprise Miner

Analizując zmienną Department, można stwierdzić, że większość (tj. 65%) osób pracuje w dziale Research & Development, 30% w sales i 5% w Human Resources. Na podstawie powyższego wykresu można zauważyć, że najwięcej pracowników odchodzi z działu sprzedaży (tj. 21%) oraz z działu HR – 19%. Z departamentu Research & Development odeszło tylko 14% pracowników.

Rysunek 5 Rozkład zmiennej OverTime

Źródło – opracowanie własne w programie SAS Enterprise Miner

8


Można zauważyć, że większość pracowników nie zadeklarowało, że za często wyrabia nadgodziny (tj. 72%), a odsetek odejścia z pracy dla tej grupy wynosi 10%. Wśród pozostałych pracowników 30% osób odeszło z pracy.

2.2.3 Zmienne przedziałowe Tabela 2 Statystyki opisowe - zmienne przedziałowe

Źródło – opracowanie własne w programie SAS Enterprise Miner

Na podstawie powyższego wydruku można stwierdzić, że średni wiek pracownika firmy wynosi ok. 37 lat. Średnia ilość lat pracy wynosi 11 lat, w tym średnio 7 lat w analizowanej firmie. Pracownicy w firmie zarabiają średnio 6503$ , mediana wynosi 4908$, a skośność wynosi ok 1,37, co świadczy o dodatniej asymetrii dochodów.

Tabela 3 Statystyki zmiennych przedziałowych dla attrition=Yes

Zmienna

Q1

Mediana

Q3

Średnia

PercentSalaryHike

12

14

17

15

MonthlyIncome

2373

3202

5916

4787

Age

28

32

39

34

YearsAtCompany

1

3

7

5

YearsSinceLastPromotion

0

1

2

2

YearsInCurrentRole

0

2

4

3

YearsWithCurrentManager 0

2

5

3

Źródło – opracowanie własne na podstawie programu SAS Enterprise Miner

9


Tabela 4 Tabela 4 Statystyki zmiennych przedziałowych dla attrition=No

Zmienna

Q1

Mediana

Q3

Średnia

PercentSalaryHike

12

14

18

15

MonthlyIncome

3211

5204

8834

6833

Age

31

36

43

38

YearsAtCompany

3

6

10

7

YearsSinceLastPromotion

0

1

3

2

YearsInCurrentRole

2

3

7

4

YearsWithCurrentManager 2

3

7

4

Źródło – opracowanie własne na podstawie programu SAS Enterprise Miner

Na podstawie tabel nr 3 i 4 można stwierdzić, że osoby, które odchodzą z pracy mają niższe dochody (średnie zarobki wynoszą odpowiednio 4787 $ i 6833 $, a mediany 3202 $ i 5204 $). Charakterystyczny jest dla nich krótszy staż w firmie (odpowiednio średnia wynosi 5 lat i 7 lat oraz mediany 3 lata i 6 lat) oraz krótszy staż na obecnym stanowisku (odpowiednio średnia wynosi 2 lata i 4 lata, a mediany 1 i 3 lata). Różnica zarówno pomiędzy średnimi jak i medianami wynosi 1 rok. Wyniki otrzymane dla zmiennych PercentSalaryHike i YearsSinceLastPromotion są porównywalne.

2.3 Przygotowanie zmiennych do analizy 2.3.1 Braki danych Zbiór wyjściowy nie posiadał braków danych, dlatego nie zaszła konieczność zamieszczenia węzła imputacja w celu ich uzupełnienia.

10


2.3.2 Zależność zmiennych objaśniających ze zmienną celu Rysunek 6 Statystyka V-Cramera

Źródło – opracowanie własne w programie SAS Enterprise Miner

Statystyka V-Cramera, przyjmująca wartości od 0 do 1 mierzy stopień zależności pomiędzy zmiennymi objaśniającymi a zmienną celu. Z powyższego wykresu. Z powyższego wykresu można zauważyć, że zmienne reprezentujące częste nadgodziny, stanowisko pracy, poziom danego stanowiska w strukturze organizacyjnej firmy oraz wiek najbardziej determinują odejścia z pracy (attrition).

2.3.3 Wybór zmiennych oraz partycjonowanie zbioru Postanowiono sprawdzić jaki wpływ na jakość modelu ma kolejność użycia węzłów „Wybór zmiennych” i „Partycjonowanie”. Wybór zmiennych został dokonany z wykorzystaniem drzewa decyzyjnego – statystyka Chi-kwadrat.

1) Najpierw użycie węzła „Partycjonowanie”, a następnie „Wybór zmiennych”

11


Rysunek 7 Istotne zmienne - najpierw „Partycjonowanie”, a potem „Wybór zmiennych”

Źródło – opracowanie własne w programie SAS Enterprise Miner

2) Najpierw użycie węzła „Wybór zmiennych” , a następnie „Partycjonowanie”. Rysunek 8 Istotne zmienne - najpierw „Wybór zmiennych” a potem „Partycjonowanie”

Źródło – opracowanie własne w programie SAS Enterprise Miner

Porównując Wykres nr 3 i 4, można zauważyć, że używając najpierw węzła „Partycjonowanie”, a następnie „Wybór zmiennych” otrzymano mniej istotnych zmiennych. Ponadto, w przeciwieństwie do drugiej kombinacji węzłów, zmienne reprezentujące podróże biznesowe oraz procentową podwyżkę płac są istotne.

12


2.3.4 Przekształcanie zmiennych Tabela 5 Statystyki opisowe - zmienne przedziałowe

Źródło – opracowanie własne w programie SAS Enterprise Miner

Ze względu na znaczącą skośność postanowiono użyć przekształcenia logarytmicznego dla zmiennych: odległość z miejsca pracy do miejsca zamieszkania danego pracownika (DistanceFromHome), Dochód miesięczny (MonthlyIncome), lata pracy (TotalWorkingYears), lata na obecnym stanowisku (YearsInCurrentRole), liczba lat, która upłynęła od ostatniego awansu pracownika (YearsSinceLastPromotion) oraz procentowa podwyżka płac (PercentSalaryHike).

13


Rozdział 3 Modele regresji logistycznej Pierwszym z zastosowanych przez nas sposobów badania zjawiska attrition oraz tego, jakie zmienne na nie wpływają jest regresja logistyczna, która zostanie zastosowana ze względu na to, że zmienna objaśniana jest zmienną binarną. Dzięki zastosowaniu tego rodzaju regresji oraz interpretacji efektów krańcowych możemy określić jakie zmienia się prawdopodobieństwo odejścia z pracy (co w naszym modelu oznacza przyjęcie przez zmienną attrition wartości YES) przy zmianie poziomu zmiennych niezależnych. Estymacja modelu polega na wyznaczeniu na podstawie próby losowej wartości b0, … , bk takich, że : Ŷ= E(Y| X) = b0 + b1X1 + … bkXk,, gdzie Ŷ jest wartością teoretyczną zmiennej Y. Generowana jest nieliniowa funkcja logistyczna, której wartości są interpretowane jako warunkowe prawdopodobieństwa lub warunkowe wartości średnie zmiennej zależnej. Metodą szacowania parametrów jest metoda największej wiarygodności. Poprzez zastosowanie węzła wybór zmiennych przed oszacowaniem parametrów w regresji logistycznej został rozwiązany problem potencjalnej redundancji danych (powtarzania informacji niesionej przez kilka zmiennych) oraz występowania potencjalnych zmiennych, które mają nieznaczny wpływ na kształtowanie się zmiennej objaśnianej.

3.1 Specyfikacja zbudowanych modeli W przeprowadzonej przez nas analizie zostało skonstruowanych 8 modeli regresji logistycznej – 4 w których najpierw zostało przeprowadzone partycjonowanie, a następnie wybór zmiennych (nazywane dalej grupą I modeli dla uproszczenia opisu) oraz 4, w których dwa wyżej wspomniane węzły zostały wskazane w odwrotnej kolejności (grupa II modeli). W obu grupach partycjonowanie dzieli zbiór na uczący, walidacyjny i testowy odpowiednio na 60%, 30% i 10%.

14


Rysunek 9 schemat budowy modeli regresji logistycznej oraz ich porównanie

Źródło – opracowanie własne w programie SAS Enterprise Miner

W obrębie każdej z dwóch grup zastosowano jednakowe ustawienia, w taki sposób, że Regresja (1) i Regresja (5), Regresja(2) i Regresja(6) etc. mają takie same ustawienia i różnią się tylko kolejnością występujących przed nimi węzłów wybór zmiennych i partycjonowanie. Już taka zmiana powoduje, że inne zmienne zostają wybrane w grupie I i w grupie II jako niezależne zmienne opisujące attrition.

15


Tabela 6 - Zmienne wybrane przez węzeł „wybór zmiennych” do poszczególnych modeli regresji logistycznej

Źródło: Opracowanie własne na podstawie obliczeń w programie SAS Enterprise Miner

W każdym z modeli został również użyty węzeł przekształcanie zmiennych, w którym dla zmiennych ciągłych następuje próba stworzenia przekształceń nieliniowych (kwadratów lub logarytmów) dla tych zmiennych, które okażą się nieistotne statystycznie, aby sprawdzić, czy takie przekształcenie będzie zmienną statystycznie istotną. Zmienne jakościowe zostały rozłożone na zmienne zerojedynkowe (ostatni poziom tych zmiennych jest poziomem referencyjnym i nie występuje w modelu). Modele zostały skonstruowane w następujący sposób:

Regresja (1) i Regresja (5): •

Nie uwzględnia interakcji między zmiennymi

Model wyboru: brak

Kryterium wyboru: domyślne

Regresja (2) i Regresja (6) •

Uwzględnia interakcje dwuczynnikowe

Model wyboru: Metoda regresji krokowej (Stepwise procedure)

Kryterium wyboru: domyślne

16


Regresja (3) i Regresja (7) •

Uwzględnia interakcje dwuczynnikowe

Model wyboru: Metoda dołączania (Forward procedure)

Kryterium wyboru: Kryterium informacyjne Akaikego

Regresja (4) i Regresja (8) •

Nie uwzględnia interakcji między zmiennymi

Model wyboru: metoda eliminacji (Backward elimination procedure)

Kryterium wyboru: Kryterium informacyjne Schwarza

Porównanie modeli regresji logistycznej Spośród oszacowanych modeli regresji logistycznej najlepszy będzie ten, który najlepiej klasyfikuje obecnych i przyszłych pracowników, którzy będą oceniani za jego pomocą, pod kątem tego, czy są oni potencjalnymi osobami, które mogłyby odejść z pracy. Celem porównania modeli regresji jest dla nas wybranie najlepszego w celu „konkurowania” ze sztuczną siecią neuronową oraz drzewem decyzyjnym. Dlatego też za kryterium porównania modeli przyjmujemy indeks ROC na zbiorze testowym. Tabela 7 Pole pod krzywą ROC dla poszczególnych modeli regresji logistycznej Regresja

Testowanie:

logistyczna

Indeks ROC

Regresja(5)

0,835

Regresja(8)

0,829

Regresja(6)

0,824

Regresja(2)

0,804

Regresja(3)

0,804

Regresja(1)

0,796

Regresja(4)

0762

Regresja(7)

0,665

Źródło: Opracowanie własne na podstawie obliczeń w programie SAS Enterprise Miner

Analizując kształt krzywych ROC na zbiorze uczącym, walidacyjnym i testowym, można stwierdzić, że są one podobne, co nie wskazuje na przetrenowanie bądź niedotrenowanie wybranego przez nas modelu (Regresja(5)).

17


Rysunek 10 - Krzywe ROC dla wszystkich modeli regresji logistycznej z wyróżnieniem Regresji (5)

Źródło: Opracowanie własne w programie SAS Enterprise Miner.

Jak wynika z powyższej tabeli, najlepszym modelem regresji logistycznej okazała się Regresja(5) i to ona będzie reprezentantem modeli regresji logistycznej służącym do porównania z drzewem decyzyjnym oraz siecią neuronową.

18


Rozdział 4 Sieci neuronowe 4.1 Wprowadzenie Sieć neuronowa pozwala na modelowanie wartości zmiennej wynikowej w przypadku, gdy nie znamy zależności funkcyjnej pomiędzy zmiennymi objaśniającymi a zmienną objaśnianą. Jej celem jest dokonanie predykcji lub zbadanie przynależności klasowej obiektu. Dla badanego zjawiska postanowiono zbudować modele sieci neuronowej, które będą określać predykcję zjawiska odejścia z firmy przez pracownika. Budowa sztucznej sieci neuronowej jest analogiczna z tą w organizmach żywych. Każda z nich składa się z warstwy wejściowej, gdzie znajdują się dane, warstwy ukrytej gdzie wskutek działania funkcji aktywacji dane wejściowe są przetwarzane oraz warstwy wyjściowej, która zawiera końcowy rezultat sieci. W rozważanych sieciach każdy z neuronów w danej warstwie połączony jest z neuronem z warstwy sąsiadującej. Sygnały przekazywane są od warstwy wejściowej, poprzez warstwy ukryte do warstwy wyjściowej. Postanowiono zbudować kilka modeli sieci neuronowych różniących się liczbą neuronów w warstwie ukrytej (im głębsza sieć, tym otrzymujemy lepsze dopasowanie modelu do danych, jednakże zachodzi niebezpieczeństwo przetrenowania sieci), sposobem przetwarzania danych wejściowych jak również kryterium wyboru modelu.

4.2 Specyfikacja zbudowanych modeli sieci neuronowej Poniżej zaprezentowano graf przedstawiający poszczególne procesy budowy modeli. Na początku zaczęto od przetwarzania danych, gdzie zaproponowano 2 podejścia- w jednym z nich dokonano najpierw partycjonowania obserwacji na zbiory uczące, walidacyjne i testowe, a potem w oparciu o test chi2 dokonano wyboru zmiennych wejściowych; w drugim z nich natomiast odwrócono kolejność tych procesów. Ze względu na fakt, iż w praktyce analitycznej występują oba podejścia, które mogą dać różne wyniki końcowe, zdecydowano się zastosować je oba. Następnie wybrano najlepszą sieć dla każdego podejścia i dokonano końcowego porównania sieci, wybierając tą o najwyższej jakości dopasowania modelu do danych.

Rysunek 11 - Schemat węzłów w procesie budowania sieci i ich porównywania

19


Źródło: Opracowanie własne w programie SAS Enterprise Miner.

Pierwsza z sieci (Neural 4) została zbudowana z 5 warstw ukrytych a wybór najlepszego modelu opiera się o kryterium błędnych klasyfikacji, natomiast do drugiej sieci neuronowej (Neural) w tym podejściu zostały wprowadzone 3 warstwy ukryte, a najlepszym modelem będzie ten o najwyższym zysku/ stracie. Następnie dokonano porównania modeli i na podstawie statystyk dopasowania zdecydowano o wyborze drugiej sieci neuronowej (Neural) do dalszego porównania- wszystkie badane statystyki zarówno na zbiorze testowym jak i uczącym przyjmują bardziej pożądane wartości. Podsumowanie badanych statystyk znajduje się poniżej w Tabeli nr 8. Tabela 8 Statystyki dla modelów sieci Neural i Neural 4

Statystyka

Neural

Neural 4

ROC (zbiór testowy)

0,799

0,747

Współczynnik Giniego (zbiór 0,598

0,495

testowy) Kryterium Akaikego (zbiór 841,50

930,84

uczący) Kryterium Schwarza (zbiór 1534,75

2083,07

uczący) Źródło: Opracowanie własne na podstawie obliczeń w programie SAS Enterprise Miner

Następnie zdecydowano się obrać drugie podejście do przetwarzania danych- tj. Najpierw dokonać wyboru zmiennych i ich przekształceń, a potem zastosować węzeł partycjonowania. W ten sposób zbudowano dwie kolejne sieci neuronowe, o takich samych parametrach jak poprzednia para modeli tj. sieć Neural 3 o 5 warstwach ukrytych i zastosowanym kryterium błędnych klasyfikacji, a sieć Neural 2 o 3 warstwach ukrytych i kryterium zysku/straty. W Tabeli nr 9 poniżej znajduje się zestawienie miar dopasowania.

Tabela 9 Statystyki dla modelów sieci Neural 3 i Neural 2

Statystyka

Neural 3

Neural 2

ROC (zbiór testowy)

0,848

0,842

Współczynnik Giniego (zbiór 0,697

0,684

testowy) Kryterium Akaikego (zbiór 1081,87

917,60

uczący)

20


Kryterium Schwarza (zbiór 2520,97

1782,98

uczący) Źródło: Opracowanie własne na podstawie obliczeń w programie SAS Enterprise Miner

Kierując się dużymi różnicami w wartościach kryteriów informacyjnych dla uzyskanych sieci neuronowych, stwierdzono iż lepszym modelem jest sieć Neural2.

4.3 Porównanie modeli sieci neuronowej Po wybraniu najlepszej sieci z każdej z dwóch par, zdecydowano się na porównanie “zwycięskich sieci” tj. Sieci Neural (gdzie najpierw partycjonowano dane a potem wybierano zmienne) oraz Neural 2 (kolejność odwrotna węzłów), a także na ich pogłębioną analizę. Poniższy Wykres nr 12 ilustruje dopasowanie modelu na podstawie krzywej ROC. Kierując się kształtem krzywych nie możemy stwierdzić, która z sieci jest lepiej dopasowana do danych (oceny dokonujemy na zbiorze testowym). Rysunek 12 Krzywe ROC dla zwycięskich modeli

Źródło: Opracowanie własne w programie SAS Enterprise Miner.

Jednakże zauważalne są różnice w kształtach krzywych pomiędzy zbiorem uczącym, walidacyjnym a testowym- może to wskazywać na przetrenowanie lub niedotrenowanie modeli. To przypuszczenie postanowiono sprawdzić w oparciu o wartości statystyki Giniego dla obu sieci. Podsumowanie jej wartości ilustruje Tabela nr 10 Tabela 10 Statystyka Gini dla sieci Neural i Neural 2

Zbiór uczący

Neural 0,696

Neural 2 0,689 21


Zbiór walidacyjny Zbiór testowy

0,681 0,598

0,765 0,684

Źródło: Opracowanie własne na podstawie obliczeń w programie SAS Enterprise Miner

W przypadku sieci Neural 2 występują większe różnice w wartościach statystyki Giniego pomiędzy zbiorami- może to świadczyć o przetrenowaniu sieci, jednakże w praktyce analitycznej odchylenie wartości pomiędzy zbiorami rzędu 0,08 jest dopuszczalne- sieć Neural 2 jest zatem lepiej dopasowana do danych i ma lepsze własności predykcyjne. Ponadto biorąc pod uwagę odsetek błędnych klasyfikacji na zbiorze walidacyjnym sieć Neural 2 ponownie okazuje się lepsza (wartość na poziomie 0,1136 vs. 0,1363 dla sieci Neural). Następnie postanowiono ocenić modele na podstawie skumulowanej krzywej Lift.

Rysunek 13 Krzywa lift dla sieci Neural i Neural 2

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Wartości na osi Y informują nas ile razy wzrasta prawdopodobieństwo uzyskania poprawnego wyniku, gdy zastosujemy dany model predykcyjny w porównaniu z modelem bazowym. Dla pierwszego decyla zmiennych w przypadku sieci Neural 2 prawdopodobieństwo dobrej klasyfikacji jest około 6 krotnie wyższe, podczas gdy sieć Neural pod tym względem jest gorsza- dobroć modelu w tym zakresie jest około 5 raza wyższa. Poniżej znajduje się zestawienie wag końcowych dla sieci Neural2, która okazała się najlepsza spośród wszystkich stworzonych na podstawie przeprowadzonej analizy (rysunek nr 14). Właśnie ta sieć zostanie użyta do końcowego porównania z modelami drzewa decyzyjnego i regresji logistycznej.

22


Rysunek 14 Zestawienie wag końcowych dla sieci Neural 2

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Ilustracja graficzna pozwala nam w łatwy sposób odczytać wagi końcowe połączeń pomiędzy poszczególnymi zmiennymi z warstwy wejściowej a warstwą ukrytą. Sieć została stworzona w oparciu o 3 warstwy ukryte co jest odwzorowane poprzez 3 zestawy wag. W całej sieci wartości wag połączeń znajdują się w przedziale <-2,73; 0,43>, co odpowiada natężeniu kolorów. Można stwierdzić ogółem, że wartości większości wag nie są wyraźnie zróżnicowane.

23


Rozdział 5 Drzewa decyzyjne 5.1 Charakterystyka modelu drzewa decyzyjnego Drzewo decyzyjne to zbiór reguł logicznych przedstawiony w postaci struktury drzewiastej,2 którego celem jest znalezienie jak najbardziej klarownego podziału badanych danych (precyzyjną regułę klasyfikacji). To dobrze sprawdzająca się metoda podziału obserwacji pozwalającą na łatwą interpretację i wizualizację; nawet hipotetyczne braki w danych czy niepełne obrobienie zbioru nie mają decydującego wpływu na otrzymane rezultaty. Inną ważną cechą drzew decyzyjnych jest umiejętność automatycznego doboru istotnych zmiennych objaśniających.3 Graficznie struktura drzew decyzyjnych przypomina te występujące w przyrodzie, więc możemy wyróżnić węzły, korzeń, gałęzie oraz liście. Korzeniem w drzewach decyzyjnych jest cały wejściowy zbiór danych, węzeł stanowią segmenty powstałe na skutek zastosowanych reguł decyzyjnych (zawierające próbę uczącą), gałęzie to węzły z kolejnymi subsegmentami, natomiast liśćmi nazywamy końcowy zbiór obserwacji dla danej reguły decyzyjnej. Algorytmy drzew decyzyjnych należą do grupy algorytmów uczenia nadzorowanego. Celem stosowania drzew decyzyjnych jest dokonanie segmentacji na jak najbardziej jednorodne grupy ze względu na wybrane cechy, np. klienci w wieku poniżej 25 lat, płci żeńskiej, mieszkający na wsi, posiadający wykształcenie podstawowe (czyli przedmiotem jest pewien wielowymiarowy wektor cech). Proces budowy drzewa jest zakończony, gdy dalszy podział nie jest możliwy lub spełnione jest inne kryterium stopu.4 Można wyróżnić dwa typy drzew – regresyjne i klasyfikujące - ze względu na jakościową (binarną) zmienną celu Attrition wybrany został ich drugi rodzaj.

5.2 Konstrukcja i ewolucja modelu W przeprowadzonej analizie zbudowano trzy modele drzew decyzyjnych, przy czym są one ułożone ewolucyjnie względem siebie: taka, a nie inna, struktura kolejnego drzewa była efektem wniosków wyciągniętych z modelu poprzedniego. W tabeli ujęto podsumowanie tych różnic strukturalnych, a sam proces dochodzenia do pożądanego modelu opisano poniżej:

Tabela 11 Reguły podziału drzew decyzyjnych

Reguły podziału Kryterium nominalnej zm. celu Maks. rozgałęzienie Maks. głębia Min. wielkość zm. kat. Miara oceny Korekta Bonferroniego

Drzewo 1 Probchisq

Drzewo 2 Wsp. Giniego

Drzewo 3 Wsp. Giniego

3 6 5 Śr. błąd kwadratowy TAK

3 5 5 Śr. błąd kwadratowy TAK

3 4 5 Decyzja TAK

E. Falkiewicz-Szporer, E. Frątczak, W. Grzenda, M. Książek, K. Konikiewicz, Ł Leszewski, M. Mianowska, I. Sikorska, Zaawansowane metody analiz statystycznych, SGH, Warszawa 2013, rozdz. V. Data Mining, podrozdz. 5. Drzewa decyzyjne, s. 530. 3

24


Poziom istotności 0,2 Partycjonowanie 50:25:25 (uczenie:walidacja:test) Kolejność operacji Partycjonowanie → Wybór zmiennych → Przekształcenie

0,2 60:30:10

0,1 60:30:10

Partycjonowanie → Wybór zmiennych → Przekształcenie

Wybór zmiennych → Przekształcenie → Partycjonowanie

Źródło: Opracowanie własne

Rysunek 15 Schemat budowy drzew decyzyjnych

Źródło: Opracowanie własne

Dla wszystkich modeli zwiększono maks. rozgałęzienie do 3 subsegmentów5 – taki zabieg ma na celu znalezienie takich reguł decyzyjnych, dla których stopień separacji osiągnięty przez podział jest największy.6 Co prawda podziały binarne są preferowane ze względu na możliwość szybszego znalezienia punktu granicznego dla warunku logicznego7, dzięki podziałom wielokrotnym można jednak uzyskać większą elastyczność modelu. Zastosowano także korektę Bonferroniego, poprawkę związaną z głębokością drzewa rozumianą jako numer kolejnego podziału.8 Wariant trzech modeli wypróbowano także dla kolejności operacji: Wybór zmiennych → Przekształcenie zmiennych → Partycjonowanie,9 przy czym wyniki okazały się identyczne dla obu wariantów w każdym z drzew. Dla drzewa 1 wybrano stopień separacji (określający stopień niejednorodności, zanieczyszczenia) osiągnięty przez podział mierzony p-value dla Chi-kwadrat. Statystyka ta ma zresztą skłonność do faworyzowania podziałów wielokrotnych nad dwukrotnymi,10 co w przypadku wybranego maksymalnego rozgałęzienia na poziomie 3 nie stanowi problemu. W celu możliwie jak największego ograniczenia błędu za miarę oceny przyjęto średni błąd kwadratowy. Uznawszy, że próba (n=1470) jest wystarczająco duża w kontekście próby

Otrzymując drzewo wielokrotne. Drzewo binarne – rozgałęziające się na dwie grupy – może w niektórych przypadkach ograniczać tę możliwość. 7 E. Falkiewicz-Szporer, E. Frątczak, W. Grzenda, M. Książek, K. Konikiewicz, Ł Leszewski, M. Mianowska, I. Sikorska, Zaawansowane metody analiz statystycznych, SGH, Warszawa 2013, rozdz. V. Data Mining, podrozdz. 5. Drzewa decyzyjne, s. 525. 8 Op. cit.s. 528. 9 W niektórych przypadkach ta kolejność ma wpływ na wynik. 10 Op. cit. s. 528. 5 6

25


uczącej, partycjonowania dokonano w proporcji 50:25:25. Pozostałe reguły podziału pozostawiono domyślne. Drzewo uzyskane w ten sposób prezentuje się następująco: Rysunek 16 Drzewo decyzyjne 1

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Grubość odnogi od danego elementu jest wprost proporcjonalna do rozmiaru populacji, która do niej trafia.11 Spośród populacji pracowników liczącej powyżej 100 drugą najmniejszą skłonnością do odejścia z pracy odznaczają się osoby, które pracują w zawodzie co najmniej 7,5 roku i nie wykonują nadgodzin12. Dla próby walidacyjnej aż 90,64% osób chce zostać w pracy i są one częścią najgrubszej gałęzi drzewa, tj. najliczniejszej populacji (510 osób z próby uczącej i walidacyjnej). Pracownikami najbardziej lojalnymi (93,48%) są natomiast osoby wykonujące swój zawód od 2,5 do 7,5 lat, niewyrabiający nadgodzin i pracujący podczas swojej kariery w maksymalnie 4 firmach. Społeczność ta jest częścią populacji liczącej łącznie 167 osób. Grupą osób z największą skłonnością do odejścia z pracy i liczącą powyżej 100 członków są pracownicy wykonujący zawód od co najmniej 7,5 lat i wyrabiający nadgodziny – 18,67% respondentów przejawia skłonność odejścia z pracy. Model jest bardzo często przetrenowany, czyli nadmiernie dopasowany do zależności charakterystycznych dla zbioru treningowego13 - by to sprawdzić, warto przeanalizować rozkład statystyk liściowych:

11

Op. cit., s. 532; Lub gdy nie ma danych na ten temat. 13 Op. cit., s. 529; 12

26


Rysunek 17 Statystyki liściowe dla drzewa 1

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Leaf Statistics to wykres opisujący procentowy udział zdarzeń (w naszym przypadku decyzji o pozostaniu w pracy) we wszystkich liściach dla próby treningowej i walidacyjnej.14 Statystyki liściowe pokazują duży rozbrat między próbą uczącą a trenującą – aż w 7 z 11 przypadków wysokość oszacowanych słupków dla obu prób różni się od siebie, z lekką „przewagą” próby uczącej. Można przy tym wnioskować, że zbiór jest bardziej przeuczony niż niedouczony, co może sugerować usunięcie reguły tworzącej dany liść.15 Odnotowuje się także występowanie outlierów, obserwacji odstających, np. dla indeksu 10 – świadczy to o nieodpowiednim wytrenowaniu zbioru. W związku z tym skonstruowano drugi model. Zmieniono proporcje partycjonowania na „klasyczne” 60:30:10, by zwiększyć szanse na odpowiednie wytrenowanie modelu. Zmniejszono także maksymalną głębię do 5, bo zbyt duża liczba podziałów często negatywnie odbija się na jakości wytrenowania drzewa. Tym razem za stopień separacji obrano podział mierzony współczynnikiem Giniego – interpretuje się go jako prawdopodobieństwo otrzymania dwóch różnych elementów w dwukrotnym losowaniu ze zwracaniem.16 Rezultaty tych zmian są widoczne w konstrukcji modelu:

14

Op. cit., s. 533; Op. cit., s. 533; 16 Op. cit., s. 526; 15

27


Rysunek 18 Drzewo decyzyjne 2

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Po raz kolejny otrzymano drzewo o głębokości 5 poziomów i 11 liściach. Tym razem największą skłonnością pozostania w firmie odznaczyli się pracownicy działający w zawodzie co najmniej 7,5 roku, z poziomem stock option określonym między 1 a 3 i niebiorący nadgodzin – z wynikiem aż 95,54% na zbiorze walidacyjnym, z populacji 333 osób. Poprawiły się natomiast wyniki ilustrowane krzywą skumulowanego liftu:

Rysunek 19 Skumulowany lift dla drzewa 2

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Na podstawie wykresu skumulowanego liftu możemy sprawdzić, czy skonstruowany model dobrze klasyfikuje obserwacje. Świadczy o tym położenie i kształt krzywych, które 28


charakteryzują się wysokim odsetkiem poprawnych klasyfikacji dla początkowych obserwacji. Przykładowo odsetek obserwacji poprawnie sklasyfikowanych dla pierwszych 30% obserwacji jest ponad dwukrotnie wyższy w stosunku do odsetka obserwacji poprawnie sklasyfikowanych w modelu losowym. Co prawda dla pierwszych 20% obserwacji krzywa dla próby Train jest wyraźnie ponad Validate (model przeuczony), ale jest to rekompensowane dalszym przebiegiem linii, biegnących w niewielkiej odległości od siebie. Model w całej swojej rozciągłości wydaje się wobec tego jedynie lekko przeuczony. Inny problem pojawia się niestety podczas analizy wykresu kafelkowego: Rysunek 20 Wykres kafelkowy dla drzewa 2

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Wykres kafelkowy pokazuje liczebność populacji dla danego liścia; można zaobserwować co najmniej 3 o bardzo niskiej liczbie obserwacji. Zaistnienie bardzo małej podpopulacji sygnalizuje potencjalną potrzebę usunięcia poprzedzającej reguły logicznej.17 Może to świadczyć o zbyt dużym rozgałęzieniu drzewa, a receptą na poprawienie wyników mógłby być mniej skomplikowany model. Za miarę oceny uznano drzewa 3 uznano nie błąd średniokwadratowy, a decyzję. Nie było jednak potrzeby zdefiniowania macierzy zysków i strat, więc ten wybór jest dla kategoryzującej zmiennej celu synonimem oceny pod kątem błędnych klasyfikacji. Zmniejszono także maksymalną wartość p-value , by ograniczyć rozmiar drzewa poprzez bardziej sceptyczną ocenę budowanych reguł.18 W ostatecznej budowie modelu zmieniono także kolejność operacji na Wybór zmiennych → Przekształcenie zmiennych → Partycjonowanie, choć dla obu porządków wyniki okazały się identyczne. Nowy kształt nadany modelowi w związku z tymi zmianami obrazuje poniższy rysunek:

17 18

Op. cit., s. 532; Op. cit., s. 537;

29


Rysunek 21 Drzewo decyzyjne 3

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Nasuwa się wobec tego pytanie, czy model nie jest zbyt mały pod kątem liczby podziałów. Narzędziem służącym do wyboru optymalnego modelu jest często wykres pokazujący jakość modelu (np. błąd średniokwadratowy bądź skuteczność klasyfikacji) w funkcji jego złożoności (liczba liści):19

19

Op. cit., s. 529;

30


Rysunek 22 a). Wykres oceny poddrzewa 3. Odsetek błędnych klasyfikacji b). Wykres oceny poddrzewa 3. Błąd średniokwadratowy

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Rysunek 22 a), ilustrujący odsetek błędnych klasyfikacji względem liczby liści, udowadnia, że wielkość drzewa mieści się w optymalnych granicach, biorąc pod uwagę zarówno procent błędnych klasyfikacji, jak i równość rezultatów dla próby uczącej i walidacyjnej. Rysunek 22 b) pokazuje natomiast, czy wybrana liczba liści idzie w parze ze zbliżonymi wynikami dla obu prób, a także z minimalizacją błędu średniokwadratowego. Omawiany model znajduje się w optymalnym miejscu dla oszacowanej wypadkowej tych dwóch czynników. Model optymalizujący wybraną statystykę błędu na próbie walidacyjnej powinien być rozpatrywany jako ostateczny.20 Próbowano także niewielkich korekt związanych z uczeniem węzła i podziałem zmiennych – niewielka zmiana w danych może spowodować diametralną modyfikację otrzymanej zależności21 – które jednak potwierdziły, że otrzymane domyślnie drzewo jest tym optymalnym. Podsumowanie statystyk dla modelu 3 znajduje się w poniższej tabeli:

20 21

Op. cit., s. 530; Op. cit., s. 540;

31


Tabela 12 Statystyki liściowe dla drzewa 3

Źródło: opracowanie własne w programie SAS Enterprise Guide

Najważniejsze statystyki, bo pokazujące skuteczność modelu w skali realnej, a nie nominalnej, to MISC – Missclassification Rate (odsetek błędnych klasyfikacji) i ASE – Average Squared Error (błąd średniokwadratowy). Pierwszy wynosi dla próby walidacyjnej 14,55%, a drugi – 11,42%, zatem są na satysfakcjonującym poziomie. Pozytywna jest także bardzo niska dysproporcja w wynikach dla próby uczącej i walidacyjnej dla obu wskaźników (odpowiednio: 0,0002 i 0,0059), co świadczy o znikomym22 przetrenowaniu modelu.

5.3 Porównanie i wybór najlepszego modelu drzewa decyzyjnego Wydaje się, że z każdą zmianą parametrów drzewa miała miejsce jego ewolucja w stronę coraz lepszego modelu. Pytaniem jest, na ile kolejne wyniki się poprawiają, jaka jest skala tego postępu. Wizualne porównanie wszystkich trzech modeli znalazło się w poniższej tabeli:

Tabela 13 Porównanie struktury drzew decyzyjnych

Wybrane zmienne

Głębokość drzewa Liczba liści

Drzewo 1 TotalWorkingYears OverTime YearsSinceLastPromotion NumCompaniesWorked DistanceFromHome PecentSalaryHike 4 11

Drzewo 2 TotalWorkingYears BusinessTravel Over Time (x3) StockOptionLevel WorkLifeBalance 4 11

Drzewo 3 TotalWorkingYears DistanceFromHome OverTime Age JobRole StockOptionLevel 4 7

Źródło: opracowanie własne

Jest to głównie porównanie strukturalne, dające ogólny pogląd na budowę każdego z drzew – nie ma zatem charakteru ocennego. Do końcowego porównania trzech modeli posłuży tabela zawierająca interpretację poszczególnych parametrów modeli: 22

Na granicy błędu statystycznego.

32


Tabela 14 Porównanie jakości otrzymanych drzew decyzyjnych

Odsetek błędnych klas. (MISC) Błąd średniokwadratowy (ASE) Różnica między zb. uczącym a walidacyjnym Statystyki liściowe

Skumulowany lift

Drzewo 1

Drzewo 2

Drzewo 3

14,49%

15,45%

14,55%

0,1227

0,1150

0.1142

Dla MISC: 0,0009 Dla ASE: 0,016 W 7/11 przypadków Train różni się od Validate → zb. przeuczony; wyst. outliery Krzywa Train wyraźnie pow. Validate → zb. przeuczony

Dla MISC: 0,0035 Dla ASE: 0,0045

Dla MISC: 0,0002 Dla ASE: 0,0059

Wys. Słupków dla Train w 4/11 przypadków różni się od Validate → zb. umiarkowanie przeuczony Train lekko pow. Validate → zb. nieznacznie przeuczony

Train w 2/7 przypadków lekko powyżej Validate → zb. nieznacznie przeuczony Train lekko pow. Validate → zb. nieznacznie przeuczony

Źródło: Opracowanie własne na podstawie obliczeń w programie SAS Enterprise Miner

Dla każdej z pięciu kategorii oceny na zielono zaznaczono drzewo, które wypadło w danej klasyfikacji najlepiej, na jasnozielono – umiarkowanie, a na szaro – najgorzej ze wszystkich modeli. W przypadku odsetka dla MISC i ASE nie odnotowano znacznych różnic między drzewami: procent błędnych klasyfikacji oscyluje wokół 15%, a błąd średniokwadratowy – 11,5%. Różnica w rezultatach między zbiorem uczącym a walidacyjnym staje się zauważalna dla modelu 1 i 2 – w tej kategorii najlepszy okazał się model 3, który działa niemal tak samo dobrze na obu zbiorach. Statystyki liściowe także świadczą o przewadze modelu 3, dla którego stopień przeuczenia okazał się bardzo niski; niedaleko w tyle do niego znalazło się drzewo 2. Zdecydowanie najgorzej w obu kategoriach wypadł model 1, który jest zauważalnie przeuczony. Wg wykresu skumulowanego liftu nie odnotowuje się istotnego przetrenowania dwóch kolejnych modeli. Analiza wykazała, że najlepszy okazał się model 3, który góruje nad pozostałymi w 3 z 5 omawianych konkurencji. Niewiele, choć zauważalnie, gorzej skonstruowany okazał się model 2, którego przyjęcie też nie byłoby znaczącym błędem. Znacznie wyprzedza on bowiem drzewo 1, a dobre rezultaty dla rozwiązań 2 i 3 świadczą o tym, że dobrą receptą okazało się zastosowanie współczynnika Giniego lub/i partycjonowanie modelu w proporcji 60:30:10. Drzewo decyzyjne 3 zostanie zatem porównane do najlepszych modeli regresji i sieci neuronowej w kolejnym rozdziale.

33


Rozdział 6 Porównanie modeli Z dotychczas przeprowadzonej analizy wybrano najlepszy model regresji logistycznej, sieci neuronowej oraz drzewa decyzyjnego. Ich wyniki przedstawiają się następująco: Tabela 15 Porównanie najlepszych modeli w obrębie każdej grupy

Model

Indeks

Regresja

Skumulowany Średni

błąd Odsetek błędnych

ROC - lift - testowy

kwadratowy

klasyfikacji

testowy

- testowy

walidacyjny

0,835

4,768

0,0895

0,1273

Drzewo decyzyjne

0,763

3,576

0,1142

0,1455

Sieć neuronowa

0,842

4,768

0,0934

0,1136

-

logistyczna

Źródło: Opracowanie własne na podstawie obliczeń w programie SAS Enterprise Miner

Najlepszym modelem okazuje się być sieć neuronowa. Ma ona najwyższy indeks ROC, przy najwyższym skumulowanym lifcie, drugim najniższym błędzie kwadratowym i najniższym odsetku błędnych klasyfikacji na zbiorze walidacyjnym. Nieznacznie gorszy wynik (indeks ROC mniejszy o 0,007) wygenerowała regresja logistyczna. W celu znalezienia optymalnego modelu postanowiono sprawdzić wyniki otrzymane poprzez złożenie wszystkich wygenerowanych modeli tj. sieci neuronowej, drzewa decyzyjnego i regresji logistycznej (po sprawdzeniu wszystkich wariantów złożenia to potrójne złożenie okazało się najlepsze) Rysunek 23 – skumulowany lift dla modelu złożonego

Źródło: Opracowanie własne w programie SAS Enterprise Miner

34


Na powyższym wykresie można zauważyć, że krzywe dla zbioru uczącego i walidacyjnego pokrywają się, świadczy to o tym, że model złożony nie jest przeuczony, ani niedouczony. Poniższy wykres ilustruje dopasowanie modelu na podstawie krzywej ROC. Kierując się kształtem krzywych nie możemy stwierdzić, czy dla zbioru złożonego pole pod krzywą jest większe (oceny dokonano w tabeli poniżej).

Rysunek 24 Krzywe ROC dla najlepszych modeli z każdej grupy oraz modelu z nich złożonego

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Rysunek 25 Skumulowany lift dla najlepszych modeli z każdej grupy oraz modelu z nich złożonego

Źródło: Opracowanie własne w programie SAS Enterprise Miner

Na podstawie powyższego wykresu nie można jednoznacznie stwierdzić, który model lepiej klasyfikuje obserwacje. Potwierdza on tylko, ze model złożony jest lepszy od modelu

35


losowego. Przykładowo odsetek poprawnie sklasyfikowanych obserwacji dla pierwszych 10% obserwacji jest 5 krotnie wyższy niż w przypadku zastosowania modelu losowego.

W rezultacie złożenia wspomnianych wyżej modeli otrzymano następujące wyniki: •

Indeks ROC – 0,835

Skumulowany lift – 4,768

Średni błąd kwadratowy – 0,0868

Odsetek błędnych klasyfikacji – 0,1159

Porównując powyższe wyniki można zauważyć, że są one (oprócz średniego błędu kwadratowego) nieznacznie gorsze niż te wygenerowane przez sieć neuronową.

36


Podsumowanie Celem niniejszej pracy było porównanie trzech metod analizy w celu wybrania tej, która najlepiej ocenia, czy pracownik opisany przez podane zmienne odejdzie z pracy. Zbiór danych zawierał 1470 rekordów o pracownikach pewnej firmy oraz o tym, czy podjęli oni decyzję o odejściu z pracy. W pierwszym etapie analizy została dokonana eksploatacja danych (występowanie braków danych, rozkład zmiennych) i ogólna charakterystyka pracowników analizowanej przez nas firmy. Kolejnym krokiem było zastosowanie węzłów „wybór zmiennych” oraz „partycjonowanie” w różnej kolejności, w celu uwzględnienia potencjalnych różnic wyników budowanych na ich podstawie modeli. Sprawdzone zostało które zmienne cechuje największa zależność między zmiennymi objaśniającymi a zmienną celu attrition. Ostatnim etapem w projekcie było zbudowanie modeli oraz ich porównanie i wybór najlepszego. W ramach analiz zostało zbudowanych łącznie 15 modeli: 8 modeli regresji logistycznej, 4 modele sieci neuronowych oraz 3 modele drzewa decyzyjnego. Po oszacowaniu modeli, w każdej z trzech kategorii został wybrany jeden do ostatecznego porównania. Finalnie, porównany został jeden model regresji logistycznej z modelem drzewa decyzyjnego i modelem sieci neuronowej. Na podstawie przyjętego kryterium decyzyjnego, którym było pole pod krzywą ROC na zbiorze testowym został wybrany model sieci neuronowych. Należy jednak mieć na uwadze, że otrzymane modele dawały podobne wyniki i wybór najlepszego, zarówno w poszczególnych grupach modeli jak i zależał od ustalonego kryterium decyzyjnego. Sprawdzono również, czy złożenie najlepszych modeli w obrębie swojej grupy da lepsze rezultaty, niż te otrzymane przez najlepszą regresję logistyczną, sieć neuronową oraz drzewo decyzyjne. Taki model okazał się być jednak nieznacznie gorszy od wybranej przez nas sieci neuronowej.

37


Spis rysunków Rysunek 1 – przygotowanie danych do analizy ...................................................................................... 6 Rysunek 2 Rozkład zmiennej celu .......................................................................................................... 6 Rysunek 3 Rozkład zmiennej BussinessTravel ...................................................................................... 7 Rysunek 4 Rozkład zmiennej Department .............................................................................................. 8 Rysunek 5 Rozkład zmiennej OverTime ................................................................................................ 8 Rysunek 6 Statystyka V-Cramera ......................................................................................................... 11 Rysunek 7 Istotne zmienne - najpierw „Partycjonowanie”, a potem „Wybór zmiennych” .................. 12 Rysunek 8 Istotne zmienne - najpierw „Wybór zmiennych” a potem „Partycjonowanie” ................... 12 Rysunek 9 schemat budowy modeli regresji logistycznej oraz ich porównanie ................................... 15 Rysunek 10 - Krzywe ROC dla wszystkich modeli regresji logistycznej z wyróżnieniem Regresji (5) .............................................................................................................................................................. 18 Rysunek 11 - Schemat węzłów w procesie budowania sieci i ich porównywania................................ 19 Rysunek 12 Krzywe ROC dla zwycięskich modeli .............................................................................. 21 Rysunek 13 Krzywa lift dla sieci Neural i Neural 2 ............................................................................. 22 Rysunek 14 Zestawienie wag końcowych dla sieci Neural 2 ............................................................... 23 Rysunek 15 Schemat budowy drzew decyzyjnych ............................................................................... 25 Rysunek 16 Drzewo decyzyjne 1 .......................................................................................................... 26 Rysunek 17 Statystyki liściowe dla drzewa 1 ....................................................................................... 27 Rysunek 18 Drzewo decyzyjne 2 .......................................................................................................... 28 Rysunek 19 Skumulowany lift dla drzewa 2 ........................................................................................ 28 Rysunek 20 Wykres kafelkowy dla drzewa 2 ....................................................................................... 29 Rysunek 21 Drzewo decyzyjne 3 .......................................................................................................... 30 Rysunek 22............................................................................................................................................ 31 Rysunek 23 – skumulowany lift dla modelu złożonego ....................................................................... 34 Rysunek 24 Krzywe ROC dla najlepszych modeli z każdej grupy oraz modelu z nich złożonego ...... 35 Rysunek 25 Skumulowany lift dla najlepszych modeli z każdej grupy oraz modelu z nich złożonego .............................................................................................................................................................. 35

38


Spis tabel Tabela 1 – role i poziomy analizowanych zmiennych ............................................................................ 5 Tabela 2 Statystyki opisowe - zmienne przedziałowe ............................................................................ 9 Tabela 3 Statystyki zmiennych przedziałowych dla attrition=Yes ........................................................ 9 Tabela 4 Tabela 4 Statystyki zmiennych przedziałowych dla attrition=No.......................................... 10 Tabela 5 Statystyki opisowe - zmienne przedziałowe .......................................................................... 13 Tabela 6 - Zmienne wybrane przez węzeł „wybór zmiennych” do poszczególnych modeli regresji logistycznej ........................................................................................................................................... 16 Tabela 7 Pole pod krzywą ROC dla poszczególnych modeli regresji logistycznej .............................. 17 Tabela 8 Statystyki dla modelów sieci Neural i Neural 4 ..................................................................... 20 Tabela 9 Statystyki dla modelów sieci Neural 3 i Neural 2 .................................................................. 20 Tabela 10 . Statystyka Gini dla sieci Neural i Neural 2 ........................................................................ 21 Tabela 11 Reguły podziału drzew decyzyjnych.................................................................................... 24 Tabela 12 Statystyki liściowe dla drzewa 3 .......................................................................................... 32 Tabela 13 Porównanie struktury drzew decyzyjnych ........................................................................... 32 Tabela 14 Porównanie jakości otrzymanych drzew decyzyjnych ......................................................... 33 Tabela 15 Porównanie najlepszych modeli w obrębie każdej grupy .................................................... 34

Źródła 1. A. Dolot, (2018). Przyczyny odchodzenia pracowników z organizacji. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Krakowie, 977(5), 129-142 2. E. Falkiewicz-Szporer, E. Frątczak, W. Grzenda, M. Książek, K. Konikiewicz, Ł Leszewski, M. Mianowska, I. Sikorska, Zaawansowane metody analiz statystycznych, SGH, Warszawa 2013 3. Kaggle.com (źródło zbioru danych)

39

Profile for Marcin Czarnecki

[SAS Miner] Czynniki wpływające na decyzję pracownika o odejściu z firmy  

[SAS Miner] Czynniki wpływające na decyzję pracownika o odejściu z firmy  

Advertisement