100800477

Page 1


2.

2.2. Klasyfikacja przejazdów

2.3. Dodatkowe funkcjonalności serwera SQL Server i usługi

2.3.1. Zapytania predykcyjne czasu rzeczywistego

2.3.2.

3.

3.1. Rodzaje uczenia maszynowego .......................................................................................................

3.2. Proces uczenia

3.3. Modele regresji

3.4. Modele partycjonujące

3.5.

3.6.

4. Zrozumienie danych

4.1. Poznanie danych wymaga zrozumienia postawionego problemu

4.2. Statystyki

4.3. Brakujące

4.4.

4.5.

4.6. Ocena zmiennych przy użyciu języka SQL

4.6.1.

4.7. Wizualizacja zmiennych

4.8. Reprezentatywność danych

4.9. Korelacje między zmiennymi

4.9.1. Klątwa wymiarowości ..........................................................................................................

4.9.2. Ocena przydatności zmiennych

4.9.3. Dwie zmienne numeryczne

4.9.4. Dwie zmienne kategoryczne

4.9.5. Dwie zmienne porządkowe

4.9.6. Zmienna kategoryczna i numeryczna ..................................................................................

4.9.7. Korelacja oznacza współwystępowanie, a nie związek przyczynowo-skutkowy

4.10. Ocena korelacji za pomocą programu Power BI

4.11. Ocena korelacji przy użyciu języka SQL .........................................................................................

5. Przygotowanie danych

5.1. Uporządkowanie danych

5.2. Wzbogacanie danych .....................................................................................................................

5.2.1. Data i czas

5.3. Wyczyszczenie danych ...................................................................................................................

5.3.1. Usuwanie brakujących wartości

5.3.2. Usuwanie duplikatów ..........................................................................................................

5.3.3. Usuwanie błędnych danych

5.3.4. Usuwanie wartości odstających

5.4. Przekształcenie danych

5.4.1. Kodowanie

5.4.2. Generalizacja ......................................................................................................................

5.4.3. Zaokrąglanie

5.4.4. Dyskretyzacja

5.4.5. Skalowanie

5.4.6. Wygładzanie

5.5. Redukcja danych ............................................................................................................................

5.5.1. Selekcja zmiennych

5.5.2. Analiza składowych głównych .............................................................................................

5.5.3.

5.6.

5.6.1. Podział

5.6.2. Równoważenie danych

5.6.3. k-krotna walidacja krzyżowa

5.7. Danych walidacyjnych używa się do optymalizacji, a

5.8. Kto miał szansę

6. Analiza skupień

6.1. Grupowanie w celu zmniejszenia liczby przykładów

6.2.

7. Regresja

7.1.

7.5.

7.6.

7.7.

7.8.

7.8.1.

8.2.

7.8.5.

8.2.5.

8.2.6.

9.1. Nie ma darmowego lunchu

9.2. Błędy modeli predykcyjnych

9.2.1. Błąd systematyczny i błąd aproksymacji ...............................................................................

9.3. Kryteria oceny modeli regresji

9.3.1. Średni błąd bezwzględny .....................................................................................................

9.3.2. Pierwiastek błędu średniokwadratowego

9.3.3. Znormalizowany błąd bezwzględny .....................................................................................

9.3.4. Znormalizowany błąd kwadratowy

9.3.5. Współczynnik determinacji R2 393

9.3.6. Ocena modelu prognozującego pozostały czas bezawaryjnej pracy urządzeń 393

9.4. Kryteria oceny modeli klasyfikacji binarnej

9.4.1. Macierz błędów ..................................................................................................................

9.4.2. Trafność

9.4.3. Precyzja ..............................................................................................................................

9.4.4. Czułość

9.4.5. F-miara ................................................................................................................................

9.4.6. Współczynnik Kappa Cohena

9.4.7. Krzywa ROC i obszar pod krzywą 403

9.4.8. Ocena modelu klasyfikującego urządzenia jako wymagające lub niewymagające przeglądu

9.5. Kryteria oceny modeli klasyfikacji wieloklasowej

9.5.1. Macierz błędów ..................................................................................................................

9.5.2. Metryki klasy większościowej

9.5.3.

9.6. Ocena modelu klasyfikującego urządzenia

9.7.

10.5.1.

$ git clone https://github.com/szelor/practical-machine-learning. git

Rysunek 1.

https://it.pwn.pl/Artykuly/Praktyczne-uczenie-maszynowe-materialy-dodatkowe

https://github.com/szelor/practical-machine-learning

Niektórzy najlepiej uczą się na przykładach. Tak samo jak niektóre maszyny. Marcin Szeliga

2

Praca z SQL Server Machine Learning Services

W tym rozdziale podaję dwa przykłady zastosowania SQL Server Machine Learning Services do zaawansowanej analizy danych. Czytelnik nie znajdzie w nim ani słowa na temat teorii uczenia maszynowego. Tak jak w poprzednim, w tym rozdziale omawiam narzędzia, a nie techniki uczenia maszynowego. Różnica między rozdziałami polega na sposobie przedstawiania tych samych zagadnień – tym razem SQL Server Machine Learning Services zostało użyte do rozwiązania dwóch typowych problemów.

2.1. Wykrywanie oszustw

Wykrywanie oszustw było jednym z pierwszych praktycznych zastosowań zaawansowanej analityki. My też swoją przygodę z SQL Server Machine Learning Services zaczniemy od wykrycia prób oszustwa. Naszym zadaniem będzie wytypowanie firm wystawiających naszemu zleceniodawcy fałszywe faktury. Jedyne czym dysponujemy, to dane o fakturach wystawionych zleceniodawcy.

Rozdział

2. P RACA Z SQL S ERVER M ACHINE L EARNING S ERVICES

9844.46 9872

387707 61574 56157 9384 2005-10-27 2005-12-02 2005-11-26

4614.70 6598

387707 97399 59740 8732 2005-09-12 2005-10-15 2005-10-12

2569.51 4045

387707 97680 59768 5769 2005-02-07 2005-02-28 2005-03-09

4185.07 6230

Każda faktura jest opisana w osobnym wierszu tabeli [BenfordFraud].[Invoices] ; tabela liczy 245 830 wierszy. Chociaż danych mamy sporo, wykrycie w nich podejrzanych firm wymaga kreatywności i przeprowadzenia zaawansowanej analizy.

Spróbujmy porównać faktyczny rozkład wartości wybranej zmiennej z jej spodziewanym rozkładem. W określeniu spodziewanego rozkładu pomoże nam znajomość rozkładu Benforda. Opisuje on rozkład prawdopodobieństwa występowania pierwszych cyfr w wielu różnych danych statystycznych. Zgodne z rozkładem Benforda są m.in. częstości występowania pierwszych cyfr w rocznikach statystycznych i stałych fizycznych, długościach rzek, wielkościach miast, liczbie mieszkańców krajów itp.

Fenomen ten po raz pierwszy (w 1881 r.) opisał astronom Simon Newcomb [11]. Zauważył on, że pierwsze strony tablic logarytmicznych są bardziej wyświechtane, co sugerowałoby, że są częściej używane. Fakt występowania tego rozkładu w obserwowanych danych został potwierdzony w 1938 r. przez fizyka Franka Benforda. Po zbadaniu danych z 20 różnych obszarów sformułował on prawo, nazwane od jego nazwiska prawem Benforda [12]: jeżeli zmienna może przyjmować różne rzędy wielkości, prawdopodobieństwo wystąpienia jej pierwszej cyfry k wynosi

log10 (1 + ¹ –k )

Rozkład Benforda został pokazany na rysunku 2.1.

Obecnie prawo Benforda jest powszechnie używane do wykrywania oszustw podatkowych. Spróbujmy go użyć do sprawdzenia wiarygodności kwot, na jakie poszczególne firmy wystawiły faktury.

Będziemy potrzebować danych o częstości występowania pierwszych cyfr w kwotach wystawionych faktur, czyli takich danych, jakie zawraca funkcja [BenfordFraud].[VendorInvoiceDigits]:

SELECT *

FROM [BenfordFraud].[VendorInvoiceDigits] (default)

ORDER BY VendorNumber;

VendorNumber Digits Freq 105313 1.00 173

https://www.lendingclub.com/info/download-data.

7.8.1. MSE

Predykcje z zakresu od –10 000 do 10 000, prawdziwa wartośćto 100

1e8

Błądśredniokwadratowy

–10 000 –7500–5000–250002500

50007500 10 000

Rysunek 7.8.

Predykcje
funkcja
L2
L1
Lasso
laryzacji L1

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.