100415671

Page 1


1.Trendy

2.Metody

2.1. Przebieg analizy dokumentu tekstowego i charakterystyka stosowanych

2.2.Określenie celu, zakresu i kosztów

2.3. Przekształcenie zbioru dokumentów źródłowych

2.3.1.Informacja

3.1.Rozpoczęcie

3.1.1.Tworzenie

3.1.2.Tworzenie

3.1.3.Określanie

3.2.1.Etap

3.2.2.Etap

3.2.3.Etap

3.2.4.Etap

3.2.5.Etap

3.4.1.Właściwości węzła Klastrowanie tekstu

3.4.2.Właściwości węzła Filtrowanie tekstu

3.4.3.Właściwości węzła Import tekstu

3.4.4.Właściwości węzła Parsowanie tekstu

3.4.5.Właściwości węzła Profil tekstu.

3.4.6.Właściwości węzła Generator reguł

3.4.7.Właściwości węzła Temat tekstu

3.5.Przykład: Klasteryzacja zbioru zdań

3.5.1.Konfiguracja diagramu przepływu danych

3.5.2.Konfiguracja poszczególnych węzłów i interpretacja

4.Wybór funkcji wagującej macierzy częstości występowania terminów

5.1.Analiza semantyczna zmiennych ukrytych

6.1.Określenie miary podobieństwa grupy dokumentów

6.2.Algorytmy

6.3.Grupowanie

6.3.1.Węzeł Klastrowanie tekstu – algorytm Hierarchiczny

6.3.2.Węzeł Klastrowanie tekstu – algorytm Maksymalizacja oczekiwań

6.3.3.Węzeł Klastrowanie tekstu – właściwość Terminy opisowe

6.4.Grupowanie za pomocą węzła Temat tekstu

6.4.1.Tematy definiowane przez użytkownika

6.5.Posumowanie

7. Zarys metodyki tworzenia modeli predykcyjnych oraz porównywania zdolności predykcyjnych modeli .........................................

7.1.Tworzenie modelu predykcyjnego

7.2.Ocena błędu klasyfikacji

7.2.1.Krzywe

7.2.2.Wykresy wzrostu

7.3.Przykład: Użycie węzła Importowanie tekstu oraz porównywanie modeli predykcyjnych ...........................................

7.3.1.Konfiguracja diagramu przepływu danych oraz poszczególnych węzłów

7.4.Podsumowanie

8.Klastrowanie

8.1.Charakterystyka węzła Generator reguł tekstu.

III. Wydobywanie i organizacja wiedzy z dokumentów

9.Zarys zagadnień związanych z wydobywaniem i organizacją wiedzy w instytucji

10.1.1.Metody klasyfikacji dokumentów dostępne w SAS

10.1.2.Wydobywanie konceptów dostępne w SAS CCS

10.1.3.Wydobywanie kontekstu dostępne w SAS

10.1.4.Zakładanie

10.1.5.Metodyka planowania projektu

10.1.6.Tworzenie nowej kategorii

10.1.7.Zasady używania kategoryzatora statystycznego

10.1.8.Zasady używania kategoryzatora generującego reguły automatycznie ..........................................

10.1.9.Zasady używania kategoryzatora bazującego na regułach ......

10.1.10.Praca z konceptami

10.2.Przykład: Zastosowania klasyfikacji dokumentów w celu wspomagania diagnostyki w departamencie radiodiagnostyki

11.1.1.Metoda oceny sentymentu dla dokumentu

11.1.2.Zakładanie nowego projektu ..............................

11.1.3.Testowanie istniejących modeli

11.1.4.Tworzenie modeli hybrydowych

11.1.5.SAS Sentiment Analysis

11.2.Przykład analizy sentymentu użytkowników telefonów komórkowych .................................................

Część IV. Inne zagadnienia przetwarzania

12.Inne elementy przetwarzania danych tekstowych

12.1.Porównywanie dokumentów za pomocą metryk

12.1.1.Odległość kosinusowa.

Jaccarda

12.2.Wydobywanie

Słownik pojęć związanych z eksploracją danych

Dodatek A: Podstawy obsługi środowiska

A.1.Wprowadzenie

Próbkowanie (Sample) – najczęściej przeprowadzenie badań na całych zbiorach wejściowych uniemożliwia ich wielkość. Etap ten wspomaga określenie definicji, które dane będą stanowić dane wejściowe do kolejnych etapów. Na tym etapie dokonuje się także najczęściej podziału zbioru uczącego na trzy części: zbiór uczący (Training), zbiór walidujący naukę (Validation) i zbiór testujący (Test), który pozwala ocenić jakość modelu na niezależnych danych, które nie brały udziału w procesie uczenia. Na rysunku 3.8 przedstawiono listę węzłów dostępnych na tym etapie.

Rysunek 3.8. Ikony węzłów EM przetwarzania dostępnych na etapie Próbkowanie metodyki SEMMA

Dostępne węzły w kolejności od lewej to:

Dołączanie (Append) – dołącza zbiory;

Partycjonowanie (Data Partition) – partycjonuje dane na osobne tabele;

Import pliku (File Import) – importuje plik zewętrzny;

Filtrowanie (Filter) – usuwa z danych obserwacje zgodnie z podanymi kryteriami; Dane wejściowe (Input Data) – podaje szczegółowe informacje o zmiennych służących jako dane wejściowe do eksploracji danych; Scalanie (Merge) – tworzy nowe zbiory i widoki z kombinacji kolumn innych zbiorów; Próbkowanie (Sample) – tworzy próbę danych; Szeregi czasowe (Time Series) – pozwala utworzyć szereg czasowy.

Eksploracja (Explore) – etap ten pozwala na wstępną eksplorację danych, wykrycie związków, trendów i anomalii w danych. Na rysunku 3.9. pokazano węzły dostępne na tym etapie.

Rysunek 3.9. Ikony węzłów EM przetwarzania dostępnych na etapie Eksploracja metodyki SEMMA

Dostępne węzły w kolejności od lewej to:

Kojarzenie (Association) – wykrywa skojarzenia i sekwencje;

Klasteryzacja (Cluster) – wykonuje klasteryzację obserwacji służącą do segmentacji bazy danych;

DMDB (DMDB) – wylicza statystyki opisowe za pomocą procedury DMDB;

Eksploracja wykresów (Graph Explore) – generuje raporty graficzne i wykresy interakcyjne;

Analiza łączy (Link Analysis) – wykonuje analizę łączy;

Koszyk zakupów (Market Basket) – wykonuje analizę koszyka zakupów dla danych z potencjalną taksonomią elementów;

Wykresy różne (Multiplot) – wykonuje różnego rodzaju wykresy;

Analiza ścieżek (Path Analysis) – analizuje wstępnie przetworzone dane z logów stron internetowych;

SOM\Kohonen (SOM\Kohonen) – wykonuje nienadzorowane uczenie, wykorzystując kwantowanie wektorowe Kohonena, samoorganizujące się mapy Kohonena lub wsadowe samoorganizujące się mapy Kohonena z wygładzaniem Nadarayi–Watsona lub lokalnym liniowym;

Eksploracja statystyk (StatExplore) – generuje statystki agregujące i skojarzeniowe;

Analiza skupień zmiennych (Variable Clustering) – dzieli zbiór danych wejściowych na rozłączne lub hierarchiczne skupienia;

Wybór zmiennych (Variable Selection) – narzędzie do zmniejszania liczby zmiennych wejściowych za pomocą kryteriów wyboru R-kwadrat, chi-kwadrat itp.

Modyfikacja (Modify) – etap ten ma na celu przygotowanie danych do modelowania na podstawie informacji pozyskanych w poprzednim etapie przez filtrowanie, tworzenie nowych zmiennych, transformację zmiennych, imputowanie danych czy identyfikację obserwacji odstających. Na rysunku 3.10 pokazano węzły dostępne na tym etapie.

Rysunek 3.10. Ikony węzłów EM przetwarzania dostępnych na etapie Modyfikacja metodyki SEMMA

Rysunek 10.11. Menu kontekstowe istniejącej kategorii

Jak już wspomniano wcześniej, kategoryzator statystyczny pozwala sklasyfikować w sposób automatyczny dużą liczbę dokumentów za pomocą małej liczby zdefiniowanych kategorii o szerokim zakresie. Tak zdefiniowane kategorie powinny być rozdzielne. Definicja danej kategorii jest wypracowywana automatycznie na podstawie częstości występowania terminów w dokumentach zbioru uczącego przydzielonego do danej kategorii oraz innych kategorii. Zmiana zbioru uczącego przydzielonego do danej kategorii może zatem skutkować zmianą definicji innych kategorii. Ze względu na obowiązujące zasady, którymi kieruje się kategoryzator, warto stosować następujące dobre praktyki:

1.Zdefiniować wszystkie kategorie w tworzonej taksonomii.

2.Przydzielić dokumenty ze zbioru uczącego do wszystkich zdefiniowanych kategorii. Zwykle warto wskazać 50–100 dokumentów, które są najlepszymi przykładami dla danej kategorii. Dołączone dokumenty mogą występować w różnych formatach (HTML, XML, SGML, TXT). W celu ułatwienia podpięcia dokumentów ze zbioru uczącego do poszczególnych kategorii wykorzystuje się strukturę katalogów odzwierciedlającą strukturę taksonomii. Korzeń struktury katalogów powinien być wskazany jako ścieżka do zbioru testowego dla węzła Top. Nie ma konieczności ręcznego tworzenia struktury katalogów, co byłoby uciążliwe w przypadku rozbudowanej taksonomii. Wspomniana struktura katalogów może zostać utworzona automatycznie. W tym celu wystarczy stworzyć katalog nadrzędny, a w nim katalog

podrzędny o nazwie Top. Następnie na zakładce Data należy wskazać katalog Top jako Training Path. Dodatkowo należy włączyć opcję Create Folder i nacisnąć przycisk Propagate (rys. 10.12).

Rysunek 10.12. Ustawianie ścieżki do zbioru uczącego dla węzła Top

Katalogi odpowiadające poszczególnych kategoriom zostaną utworzone automatycznie. Należy w nich umieścić dokumenty ze zbioru uczącego odpowiadające poszczególnym kategoriom.

3.Analogicznie postępuje się ze zbiorem testowym, przy czym należy stosować się do ogólnej zasady, że zbiory uczący i testowy powinny być rozdzielne. Zmiana nazwy kategorii w taksonomii pociąga za sobą konieczność ręcznej zmiany nazwy katalogów odpowiadających danej kategorii w strukturze katalogów zbioru uczącego i testowego.

4.Po zdefiniowaniu kategorii w taksonomii oraz przypisaniu ścieżek do zbioru uczącego i testowego następuje etap budowania reguł. W tym celu należy wybrać węzeł kategoryzatora w drzewie taksonomii, a następnie z menu kontekstowego opcję Build->Build Statistical Categorizer. Po zbudowaniu dany kategoryzator staje się kategoryzatorem aktywnym dla danej taksonomii. Operacje testowe zachodzą z wykorzystaniem aktywnego kategoryzatora. Automatyczne przebudowanie kategoryzatora przed wykonaniem dowolnego testu, bez konieczności wykonywania

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.