1. Cz ł owiek
1.1. Wstęp .
1.2. Historia
1.2.1. MyLifeBits
1.2.2. Digital Anthropology
1.3. Reality Mining
1.4. Big Data
1.5. Konsekwencje .
1.5.1. Sieć nigdy nie zapomina
1.5.2. Normy społeczne działaj
1.5.3. Utrata intymności
2. Biznes . . .
2.1. Wstęp
2.2. Przedsiębiorstwo w erze Big Data
2.2.1. N=1
2.2.1.1. Wstęp .
2.2.1.2. Krótka historia Business Intelligence
2.2.1.3. Złota p ętla
2.2.1.4. Konkurowanie analityk ą
2.2.2. Systemy CRM
2.2.2.1. Wstęp
2.2.2.2. Strategie implementacji systemów CRM
2.2.2.3. Analityczny profil klienta
2.2.2.4. Proces personalizacji
2.2.2.5. Analiza profilu i model LTV
2.2.2.6. Problemy budowania modeli analitycznych
2.2.2.7. Systemy CRM a media społecznościowe
2.3. Gospodarka cyfrowa
2.3.1. Wartość informacji
2.3.2. Efekty sieciowe
2.3.3. Źródła przewagi konkurencyjnej
2.3.4. Problem prywatności
2.3.4.1. Wstęp
2.3.4.2. Google Glass – krótkie studium przypadku
2.3.4.3. Przeciwstawne strategie: Facebook i Apple
2.3.4.4. Konkluzje
3. Pa ństwo
3.1. Wstęp
3.2. Imperia cyfrowe
3.2.1. Statystyki – ś wiat i Polska jako przyk łady
3.2.2. Facebook
3.2.2.1. Rewolucja 2.0
3.2.2.2. Facebook Data Science Team – 61 milionów
3.2.2.3. Facebook Data Science Team – Epidemia emocji
3.2.2.4. Podsumowanie
3.2.3. Google
3.2.3.1. Wstęp
3.2.3.2. Wykorzystanie metod analizy i eksploracji danych – stan obecny
3.2.3.3. Potencjał analityczny – stan możliwy
3.2.4. Konkluzje i rekomendacje
3.2.4.1. Wpł yw społeczny
3.2.4.2. Utrata kontroli
3.2.4.3. Suwerenność cyfrowa
3.2.4.4. Potencjalne scenariusze obrony.
3.3. Zagrożenia w cyberprzestrzeni
3.3.1. Rola mediów społecznościowych w prowadzeniu wojny informacyjnej
3.3.1.1. Wstęp
3.3.1.2. Facebook na polu walki
3.3.1.3. Boty w serwisie Twitter
3.3.1.4. Wykorzystanie badań naukowych
3.3.2. Analiza mediów społecznościowych w walce z przestępczością zorganizowan
3.3.2.1. Wstęp
3.3.2.2. Monitorowanie ugrupowa ń terrorystycznych
3.3.2.3. Monitorowanie przestępczości w cyberprzestrzeni
Zako ńczenie
Załącznik: Metody eksploracji danych.
Wstęp
Standardowa eksploracja danych
Eksploracja danych tekstowych i przetwarzanie języka naturalnego
Eksploracja sieci społecznych online i mediów społecznościowych
Ograniczenia.
Rekomendowana literatura
Źródła wiedzy na WWW
Bibliogra fia
Tabela 1.2. Wielko danych, które mo na zapisa na dysku o pojemno ci 1 Tera
DaneZapisane w ci gu 1 rokuZapisane w ci gu 1 dnia
Obraz(400KBJPG)2,7x106obrazów7,3x103obrazów 1MBdokument1,0x106dok.2,9x103dok.
128kb/saudio18,6x103godz.51godz. 256kb/swideo9,3x103godz.26godz.
1,5Mb/wideo1,6x103godz.4godz.
ród o: Gemmell i in. 2006.
Podstawową architekturę systemu oraz rozważane źródła danych przedstawiono na
Rysunku 1.2. Podstawowy problem, na jaki napotkano, nie był związany ze składowaniem danych o różnych formatach pochodzących z wielu różnych źródeł10. Najtrudniejsze okazało się umożliwienie ergonomicznego dostępu do składowanych danych multimedialnych, ich wyszukiwanie oraz analiza.
Rysunek 1.2. Architektura MyLifeBits
ród o: Gemmell i in. 2006.
System lokalizacji satelitarnej GPS

Wygaszacz ekranu
Rejestracja programów radiowych
Narz dzie transferu plików
VIBE logging MyLifeBits Shell MyLifeBits hurtownia danych
Aplikacje biurowe
files
System indeksowania plików audio
System indeksowania plików tekstowych Internet
interfejs Przegl darka WWW Outlook interfejs
Rejestracja programów TV Poczta elektroniczna
Rejestracji rozmów telefonicznych
10 Dane były składowane w bazie danych o modelu relacyjnym i nie wykorzystano rozwijanych już w owym czasie nowych technologii do rozproszonego składowania i przetwarzania wielkich zbiorów danych, jak np. MapReduce
Człowiek
Projekt MyLifeBits przyczynił się do rozwoju autoanalityki i samopoznania poprzez tzw. self-tracking, który polega na monitorowaniu i analizowaniu swoich prywatnych śladów cyfrowych (ciśnienie, waga, temperatura ciała i powietrza, długość snu itp.) za pomocą różnych urządzeń elektronicznych z wbudowanymi sensorami. Celem tego typu monitoringu i analizy zebranych danych ma być lepsze poznanie własnego organizmu, poprawa zdrowia itp.11
Rysunek 1.3. Plakat reklamuj cy seminarium badawcze Digital Anthropology ród o: http://courses.media.mit.edu/2003spring/da/.

11 Przykładowy portal poświęcony autoanalityce: http://quantifiedself.com/.
Tabela 2.3. Przegląd wybranych zastosowań BI w zakresie logistyki, finansów i produkcji
Nazwa
Analiza stanów magazynowych
Analiza sprawozdań finansowych (bilans, rachunek zysków i strat oraz rachunek przepływów pieniężnych) oraz wykrywanie zagrożeń (systemy wczesnego ostrzegania)
Analiza majątku obrotowego
Opis
Badanie rotacji towarów z uwzględnieniem sezonowości w celu ustalenia optymalnego obłożenia magazynu
Ocena kondycji finansowej, majątkowej i wyników osiąganych przez badaną jednostkę gospodarczą poprzez badanie sprawozdań w zakresie: analizy struktury, dynamiki, analiz wskaźnikowych, badań przyczynowych, analiz regresji i korelacji oraz wielowymiarowych analiz porównawczych
Analizy wskaźnikowe w zakresie:
• zapasów, np. wskaźnik rotacji zapasów
• należności, np. wskaźnik cyklu inkasa należności
• środków pieniężnych, np. wskaźnik udziału środków pieniężnych w majątku obrotowym
Analiza kosztówRachunek kosztów działań (ang. activity-based costing)
Analiza efektywności produkcji
Analiza produktywności w czasie i w porównaniu z normami ze względu na linię produkcyjną, maszynę, zmianę, pracownika
Ranking dostawcówRanking dostawców w kontekście terminowości i jakości dostaw
Źródło: Surma 2009.
2.2.2. Systemy CRM
2.2.2.1. Wstęp
Przedstawiona wcześniej koncepcja N=1 Prahalada ma swoje bezpośrednie odwzorowanie we współczesnym marketingu. W tym kontekście właściwe jest odwołanie się do historii rozwoju zarządzania klientami – od bezpośrednich kontaktów z klientem indywidualnym (ang. individual customers), przez całościowe spojrzenie na rynek klientów (ang. entire-market customers), po segmentację klientów (ang. segmented customers) i finalnie powrót pierwotnej idei, tj. spersonalizowanej obsługi klienta z wykorzystaniem marketingu interaktywnego (ang. interactive marketing) (Deighton i in. 1996). Według Kumara marketing interaktywny ma następującą charakterystykę (Kumar 2010):
1. Zakres podejmowania decyzji: identyfikacja właściwych klientów i zapewnienie relacji na bieżąco lub w odpowiednim czasie.
2. Zakres analiz: opracowanie całościowej charakterystyki klienta.
3. Czynnik tworzenia wartości: personalizacja i dostosowanie właściwych produktów i usług we właściwym czasie.
Wykorzystanie analiz zachowania klienta ma już relatywnie długą historię w marketingu. Analityczne systemy zarządzania relacjami z klientem (ang. analytical customer relationship management systems) – nazywane dalej systemami CRM – są używane standardowo w sektorze telekomunikacyjnym i bankowym od lat 90. ubiegłego wieku (Shankar, Winer 2006), zarówno w zakresie segmentacji klientów, jak i podejścia spersonalizowanego19
2.2.2.2. Strategie implementacji systemów CRM
Realne zastosowania biznesowe systemów CRM są uzasadnione w przypadku spełnienia jednocześnie pięciu warunków koniecznych:
1. Klient jest znany i jednoznacznie identyfikowany.
2. Firma ma zdolność do bezpośredniego kontaktu z klientem oraz do rozpoznania jego potrzeb.
3. Liczba obsługiwanych klientów jest na tyle duża, że uzasadniona jest inwestycja w system informatyczny i jego utrzymanie.
4. Klient dokonuje wielokrotnych zakupów.
5. Oferowane produkty lub usługi można dostosować do potrzeb klienta.
Rysunek 2.2. Strategie budowy systemu zarządzania relacjami z klientami
Źródło: opracowano na podstawie wykładu Normana Chervany z Uniwersytetu w Minnesocie.
Częstość powtórnych zakupów niskawysoka
Strategia nagrody Brak strategii
Strategia segmentacji lub personalizacji Strategia akwizycji
Możliwość konfiguracji produktu/usługi niskawysoka
19 Reprezentatywne publikacje w tym zakresie to prezentacja idei Customer Intelligence (Kelly 2006) oraz cykl wykładów w zakresie Computational Marketing (Advertising) (Broder A., Josifovski F., Computational Advertising, 2010, http://www.stanford.edu/class/msande239.
Przedsiębiorstwo w erze Big Data
pokazują ich relatywnie niski wpływ na frekwencję wyborczą i finalne głosowanie. Niemniej, pomimo że działania te dają małe, ale pozytywne efekty, to prowadzone w dużej skali mogą zdecydować o wyniku wyborów. W przypadku omawianego eksperymentu 0,39% z badanej populacji to 237 900 osób, które zostały zachęcone do uczestnictwa w wyborach. Wynik tego eksperymentu pokazuje, że przez aktywne sterowanie informacją w mediach społecznościowych można skutecznie wpłynąć na frekwencję wyborczą5
Rysunek 3.2. Komunikat przedstawiany uczestnikom badania Źródło: opracowano na podstawie Bond i in. 2012.
Informational message

Social message

3.2.2.3. Facebook Data Science Team – Epidemia emocji
W styczniu 2012 roku zespół badawczy składający się z pracowników Facebook Data Science Team oraz Instytutu Komunikacji Uniwersytetu Cornell przeprowadził eksperyment badawczy na losowo wybranych 689 003 aktywnych użytkownikach Facebooka (Kramer i in. 2014). Te kilkaset tysięcy osób było poddanych eksperymentowi mającemu potwierdzić hipotezę o rozprzestrzenianiu się stanów emocjonalnych w sieciach społecznych. Zgodnie z wcześniej przeprowadzonymi eksperymentami laboratoryjnymi, ludzie są w stanie przekazywać swoje pozytywne i negatywne emocje innym ludziom (Hatfield i in. 1993) W przypadku Facebooka badanie epidemii emocji oparto na analizie komunikacji przekazywanych danych tekstowych. W tym celu postanowiono wykorzystać algorytm automatycznie selekcjonujący informacje, które mają się pojawiać na stronach użytkowników (ang. news feed). Wspomniany algorytm zmodyfikowano w ten sposób, aby mógł redukować pozytywne albo negatywne
5 Jest realny zdecydowanie bardziej radykalny scenariusz użycia mediów społecznościowych w wyborach. Możliwe jest wykorzystanie procesu personalizacji omówionego w Rozdziale 2 do dostarczania obywatelom adekwatnych komunikatów wyborczych dostosowanych do ich profilu określonego na podstawie zebranych śladów cyfrowych. Próba tego typu działań pojawiła się w kampanii prezydenckiej w Stanach Zjednoczonych jesienią 2016: https://www.economist.com/news/united-states/21710614-fake-news-big-data-post-mortem-under-way-roletechnology.
wiadomości docierające do poddanych eksperymentowi użytkowników. Każda potencjalna wiadomość do wyświetlenia podlegała automatycznej analizie treści6 w celu określenia, czy ma pozytywny, czy też negatywny wydźwięk. W ten sposób można było wpływać na liczbę pozytywnych albo negatywnych treści docierających do użytkowników. W wyniku badania okazało się, że użytkownicy, do których w sposób świadomy redukowano negatywne komunikaty, mieli znacząco statystycznie większą skłonność do tworzenia pozytywnych przekazów i generowali mniej negatywnych informacji niż grupa kontrolna (patrz Rysunek 3.3.). Analogicznie istotnie statystycznie wyniki otrzymano w sytuacji redukcji pozytywnych komunikatów (patrz Rysunek 3.3.). Eksperyment potwierdził hipotezę badawczą, że stany emocjonalne mogą podlegać transferowi w sieci społecznej online nawet bez bezpośredniej interakcji, tylko pośrednio przez samą ekspresję stanu emocjonalnego.
Rysunek 3.3. Transfer emocji przez news feed Facebooka Źródło: opracowano na podstawie Kramer i in. 2014.
grupa kontrolna grupa eksperymentalna
ograniczenie komunikatów negatywnych
ograniczenie komunikatów pozytywnych
3.2.2.4. Podsumowanie
Wielkie eksperymenty społeczne Facebooka, wiążące setki tysięcy czy nawet miliony uczestników, zadziwiają co do skali. Ponadto badania te mają charakter behawioralny,
6 W badaniu wykorzystano podłączenie do systemu Linguistic Inquity and Word Count: https://pdfs.semanticscholar.org/30f0/f9f4663ab4b164c2946222cb479096bff7d1.pdf.
Imperia cyfrowe