Skip to main content

101206073

Page 1


1.

3.

SPIS TRE Ś CI

10. WYKRESY

zasad tworzenia lepszych tabeli

Prezentacja danych: przeprojektowanie podstawowej tabeli danych

Prezentacja danych: przeprojektowanie tabeli regresji

przewodnika po wizualizacji danych

fontów dla przewodnika

różnorodność i uważność

13.

Skumulowany wykres słupkowy: powierzchnia pod główne uprawy polowe

Skumulowany wykres słupkowy: świadczenie usług

liniowy: powiernicy zabezpieczenia społecznego

Kartogram: niewolnictwo w Alabamie a wybory do senatu

Wykres punktowy: program darmowych posiłków w amerykańskich szkołach

punktowy: wzrost PKB w Stanach Zjednoczonych

 PRZEDMOWA

DO WYDANIA POLSKIEGO

Obraz jest podobno wart więcej niż tysiąc słów. Co jednak, gdy te słowa są… niewłaściwe? Opowiem Ci historię, w której słowa i obrazy mają wspólny morał.

Lata trzydzieste ubiegłego wieku, Stany Zjednoczone wychodzą z wielkiego kryzysu. Ludzie nie mogą spłacać kredytów hipotecznych, więc rząd powołuje agencję, która ma ratować właścicieli przed zajęciem ich domów przez banki. Agencja nazywa się Home Owners Loan Corporation, w skrócie HOLC (Korporacja Pożyczkowa dla Właścicieli Domów) i po pierwszej fali pożyczek zaczyna się zajmować szerszymi tematami. Tworzy na przykład mapy pomagające w wycenie wartości domu i ocenie ryzyka inwestycyjnego dla kupujących. Mapy te, zupełnie bez związku z wycenami, miały dzielnice oznaczone kolorami na podstawie ich… składu rasowego. I tak się złożyło, że dzielnice zamieszkiwane przez Afroamerykanów były kolorowane na czerwono. Sugestia zwiększonego ryzyka bez mówienia o tym. Obraz (a w tym przypadku: kolor) wart więcej niż tysiąc słów. Zjawisko to Amerykanie nazywają redlining (oznaczanie na czerwono). Na dziesięciolecia utrwaliło systemową dyskryminację rasową w USA.

Jonathan Schwabish doskonale rozumie zarówno siłę, jak i pułapki wizualizacji danych. Zaczynał jako ekonomista w amerykańskim Kongresie, gdzie decyzje o prawach obowiązujących latami są podejmowane często na podstawie szybkiego spojrzenia na jedną planszę. Dziś pracuje w pozarządowej organizacji o nazwie Urban Institute – zajmuje się polepszeniem warunków bytowych Amerykanów, a przy okazji stał się wiodącym głosem w dziedzinie wizualizacji danych.

Książka Schwabisha to skarbnica wiedzy dla każdego, kto chce poprawić swoje umiejętności komunikowania danych w sposób jasny i skuteczny. Zaczyna się od zasad wizualizacji danych, z których dowiesz się, jak w ogóle przetwarzamy dane wizualne i jak nadajemy im hierarchię. Schwabish przedstawia pomocne wskazówki, które pomagają twórcom eksponować właściwe dane, zmniejszać wizualny bałagan i skutecznie łączyć grafiki z tekstem. Dowiesz się na przykład, dlaczego nie warto szaleć z wykresami 3D i dlaczego lepiej zacząć od neutralnej palety kolorów (spojler: dane są wtedy w centrum uwagi).

Fot. Krzysztof Zaleski
Pawe ł Tkaczyk

DO WYDANIA POLSKIEGO

Sercem książki jest druga część, która przeprowadza Cię przez ponad osiemdziesiąt narzędzi wizualizacji danych. Od prostych wykresów słupkowych i liniowych po rzeczy, o których większość ludzi nigdy nie słyszała – diagramy Sankeya czy wykresy strumieniowe. Schwabish dostarcza praktycznych przykładów i rad, kiedy i jak używać każdego typu. Kipi też przykładami, także tymi złymi. Mój ulubiony: diagram kołowy z czasów początków pandemii. Pokazywał różne choroby zakaźne i… sumował ich zakaźność do 100%. Nie muszę chyba dodawać, że obraz danych był nieziemsko zakłamany? Dzięki tej części zrozumiesz mocne i słabe strony poszczególnych narzędzi wizualnych. Książka jest nieoceniona w prowadzeniu Cię przez proces wybrania najlepszego wykresu dla Twoich danych i… Twoich odbiorców.

Schwabish podchodzi do procesu wizualizacji podobnie jak powinno się podchodzić do procesu pisania. Ostatnim etapem jest redakcja, czyli – w przypadku tekstów – „usuwanie zbędnych słów”. To cytat z Ernesta Hemingwaya. Schwabish pokazuje to samo – każe nam usuwać zbędne elementy z wykresu. Mój ulubiony przykład? Wykres pokazujący gęstość zaludnienia w USA, z którego… usunięto kontur kraju. Bo widz może go wywnioskować z samych rozmieszczonych na wykresie kropek. Trzecia część ma więcej takich doskonałych przykładów. Eksploruje palety kolorów, dobór krojów pisma i formaty obrazów. Jeśli do tej pory tworzenie wykresów oznaczało dla Ciebie eksport w domyślnych ustawieniach z Excela… Twoje życie zmieni się na zawsze.

No właśnie, zmienianie życia. Amerykański Kongres to niejedyne miejsce, gdzie decyzje o dużym ciężarze są podejmowane po relatywnie krótkich i uproszczonych przemyśleniach. Tak samo działa to w firmach czy organizacjach pożytku publicznego. Pomyśl: w jaki sposób jest podejmowana decyzja o tym, na co przeznaczasz swój 1,5% z podatków?

Jestem gotów się założyć, że u większości ta decyzja nie jest poprzedzona dogłębną analizą danych i raportów różnych organizacji pomocowych.

W swoim wstępie Schwabish pisze o tym, jak zamienił 109-stronicowy dokument o długoterminowych perspektywach biznesowych na serię grafik mieszczących się na jednej kartce. To jest proces, który Cię czeka częściej, niż myślisz. I ma wpływ na ludzi wokół Ciebie, na Twój biznes i na Ciebie. Poświęcamy sporo czasu na to, żeby uczyć się mówić poprawnie. Uważam, że proporcjonalnie niewystarczająco dużo czasu poświęcamy na rozwijanie naszego warsztatu wizualnej wirtuozerii.

Amerykańska HOLC została rozwiązana w połowie lat pięćdziesiątych ubiegłego wieku, ale zła sława tworzonych przez nią map i ich wpływu na amerykańskie społeczeństwo ciągnie się latami. Nie chcesz, by Twoje grafiki służyły za przykłady w podobnych opowieściach, prawda?

Pamiętaj: niezależnie od tego, czy tworzysz wykres do biznesowej prezentacji, czy infografikę na post w mediach społecznościowych, sposób wizualizacji danych może zrobić ogromną różnicę. Spraw, aby Twoje dane mówiły głośniej i wyraźniej niż kiedykolwiek wcześniej. I żeby mówiły właściwe rzeczy.

PI ĘĆ WSKAZÓWEK

DOTYCZ Ą CYCH LEPSZEJ

WIZUALIZACJI DANYCH

Ilekroć tworzę wizualizację danych, niezależnie od tego, czy jest ona statyczna, interaktywna, czy też stanowi część raportu, wpisu na blogu czy nawet tweeta, przestrzegam pięciu poniższych wskazówek:

1. Pokaż dane.

2. Uporządkuj.

3. Zintegruj grafikę i tekst.

4. Unikaj wykresu spaghetti.

5. Zacznij od szarości.

Efektywne pokazywanie danych i porządkowanie ich oznacza redukcję zbędnych linii siatki, znaczników i cieni, które zasłaniają rzeczywiste dane. Aktywne tytuły, lepsze znaczniki i pomocne adnotacje zintegrują Twój wykres z otaczającym go tekstem. Gdy wykresy są nadmiernie obładowane danymi i zawierają wiele serii danych, można użyć koloru, aby wyróżnić interesujące Cię serie, lub podzielić jeden wykres na wiele mniejszych wersji.

Podsumowując: powyższe pięć wskazówek przypomina mi o potrzebach moich odbiorców i o tym, jak moje wizualizacje mogą im opowiedzieć historię.

WSKAZÓWKA NR 1: POKA Ż DANE

Odbiorca może zrozumieć Twój punkt widzenia, argumentację lub historię tylko wtedy, gdy zobaczy dane. Nie oznacza to, że wszystkie dane muszą zostać pokazane, ale oznacza to, że powinieneś podkreślić wartości, które są ważne dla Twojej argumentacji. Naszym wyzwaniem, jako twórców wykresów, jest podjęcie decyzji, ile danych pokazać i w jaki najlepszy sposób.

Rozważmy kropkową mapę Stanów Zjednoczonych (więcej informacji na temat tego rodzaju map można znaleźć na stronie 244). Wykorzystuje dane z dziesięcioletniego spisu ludności Stanów Zjednoczonych w 2010 roku i umieszcza kropkę dla każdego z 308 milionów mieszkańców kraju w swoich blokach spisowych (blok spisowy odpowiada w przybliżeniu blokowi miejskiemu). Zwróć uwagę, że na obrazie nie ma nic poza danymi. Nie są oznaczone granice stanowe, drogi, miasta ani jeziora i rzeki. Poznajemy jednak, że to Stany Zjednoczone, ponieważ ludzie mieszkają wzdłuż granic i wybrzeży, co na grafice pomaga nadać kształt tego kraju.

Nie oznacza to, że musimy cały czas pokazywać wszystkie dane. Czasami wykresy zawierają zbyt dużo danych, co utrudnia określenie, które z nich są najważniejsze. Na następnej stronie znajdują się dwa wykresy liniowe, które pokazują średnią liczbę lat trwania edukacji w pięćdziesięciu krajach na całym świecie. Na wykresie górnym każdemu krajowi przypisano własny kolor. To sprawia, że wykres jest zbyt intensywny i zagmatwany, a dostrzeżenie trendu dla jakiegokolwiek kraju jest niemożliwe. Na wykresie dolnym zaznaczono tylko sześć interesujących krajów, a pozostałe zaznaczono na szaro, łącząc je z neutralnym tłem. Dzięki temu odbiorca dobrze wie, na jakie kraje zwrócić uwagę. Nie chodzi o pokazanie jak najmniejszej ilości danych, ale o pokazanie tych, które są najważniejsze.

Zasada podobieństwa Gestalt pomaga nam dostrzec większe skupiska ludzi w całym kraju. Źródło: Prawa autorskie do zdjęć, 2013, Weldon Cooper Center for Public Service, rektor i goście Uniwersytetu Wirginii (Dustin A. Cable, twórca).

Chiny
Stany Zjednoczone
Nepal Meksyk
Niemcy Hiszpania

WSKAZÓWKA NR 2: UPORZ Ą DKUJ

Użycie niepotrzebnych elementów wizualnych odwraca uwagę odbiorcy od najważniejszych danych i zaśmieca grafikę. Jest wiele różnych rodzajów bałaganu, których chcielibyśmy uniknąć. Istnieją podstawowe „przeciążające” elementy, takie jak znaczniki i linie siatki, które powinniśmy usunąć w prawie każdym przypadku. Niektóre wykresy wykorzystują znaczniki danych, takie jak kwadraty, koła i trójkąty, do rozróżnienia serii, ale gdy znaczniki nakładają się na siebie, mieszają się wzorce. Niektórzy używają różnego rodzaju gradientów, jednak jednolite odcienie kolorów sprawdzają się równie dobrze. Inni stosują niepotrzebne zabiegi polegające na zmianie położenia niektórych części, co bardzo zniekształca dane. Są też tacy, którzy zawierają zbyt dużo tekstu i zbyt wiele znaczników, zaśmiecających przestrzeń i zmniejszających znaczenie danych.

Spójrzmy na ten trójwymiarowy wykres kolumnowy średniego poziomu wykształcenia w Stanach Zjednoczonych i Niemczech w ciągu kilku wybranych lat.

Jeśli myślisz, że tak mało czytelny wykres powstał jedynie na potrzeby tej książki, to się mylisz. Skopiowałem formatkę z innego wykresu, łącznie ze stylem gradientu. Trójwymiarowe słupki i połyskujące paski, niedopasowane dane i znaczniki osi, mnóstwo miejsc

Średnia liczba lat nauki rośnie w Niemczech szybciej niż w Stanach Zjednoczonych (Liczba lat)

Na pewno spotkałeś się już z tego rodzaju wykresami 3D – rozpraszają, są trudne do odczytania i zniekształcają dane.

KATEGORIE WYKRESÓW –

ZESTAWIENIE

W ykresy w tym rozdziale mają pomóc naszym odbiorcom porównać wartości w różnych kategoriach. Paski, linie i kropki umożliwiają porównywanie w obrębie grup i między nimi. W niektórych przypadkach chcemy, aby nasz odbiorca zobaczył oba poziomy i zmiany lub inną kombinację zmiennych; w innych przypadkach chcemy skupić jego uwagę na tym czy innym porównaniu.

Wyzwaniem podczas porównywania danych kategorycznych jest podjęcie decyzji, co chcemy przekazać na wykresie. Czy istnieje główny argument lub powód? Czy jest coś, co możesz uznać za najważniejsze, czego oczekujesz od odbiorcy? Jako twórcy wykresów musimy ustalić priorytety tego, co mają one przekazywać. Umieszczając każdy słupek lub kropkę na wykresie, możemy zasłonić kwestię, którą chcemy przekazać.

Niniejszy rozdział rozpoczyna się od wykresu słupkowego. Podobnie jak wykres liniowy, który rozpocznie następny rozdział, wykres słupkowy jest znany większości odbiorców, co sprawia, że to wygodny wybór, który może pomóc podczas porównywania kategorii lub przeglądania zmian w czasie. Znajduje się również na szczycie diagramu rankingu percepcyjnego. Niekoniecznie zawsze musimy podawać naszym odbiorcom dokładne wartości, ale kiedy to robimy, wykres słupkowy stanowi doskonały wybór.

Wykresy w tym rozdziale są stylizowane mniej więcej zgodnie z wytycznymi opublikowanymi przez Eurostat, Europejski Urząd Statystyczny. Siedemdziesięciosześciostronicowy przewodnik po stylu Eurostatu obejmuje wszystko, od koloru, typografii, logo, tabel, układu i innych elementów kompleksowego przewodnika po styl, który omówimy w rozdziale 12.

WYKRESY S Ł UPKOWE

Jedna z najbardziej znanych wizualizacji danych. Długość lub wysokość prostokątnych słupków na wykresach słupkowych i kolumnowych przedstawia wartość danych. Prostokąty można ułożyć wzdłuż osi pionowej, tak aby słupki leżały poziomo (wykres słupkowy) lub pionowo na osi poziomej (wykres kolumnowy). Ze względu na zwięzłość oraz fakt, że niezależnie od sposobu ich ułożenia nadal są to słupki, w całej książce nazywam je wykresami słupkowymi. Wykresy słupkowe znajdują się na górze listy rankingów percepcyjnych. Dzięki prostokątom umieszczonym na tej samej prostej osi można łatwo i szybko porównać wartości. Wykresy słupkowe są również łatwe do wykonania, nawet za pomocą pióra i papieru.

Poniższy wykres pokazuje całkowitą populację w dziesięciu krajach z całego świata. Łatwo jest znaleźć w grupie kraje najmniej (Włochy) i najbardziej (Brazylia) zaludnione, nawet jeśli nie są one oznaczone dokładnymi wartościami.

Całkowita populacja Brazylii przewyższa inne kraje (w milionach osób)

BrazyliaEtiopiaFrancjaNiemcyWłochyJaponiaMeksykTurcjaRosjaWietnam

Wykres słupkowy to znany wykres, który można łatwo odczytać i utworzyć. Znajduje się on na szczycie rankingu percepcyjnego. Źródło: Bank Światowy.

Jeszcze łatwiej jest odczytać najwyższe i najniższe wartości, gdy dane są posortowane według ich wartości. Jednak ta strategia nie zawsze działa. Jeśli na przykład pokazywałbym poziom populacji dla sześćdziesięciu krajów, mógłbym posortować wartości alfabetycznie, aby odbiorcy mogli łatwiej znaleźć słupek dla konkretnego kraju. Ale gdybym argumentował na temat poziomu populacji w konkretnym kraju lub zestawie krajów, mógłbym

KATEGORIE

WYKRESÓW –ZESTAWIENIE  85

posortować dane w taki sposób, aby kraj lub kraje będące przedmiotem zainteresowania znajdowały się na jednym końcu wykresu. Alternatywnie mógłbym po prostu użyć innego koloru, aby wyróżnić słupek lub słupki, które są szczególnie ważne.

Całkowita populacja Brazylii przewyższa inne kraje (w milionach osób)

BrazyliaRosjaJaponiaMeksykEtiopiaWietnamNiemcyTurcjaFrancjaWłochy

Jeśli to możliwe, posortuj dane na wykresach słupkowych. Ułatwia to odbiorcy znalezienie najwyższych i najniższych wartości. Źródło: Bank Światowy.

Istnieje kilka strategii tworzenia wykresów słupkowych, a wiele z nich będzie miało zastosowanie także do innych wykresów opisanych w tym rozdziale.

ZACZNIJ O Ś OD ZERA

Rozpoczynanie osi wykresów słupkowych od zera to praktyczna zasada, co do której zgadza się wielu ekspertów i autorów wizualizacji danych. Ponieważ wartości na wykresie słupkowym postrzegamy na podstawie długości słupków, rozpoczęcie osi od wartości innej niż zero może nadmiernie podkreślić różnice między słupkami i zniekształcić naszą percepcję.

Przeanalizujmy wykres słupkowy populacji. Ponieważ żadna z nich nie jest niższa niż pięćdziesiąt milionów, możemy ulec pokusie, aby rozpocząć oś od pięćdziesięciu milionów. Przecież to uwypukliłoby różnicę między wartościami.

Kiedy to zrobimy, różnice w wartościach są bardzo podkreślone, a właściwie to zbyt rzucające się w oczy. Tego typu wykres sugeruje, że Brazylia jest o rząd wielkości większa

Całkowita populacja Brazylii przewyższa inne kraje (w milionach osób)

BrazyliaRosjaJaponiaMeksykEtiopiaWietnamNiemcyTurcjaFrancjaWłochy

Rozpoczęcie osi pionowej od liczby 50 milionów nadmiernie podkreśla różnice w wartościach i wypacza naszą percepcję danych. Źródło: Bank Światowy.

od Włoch, podczas gdy w rzeczywistości jest tylko mniej więcej trzy i pół raza większa. Nie jest to kwestia przejścia od dokładnego do ogólnego postrzegania – jest to kwestia przejścia od dokładnego do niedokładnego.

Jeśli chcesz spojrzeć na to z bardziej ekstremalnej perspektywy, wyobraź sobie, że zaczynasz wykres od stu milionów – dlaczego nie? Jeśli rozpoczęcie od pięćdziesięciu jest w porządku, możemy wybrać dowolną liczbę. Teraz na pierwszy rzut oka wygląda na to, że w połowie z tych krajów nikt nie mieszka!

Pojawiają się badania w tej dziedzinie, które sugerują, że być może rozpoczynanie wykresów słupkowych od wartości innej niż zero nie wpływa na naszą percepcję danych. W jednym z niedawnych badań uczestnicy byli w stanie lepiej ocenić czułość wyników (np. brak efektu, mały efekt, średni efekt lub duży efekt) i dokładniej (np. wielkość efektu) po ustawieniu osi pionowej w zakresie bardziej zgodnym ze zmiennością danych. Jednakże do czasu przeprowadzenia dalszych badań wolę rozpoczynać oś na wykresach słupkowych od zera, aby uniknąć nieporozumień lub możliwości wizualnego błędu systematycznego.

NIE PRZE Ł AMUJ S Ł UPKÓW

Kolejnym grzechem głównym wizualizacji danych jest tak zwane przełamywanie słupków – to znaczy użycie falistej linii lub kształtu w celu pokazania, że przycięto jeden lub

Całkowita populacja Brazylii przewyższa inne kraje

(w milionach osób)

100

BrazyliaRosjaJaponiaMeksykEtiopiaWietnamNiemcyTurcjaFrancjaWłochy

Jeśli rozpoczęcie osi Y od pięćdziesięciu jest w porządku, to dlaczego nie od stu?

Źródło: Bank Światowy.

więcej słupków. Taki zabieg może okazać się kuszący w przypadku wartości odstającej (patrz ramka na stronach 90–91), ale zniekształca on względne wartości między słupkami. Stwórzmy wykres słupkowy populacji w dziesięciu najludniejszych krajach świata. W 2018 roku najbardziej zaludnionymi krajami na świecie były Chiny i Indie (odpowiednio 1,39 miliarda i 1,35 miliarda ludzi), a za nimi plasowały się Stany Zjednoczone z 327 milionami mieszkańców. Na górnym wykresie na następnej stronie możemy zobaczyć, jak dużo większe są Chiny i Indie w porównaniu z resztą tych krajów. Gdybyśmy chcieli zwiększyć różnice między mniej zaludnionymi krajami, moglibyśmy przełamać słupki, ale to sprawiłoby, że Chiny i Indie wyglądałyby na znacznie mniej zaludnione niż w rzeczywistości. Cięcie długości pasków jest całkowicie dowolne – mogę umieścić te faliste linie w dowolnym miejscu, w którym chcę powiększyć konkretne różnice. Ale to nie jest uczciwe w stosunku do danych.

Jeśli napotkasz przypadek, w którym występują wartości odstające, ale chcesz pokazać szczegółowe różnice między mniejszymi wartościami, spróbuj użyć większej liczby wykresów. Można to nazwać podejściem polegającym na „powiększaniu” i „pomniejszaniu” – pokaż wszystkie dane, aby odbiorca mógł zobaczyć wielkość największych wartości, a następnie powiększ, aby uzyskać szczegółowy wygląd, pomijając wartości odstające. Na następnej stronie podkreśliłem mniej zaludnione kraje, aby pokazać różnice między nimi, które nie do końca widać na głównym wykresie. Dodanie etykiet i aktywnego tytułu to kolejny dobry sposób na przekazanie odbiorcy różnic między mniejszymi wartościami.

Turn static files into dynamic content formats.

Create a flipbook