Co to jest?

Niezliczone zapytania w wyszukiwarkach, zdjęcia i posty wrzucane codziennie przez ponad miliard użytkowników Facebooka, zapisy obrazów z kamer miejskich, wyniki badań naukowych, informacje z aplikacji mobilnych - nikt nie ma wątpliwości co do tego, że ilość powstających codziennie danych rośnie w zawrotnym tempie. Naukowcy szacują, że obecnie ok. 94% danych jest przechowywanych w formie cyfrowej.1 Dotychczas stosowane metody, takie jak np. relacyjne bazy danych, okazują się niewystarczające. Z pomocą przychodzi tutaj Big Data. Nie wystarczy jednak, że danych jest dużo, aby odwoływać się do tego terminu.

Najpopularniejszą definicją pojęcia Big Data jest tzw. "3 V", sformułowane przez Douga Laneya, analityka META Group, w raporcie z 2001 r. Wg tego podejścia kluczowe są trzy własności:

volume (ang. objętość)
velocity (ang. szybkość)
variety (ang. różnorodność)

Kryterium wielkości zbioru danych jest jednak względne; w zależności od typu danych o dużym zbiorze będziemy mówić w przypadku giga-, tera- lub petabajtów. Jeśli chodzi o szybkość, to w wielu przypadkach wymagana jest obsługa danych w czasie rzeczywistym, co przy dużej ilości danych może być nie lada wyzwaniem. Poza tym dane napływają z dużym natężeniem. Trzecie kryterium natomiast odnosi się do zróżnicowania zarówno typu danych (dane w typowych formatach, dane w formie SMSów, filmów wideo, zdjęć, itd.), jak i ich źródeł (sensory, czujniki, kamery, skanery, portale społecznościowe, itp). Kładzie się jednak nacisk także na znaczenie i możliwości, które daje analiza dużego zbioru danych.

Jak to działa?

Aby móc skorzystać z dobrodziejstw Big Data, konieczne są trzy elementy. Pierwszym z nich jest źródło danych, co, dzięki współczesnym technologiom dającym sporo narzędzi do zbierania informacji, nie stwarza większych problemów. Kolejny element to odpowiednia platforma do przechowywania i zarządzania danymi. Jednym z najpopularniejszych rozwiązań w tym zakresie jest otwarta platforma programistyczna Apache Hadoop, korzystająca m.in. z rozwiązań zaproponowanych przez Google w zakresie przechowywania rozproszonych plików (Google File System, HDFS) i równoległego przetwarzania ich (MapReduce). Ostatnim, końcowym, elementem jest odpowiednie oprogramowanie, które umożliwia analitykom, menadżerom, itp., dostęp do danych w celu wykonywania odpowiednich analiz. Obecnie większość największych firm (IBM, Microsoft, Google, HP, Oracle) korzysta ze stworzonego przez siebie oprogramowania.2

Nie trzeba jednak być finansowym gigantem, aby móc korzystać z rozwiązań Big Data. Powstało już kilka pakietów w opensource'owym języku R umożliwiających radzenie sobie z obliczeniami na ogromnych zbiorach danych (np. pbdR, bigdata) oraz adaptujących wymienione wyżej technologie w środowisku R (np. RHadoop, SparkR).

Duże zbiory danych stwarzają pole do popisu dla analityków i statystyków. Mogłoby się wydawać, że, korzystając z Big Data, wiemy już wszystko i można porzucić tradycyjne metody statystyczne, w których dużą rolę odgrywa m.in. dbałość o jakość danych, dobór próby czy niepewność. Tymczasem chcąc wnioskować na temat całej populacji np. na podstawie danych pochodzących z Twittera, powinniśmy wziąć pod uwagę, że znacznie częściej korzystają z niego osoby młode. Innym aspektem tego problemu jest fakt, że dużo łatwiej określić korelację pomiędzy zmiennymi niż faktyczny związek przyczynowo-skutkowy między nimi.

A komu to potrzebne?

Wykorzystanie Big Data może przynieść sporo korzyści - od redukcji kosztów czy zwiększenia wpływów w przypadku firm i przedsiębiorstw, aż po zmniejszenie przestępczości czy liczby pożarów w przypadku władz i odpowiednich służb.3

Niejako przełomowym przykładem wykorzystania ogromnej ilości danych było stworzenie przez Google w 2009 roku serwisu Google Flu Trends, który śledził obszar występowania przeziębienia. Nie korzystał on jednak z wyników badań lekarskich, lecz z analizy haseł wpisywanych w wyszukiwarce. Dzięki temu Google przewidywało liczbę zachorowań ze znacznie mniejszym opóźnieniem niż organizacje korzystające z danych z badań lekarskich. W ostatnich latach jednak system ten został mocno skrytykowany, a jego efektywność znacząco spadła.4, 5
Nie mniej jednak ogromny potencjał w wykorzystaniu analizy ogromnych zbiorów danych jest rzeczą niepodważalną, a współpraca w tym zakresie statystyków i informatyków będzie odgrywała coraz bardziej znaczącą rolę – w końcu ilość danych do przeanalizowania wciąż rośnie.

Autor: Barbara Gorzawska
1 http://cloudtweaks.com/2015/03/surprising-facts-and-stats-about-the-big-data-industry/ [dostęp: 23.06.2016]
2 http://www.predictiveanalyticstoday.com/bigdata-platforms-bigdata-analytics-software/ [dostęp: 23.06.2016]
3 http://www.rp.pl/artykul/1008391-Big-data-w-zarzadzaniu-i-metamorfoza-miast.html [dostęp: 23.06.2016]
4 http://simplystatistics.org/2014/05/07/why-big-data-is-in-trouble-they-forgot-about-applied-statistics/ [dostęp: 23.06.2016]
5 http://www.ft.com/intl/cms/s/2/21a6e7d8-b479-11e3-a09a-00144feabdc0.html#axzz30INfAyMi [dostęp: 23.06.2016]

dr Marian Płaszczyca

Head of Statistics & IT

BioStat^® sp. z o.o.

(+48) 666069834

statystyka@biostat.com.pl

Pomóż nam rozwijać serwis z materiałami edukacyjnymi. Polub nas na Facebook.