Statystyka – Porady | Analizy | Opracowania | Obliczenia | Pomoc statystyczna

Przygotowanie danych do analizy statystycznej – najważniejszy etap pracy naukowej z pkt widzenia statystyki

Przygotowanie danych jest prawdopodobnie najważniejszym krokiem w każdej poważnej analizie danych. I chociaż byłoby niedorzecznością, aby spróbować objąć tak szeroki obszar wiedzy w jednym artykule, przygotowaliśmy krótką listę kontrolną, którą możesz wykorzystać podczas przygotowywania danych do analizy. Mamy nadzieję, że pomoże to zoptymalizować proces przygotowania danych do analizy i upewnić się, że obejmuje wszystkie ważne kroki i zasady.

Czym jest proces przygotowania danych?

Przygotowanie danych odnosi się do wszelkich działań mających na celu poprawę jakości, użyteczności, dostępności lub możliwości przenoszenia danych ... Ostatecznym celem przygotowania danych jest umożliwienie ludziom i systemom analitycznym czystych i nadających się do spożycia danych. przekształcona w praktyczne spostrzeżenia. Może to obejmować cały szereg procesów, ale skupimy się na integracji danych, profilowaniu danych czyszczeniu danych i zarządzaniu danymi.

Zanim zaczniesz: zdefiniuj pytania badawcze.

Pisaliśmy już wcześniej o pytaniach, które należy zadać podczas podnoszenia wymagań, ale jako ogólną wytyczną - każdy rodzaj analizy danych rozpoczyna się od zapoznania się z pytaniami biznesowymi, na które chcesz odpowiedzieć, oraz wskaźnikami, które chcesz zmierzyć.

Dogłębne zrozumienie wymagań biznesowych lub naukowych umożliwi późniejsze odwzorowanie tych żądań na dane i rodzaje analiz, które chcesz wykonać, a nieumiejętność zrozumienia, czego może oczekiwać firma, promotor pracy naukowej czy recenzent. zmarnowanego czasu i wysiłku później - nie pomijajcie tego kroku.

Gdy już zrozumiesz, czego twój recenzent się zobaczyć jako ostateczny produkt analizy, możesz zacząć nurkować w danych. Pierwszą rzeczą, którą będziesz chciał zrobić, to ją znaleźć.

1. Gdzie są dane?

Pierwszy zestaw pytań dotyczy fizycznych lokalizacji, w których przechowywane są dane organizacji. W przypadku niewielkiego wdrożenia może to być tak proste, jak seria arkuszy kalkulacyjnych; w przypadku większych można szukać wielu baz danych, źródeł w chmurze lub hurtowni danych (przeczytaj o różnicach między bazami danych, bazami danych i hurtowniami danych).

Będziesz także musiał dowiedzieć się, czy masz wymagane uprawnienia dostępu do danych i jakie typy lub formaty danych będziesz obsługiwać.

Pytania, które chcesz zadać na tym etapie to:

  • Z jakich źródeł danych współpracuje moja organizacja (firma, uczelnia)?
  • Czy mam wymagane uprawnienia lub dane uwierzytelniające, aby uzyskać dostęp do danych?
  • Jaki jest rozmiar każdego zestawu danych i ile danych będę potrzebował uzyskać od każdego z nich?
  • W jaki sposób jestem zaznajomiony z podstawowymi tabelami i schematami w każdej bazie danych?
  • Czy potrzebuję wszystkich danych do bardziej szczegółowej analizy, czy też potrzebuję podzestawu, aby zapewnić szybszą wydajność?
  • Czy dane wymagają standaryzacji ze względu na różnice - np. Łącząc dane z bazy danych A oraz B.
  • Czy muszę analizować dane ze źródeł zewnętrznych, które znajdują się poza magazynami danych mojej organizacji?

2. Czy chcesz przekształcać dane?

Często dane muszą zostać ręcznie przekształcone lub zmanipulowane w celu przeprowadzenia skutecznej analizy. Może to mieć znaczenie, gdy różne tabele lub zestawy danych używają różnych formatów dla tych samych informacji, gdy dane są niespójne lub zawierają zduplikowane informacje lub gdy chcesz grupować dane w nowy sposób.

Co należy sprawdzić:

  • Dla każdego źródła - czy jest kompletny? Dokładny? Aktualny?
  • Czy w obecnym stanie mogę wykorzystać dane do odpowiedzi na moje pytania biznesowe?
  • Jeśli występują niespójności lub zbędne wartości, co należy zrobić, aby wyczyścić dane? Czy jest to kwestia ręcznej zmiany kilku wartości, czy też konieczne będzie bardziej systematyczne podejście?
  • Czy moje narzędzie połączy się z nieprzetworzonymi danymi, aby można było przeprowadzić odkrywanie danych lub eksplorację wysokiej rozdzielczości? Czy będę w stanie zmienić dane w pierwotnej lokalizacji, czy też trzeba to zrobić w środowisku drugorzędnym (np. nie masz uprawnień do zmiany danych produkcyjnych)?

3. Jak połączyć dane z różnych źródeł?

Jeśli pracujesz z wieloma różnymi źródłami danych i tabelami, musisz modelować dane w taki sposób, aby umożliwić użytkownikom pulpitów nawigacyjnych szybkie otrzymywanie odpowiedzi na zapytania ad-hoc poprzez łączenie powiązanych pól w różnych tabelach. Relacje między różnymi jednostkami w modelu danych będą określać typy zapytań, na które może odpowiedzieć twoja przyszła analiza, a także efektywność, w jakiej to robi.

Sprawdź:

  • Jaki związek wystąpi po połączeniu tych pól? Będziesz chciał unikać relacji wiele do wielu.
  • Czy mój model danych będzie skalowany?
  • Jak łatwo będzie dodać źródła danych i wprowadzić zmiany w modelu w dalszej części drogi?
  • Czy możemy uprościć relację bez wpływu na wydajność? Pamiętaj, że może to zależeć od narzędzi do przygotowania danych i narzędzi analitycznych, z których korzystasz.

4. Czy potrzebujesz konsolidacji danych?

W przypadku niektórych typów bardziej złożonych analiz można utworzyć nowe tabele na istniejących. Jednym z przykładów może być analiza ścieżki, w której chciałbyś wziąć podstawowe informacje o trwającym wieloetapowym procesie i stworzyć różne wiadra, do których każdy rekord zostanie zakwalifikowany. Przykłady pytań, które mogą pomóc w zrozumieniu, czy jesteś gotowy, to:

  • Czy muszę tworzyć tabele podsumowań dla typów analiz, które chcę wykonać?
  • Czy muszę łączyć dane z tabel, z którymi pracuję z łączeniem wewnętrznym lub zewnętrznym, lub łączyć te tabele, aby utworzyć nowy?

5. Jak zaimportować dane?

Podczas gdy istnieją pewne sytuacje, w których tworzysz raporty i analizy, wysyłając zapytania do produktywnych baz danych, większość narzędzi i implementacji BI będzie polegać na tworzeniu połączenia danych w środowisku wtórnym, które będzie służyć jako twoja analityczna baza danych.

Sprawdź:

  • Czy serwer lokalny lub serwer w chmurze przenosi moje dane, aby mieć wystarczające oprogramowanie i sprzęt do likwidacji ilości danych, z którymi mam do czynienia? Oba są nieco zależne, ponieważ odpowiednie oprogramowanie może obniżyć koszty sprzętu.
  • Na jakiej częstotliwości muszę zaimportować dane? To zależy od szybkości, z jaką oryginalne dane zmieniają się lub rosną.
  • W jaki sposób import danych wpłynie na moje środowisko produkcyjne?

6. W jaki sposób zweryfikujesz wyniki?

Zanim będziesz mógł z dumą ogłosić, że przygotowanie danych jest kompletne, musisz się upewnić, że wynik końcowy jest dokładny i że nie popełniłeś żadnych błędów po drodze.
Sprawdź:

  • Czy ma to sens na ogólnym poziomie?
  • Czy środki, które widzę są zgodne z tym, co już wiem o firmie?
  • Czy obliczenia w moim środowisku analitycznym zwracają takie same wyniki, jak te same obliczenia wykonywane ręcznie na oryginalnych danych?

Dane przygotowane? Możesz rozpocząć analizę.

Po przejrzeniu całej powyższej listy kontrolnej zidentyfikujesz dane, przekształcisz je, zbudujesz model danych, przeniesiesz dane do analitycznej bazy danych i zweryfikujesz wyniki. Może to być kwestia godzin, dni lub więcej - w zależności od ilości danych, z którymi współpracujesz i ich złożoności.

Jeśli wszystko poszło dobrze, jesteś gotowy do pracy - więc idź dalej i zacznij budować kokpity! Zapoznaj się z naszym przewodnikiem po projektowaniu kokpitu, aby upewnić się, że postępujesz zgodnie z podstawowymi zasadami, które pomogą Ci jasno i zrozumiale opowiedzieć o swoich danych.

Wszelkie uwagi mile widzane:
statystyka@biostat.com.pl
©2013 Statystyka.az.pl
Wszystkie prawa zastrzeżone.
Kontakt
Statystyka AZ
Praktyki