28/12/2010
Instagram
Twitter - follow us
Facebook
Datová & kontextová žurnalistika
  • Data
  • Kontext
  • Číslo dne
  • Přesah
  • Témata
    • Ekonomika
    • Kultura
    • Lidská práva
    • Média
    • Politika
    • Společnost
    • Sport
    • Školství
    • Vzdělání
    • Zdravotnictví
  • Speciály
    • Lidé v pohybu
    • Mediální gramotnost
    • Sociální bydlení
    • Sociální inkluze
    • Stárnutí populace
    • Svoboda médií
    • Volby
    • Ženy a muži
  • Redakce
    • Vlastní web
  • Seminář k diplomové práci IV.
  • Informační vědy
  • Informační politika a management
  • Diplomová práce
LATEST
  • 1. Informační vědy
  • 2. Design informačních služeb
  • 3. Literatura, knihovní procesy a trh
  • 4. Učící se společnost
Datová & kontextová žurnalistika
US volby – všechny státy
Datová & kontextová žurnalistika
Datová & kontextová žurnalistika
US volby – swing states
Datová & kontextová žurnalistika
US volby – poll of polls
Datová & kontextová žurnalistika
US volby – přehled
Datová & kontextová žurnalistika
Sněmovna – poll of polls
Datová & kontextová žurnalistika
Sněmovna volby – mandáty – model
Home > Home
462 views 4 min 0 Comment

Nestrukturovaná data: Kolik jich je?

Redakce - 28/12/2010

Už jste to slyšeli? Osmdesát až pětaosmdesát procent všech dat kolem nás je nestrukturovaných. Tedy jenom patnáct až dvacet procent dat sedí v pevně definovaných strukturách tabulek databází. Jednou se jako zdroj této informace uvádí Gartner, jindy IDC, Merrill Lynch nebo IBM.

Odkud se všechna ta čísla berou? A jak je prokázat?

„Množství informací se zdvojnásobuje po každých 1100 dnech, tedy zhruba po třech letech. Nicméně čas, který máme k zpracování těchto narůstajících informací je stále stejný: 1440 minut denně.“

Tento známý výrok Billa Jensena z knihy Simplicity platí už jen z jeho druhé poloviny. Množství dat se v organizacích zdvojnásobuje přinejmenším za polovinu Jensenem uváděného času.

Materiál IBM The Toxic Terabytes z roku 2006 dokonce uvádí, že do čtyř let můžeme počítat s tím, že celosvětová data se budou zdvojnásobovat každých jedenáct (!) hodin. Je tomu dnes v r. 2010 skutečně tak?

Každopádně nárůst dat je v dnešní době závratný. Zatímco před asi dvaceti lety pracovaly profesionální počítače s kilobajty a megabajty dat, dnešní školáci jich se svými laptopy spravují gigabajty a mezi profesionály se běžně hovoří o tera (1012 ) a petabytech (1015 ). Následují exa (1018 ), zetta (1021 ) a yotta (1024 ) bajty.

Jedna ze studií IDC hovoří o tom, že v roce 2006 bylo celkem vygenerováno 161 exabajtů dat, což představuje tři milionkrát více dat než se nacházelo v dosud vydaných knihách. Podle jiné studie společnosti Cisco v roce 2013 dosáhne objem IP komunikace dvou třetin zettabajtu, tj. 667 exabajtů. Video obsah na internetu bude v r. 2013 představovat 18exabajtů měsíčně a mobilní datová komunikace přenese v tom samém roce měsíčně dva exabajty dat.

Pro tak často uváděných 80 procent nestrukturovaných dat nelze dohledat žádné seriozní průzkumy, o které by bylo možné se opřít. Na druhé straně, expert přes data Philip Russom zThe Datawarehouse Institute (TDWI) prezentoval v r. 2007 ve své práci zcela jiné údaje. Nejprve rozdělil široké datové spektrum na:

Strukturovaná data. Jeden z extrémů datového kontinua. Tato data se vyskytují zejména v databázích různých typů.

(Finanční transakce, data z různých snímačů a RFID čteček, aplikací Business Intelligence a datových skladů)

Nestrukturovaná data. Opačný extrém k předchozímu zahrnující dokumenty jakými jsou soubory z textových editorů, webové stránky, e-maily, audio a video.

(Těmito daty se zabývá Content Management, který disponuje mnohem širším záběrem, než jeho předchůdce Document Mangement)

Semistrukturovaná data. Vyplňují prostor definovaný oběma výšeuvedenými extrémy.

(Data z tabulkových procesorů, RSS feeds a XML dokumentů)

Grafické znázornění datového spektra/kontinua:

Podle tohoto průzkumu bylo 47 procent dat strukturovaných, 31 procent nestrukturovaných a zbylých 22 procent semistrukturovaných. I když dvě poslední kategorie označíme jako nestrukturovaná data – dostáváme se na 53 procent.

To ale stále není oněch 80-85 procent, které jsou běžně uváděny.

Zdroj: Captaview’s Blog

Štítky: média, sociální média, sociální sítě, Yeseter

PREVIOUS

Direct trade ihil adipisicin thundercats viral helvetica

NEXT

A word cloud of A Christmas Carol by Charles Dickens 1843
Related Post
15/01/2014
Interaktivní mapa evropských jazyků
10/12/2013
Slovenský “Snow Fall”
06/12/2014
Střelba ve Fergusonu rozděluje společnost
31/12/2013
Bývalý prezident Klaus nesledoval Zemanův vánoční projev
Comments are closed.
US volby – všechny státy
05/11/2024
US volby – swing states
05/11/2024
US volby – poll of polls
05/11/2024
Absolventi: riziková skupina
Datová & kontextová žurnalistika
Datová & kontextová žurnalistika
Šance na trhu práce: Základní vs.
Datová & kontextová žurnalistika
Schopnost změnit obor nebo si práci
Datová & kontextová žurnalistika
Českým dětem hrozí chudoba výrazně víc

Výběr

Datová & kontextová žurnalistika
Revoluce ve volbách: Rafička ukáže výsledek už při prvních sečtených hlasech
Datová & kontextová žurnalistika
Sněmovna v datech: Vládly nám děti a nikdo to neřešil
© Datová žurnalistika 2014-25