28/12/2010
Instagram
Twitter - follow us
Facebook
Datová & kontextová žurnalistika
  • Data
  • Kontext
  • Číslo dne
  • Přesah
  • Témata
    • Ekonomika
    • Kultura
    • Lidská práva
    • Média
    • Politika
    • Společnost
    • Sport
    • Školství
    • Vzdělání
    • Zdravotnictví
  • Speciály
    • Lidé v pohybu
    • Mediální gramotnost
    • Sociální bydlení
    • Sociální inkluze
    • Stárnutí populace
    • Svoboda médií
    • Volby
    • Ženy a muži
  • Redakce
LATEST
  • Videolab – finální verze videa
  • Jak se Češi stěhují kvůli práci
  • Českým médiím stále vládnou v naprosté většině muži,…
  • Mapa kvality života. Nejlepší a nejhorší místa k…
Datová & kontextová žurnalistika
Jak se Češi stěhují kvůli práci
Datová & kontextová žurnalistika
Datová & kontextová žurnalistika
Českým médiím stále vládnou v naprosté
Datová & kontextová žurnalistika
Mapa kvality života. Nejlepší a nejhorší
Datová & kontextová žurnalistika
Revoluce ve volbách: Rafička ukáže výsledek
Datová & kontextová žurnalistika
Čerstvá data, jak se šíří virus.
Datová & kontextová žurnalistika
Češi neumějí prodat svou práci. Světové
Home > Home
7 views 4 min 0 Comment

Nestrukturovaná data: Kolik jich je?

Redakce - 28/12/2010

Už jste to slyšeli? Osmdesát až pětaosmdesát procent všech dat kolem nás je nestrukturovaných. Tedy jenom patnáct až dvacet procent dat sedí v pevně definovaných strukturách tabulek databází. Jednou se jako zdroj této informace uvádí Gartner, jindy IDC, Merrill Lynch nebo IBM.

Odkud se všechna ta čísla berou? A jak je prokázat?

„Množství informací se zdvojnásobuje po každých 1100 dnech, tedy zhruba po třech letech. Nicméně čas, který máme k zpracování těchto narůstajících informací je stále stejný: 1440 minut denně.“

Tento známý výrok Billa Jensena z knihy Simplicity platí už jen z jeho druhé poloviny. Množství dat se v organizacích zdvojnásobuje přinejmenším za polovinu Jensenem uváděného času.

Materiál IBM The Toxic Terabytes z roku 2006 dokonce uvádí, že do čtyř let můžeme počítat s tím, že celosvětová data se budou zdvojnásobovat každých jedenáct (!) hodin. Je tomu dnes v r. 2010 skutečně tak?

Každopádně nárůst dat je v dnešní době závratný. Zatímco před asi dvaceti lety pracovaly profesionální počítače s kilobajty a megabajty dat, dnešní školáci jich se svými laptopy spravují gigabajty a mezi profesionály se běžně hovoří o tera (1012 ) a petabytech (1015 ). Následují exa (1018 ), zetta (1021 ) a yotta (1024 ) bajty.

Jedna ze studií IDC hovoří o tom, že v roce 2006 bylo celkem vygenerováno 161 exabajtů dat, což představuje tři milionkrát více dat než se nacházelo v dosud vydaných knihách. Podle jiné studie společnosti Cisco v roce 2013 dosáhne objem IP komunikace dvou třetin zettabajtu, tj. 667 exabajtů. Video obsah na internetu bude v r. 2013 představovat 18exabajtů měsíčně a mobilní datová komunikace přenese v tom samém roce měsíčně dva exabajty dat.

Pro tak často uváděných 80 procent nestrukturovaných dat nelze dohledat žádné seriozní průzkumy, o které by bylo možné se opřít. Na druhé straně, expert přes data Philip Russom zThe Datawarehouse Institute (TDWI) prezentoval v r. 2007 ve své práci zcela jiné údaje. Nejprve rozdělil široké datové spektrum na:

Strukturovaná data. Jeden z extrémů datového kontinua. Tato data se vyskytují zejména v databázích různých typů.

(Finanční transakce, data z různých snímačů a RFID čteček, aplikací Business Intelligence a datových skladů)

Nestrukturovaná data. Opačný extrém k předchozímu zahrnující dokumenty jakými jsou soubory z textových editorů, webové stránky, e-maily, audio a video.

(Těmito daty se zabývá Content Management, který disponuje mnohem širším záběrem, než jeho předchůdce Document Mangement)

Semistrukturovaná data. Vyplňují prostor definovaný oběma výšeuvedenými extrémy.

(Data z tabulkových procesorů, RSS feeds a XML dokumentů)

Grafické znázornění datového spektra/kontinua:

Podle tohoto průzkumu bylo 47 procent dat strukturovaných, 31 procent nestrukturovaných a zbylých 22 procent semistrukturovaných. I když dvě poslední kategorie označíme jako nestrukturovaná data – dostáváme se na 53 procent.

To ale stále není oněch 80-85 procent, které jsou běžně uváděny.

Zdroj: Captaview’s Blog

Štítky: média, sociální média, sociální sítě, Yeseter

PREVIOUS

Direct trade ihil adipisicin thundercats viral helvetica

NEXT

A word cloud of A Christmas Carol by Charles Dickens 1843
Related Post
18/02/2014
Porovnejte si úspěšnost trenérů české hokejové reprezentace v přehledném grafu
08/05/2010
Spam, spam, spam
10/01/2015
Ne mým jménem
11/01/2014
Nejvíce fotografovaná místa na Zemi
Comments are closed.
Datová & kontextová žurnalistika
Jak se Češi stěhují kvůli práci
Datová & kontextová žurnalistika
Českým médiím stále vládnou v naprosté většině muži, ukazují data
Datová & kontextová žurnalistika
Mapa kvality života. Nejlepší a nejhorší místa k žití v Česku
Českým médiím stále vládnou v naprosté většině muži, ukazují data
05/04/2023
Mýty o covidu a dětech: Prý nemohou onemocnět a ve školách se virus nešíří
03/04/2021
Smrt novinářky. Co se to vlastně děje?
09/10/2018
Absolventi: riziková skupina
Datová & kontextová žurnalistika
Datová & kontextová žurnalistika
Šance na trhu práce: Základní vs.
Datová & kontextová žurnalistika
Schopnost změnit obor nebo si práci
Datová & kontextová žurnalistika
Českým dětem hrozí chudoba výrazně víc
© Datová žurnalistika 2014-23