8. Organizace znalostí – Datová & kontextová žurnalistika

Dobrý den, děkuji za slovo. Téma „Organizace znalostí“ bych ráda propojila se svou zkušeností z nakladatelství i datové žurnalistiky. Organizace znalostí totiž není jen teoretická disciplína – je to něco, s čím se potkávám každý den, ať už při tvorbě databází, editaci textů nebo vizualizaci dat.

V informační vědě se organizace znalostí (Knowledge Organization, KO) chápe jako soubor metod a nástrojů, které umožňují strukturovat, reprezentovat, třídit a zpřístupnit informace a znalosti tak, aby byly použitelné. Patří sem klasifikace, indexace, tvorba tezaurů, ontologií nebo metadatových modelů.

1. Znalosti, jejich organizace a doménová analýza Znalosti jsou obecně chápány jako kontextualizované a validované informace. V informační vědě se často používá DIKW hierarchie (Data–Information–Knowledge–Wisdom), kde znalosti představují vyšší úroveň porozumění – integraci informací v rámci určité domény a situace.

Organizace znalostí zahrnuje procesy, které umožňují znalosti strukturovat (např. pomocí taxonomií nebo ontologií), uchovávat (např. v databázích) a zpřístupnit (např. prostřednictvím vyhledávání nebo vizualizace).

Doménová analýza je metodologický přístup, který zkoumá, jak různé oborové komunity (např. klimatologie, medicína, právo) strukturovaly a organizují své poznání. Hjørland (2002) upozorňuje, že každá doména má vlastní epistemologii, klíčové pojmy i hodnotové rámce – a právě jejich pochopení je zásadní pro smysluplnou organizaci znalostí.

V datové žurnalistice vidím tento proces denně: začínám s daty – třeba čísly ve státním rozpočtu. Sama o sobě nic neříkají. Teprve když je zasadím do kontextu, vzniknou informace. A když je propojím s historickými trendy a dalšími zdroji, získám znalosti o tom, jak funguje stát.

Ten “informační výbuch” po druhé světové válce dnes zažíváme exponenciálně. V redakci řešíme stejné problémy jako knihovníci – jak organizovat stále větší množství informací tak, aby byly použitelné.

Doménová analýza je pro mě zcela klíčová. Když píšu o klimatu, musím rozumět tomu, jak strukturují poznatky klimatologové. Když analyzuji zdravotnictví, musím pochopit jazyk a strukturu myšlení lékařské komunity. Klasifikace není nikdy čistě objektivní – závisí na tom, pro koho ji tvoříme a s jakým cílem.

2. Pojmy, jejich reprezentace a sémantické vztahy Pojmy (concepts) jsou mentální reprezentace kategorií věcí, jevů nebo vztahů. Reprezentace pojmů znamená, jak je tyto pojmy vyjadřujeme v systému – například pomocí slov, symbolů nebo tříd v ontologii.

Sémantické vztahy jsou logické nebo významové vazby mezi pojmy – například hierarchické (nadřazenost/podřazenost), asociační (souvislosti), ekvivalenční (synonyma) nebo kontrastní (antonyma).

Ten sémiotický trojúhelník – vztah mezi věcí, pojmem a znakem – je moje každodenní realita. Když dělám vizualizaci volebních výsledků, musím najít správné barvy a tvary (znaky) pro strany (pojmy), které odkazují na skutečné volební zisky (věci).

Při mapování politických vazeb řeším sémantické vztahy: je to hierarchie (ministr-náměstek), nebo asociace (spolupracovníci)? Jsou to synonyma (různá jména téže osoby), nebo skutečně různí lidé?

Ta nová teorie kategorizace s prototypy mi dává smysl. Když třídím firmy podle velikosti, nemůžu použít ostré hranice. Existují jasné prototypy – Google je očividně velká firma, teta s účetní firmou je malá. Ale co firma se sto zaměstnanci? To už jsou ty hraniční případy. A čtenářům je „střední firma“ jasnější než technická definice podle EU.

3. Ontologie, jejich modelování a vizualizace Ontologie v kontextu informační vědy představují explicitní formální popis pojmové struktury domény – tedy soubor pojmů, jejich vlastností a vztahů mezi nimi. Ontologie umožňují strojově čitelné a logicky strukturované reprezentace znalostí.

Typickým prvkem ontologií je RDF triplet: subjekt–predikát–objekt, například: “Ministerstvo dopravy – zadalo – zakázku X”. Takové struktury umožňují efektivní vyhledávání, propojování a inferenci nových informací.

V praxi investigativní žurnalistiky vytvářím ontologické struktury neustále: mapuji aktéry (politici, firmy), jejich role (funkce, majetky) a vztahy (vlastnictví, transakce). Tyto vztahy strukturuji do jednoduchých vět – a následně vizualizuji pomocí síťových grafů. Čtenář pak na první pohled vidí komplexní struktury, které by byly v textu nečitelné.

Modelování ontologií často využívá nástroje jako Protégé, OWL nebo SPARQL pro dotazování. Vizualizace slouží nejen k prezentaci, ale i k analýze – zviditelňuje skryté vzorce.

Co je to ontologie?

Ontologie zní jako filozofický pojem, ale v praktické datové žurnalistice je to prostě formální mapa pojmů a vztahů mezi nimi. Thomas Gruber to definoval jako “explicitní formální specifikaci sdílené konceptualizace” – což znamená, že jasně a strukturovaně popíšu, jaké pojmy v dané oblasti existují a jak spolu souvisí.

Proč potřebuji ontologii?

Představ si, že sleduješ kauzu kolem veřejných zakázek. Máš desítky firem, úředníků, politiků, smluv a plateb. Bez systému se v tom ztratíš. Ontologie ti pomůže:

Pojmenovat entity – co všechno sleduješ (firmy, osoby, smlouvy)
Definovat vlastnosti – co o každé entitě chceš vědět (jméno, částka, datum)
Popsat vztahy – jak spolu entity souvisí (vlastní, platí, spolupracuje)
Formalizovat to – aby s tím mohly pracovat i počítače

Praktický příklad z investigativy

Když rozplétám síť kolem nějaké kauzy, vytvářím vlastně ontologii:

Entity (třídy):

Osoby (politici, úředníci, podnikatelé)
Firmy (dodavatelé, subdodavatelé)
Instituce (ministerstva, úřady)
Dokumenty (smlouvy, faktury)

Vlastnosti:

Osoba: jméno, funkce, datum narození, kontakty
Firma: název, IČO, obor, adresa, obrat
Smlouva: číslo, předmět, částka, datum

Vztahy:

vlastní (osoba → firma)
uzavřel (úřad → smlouva → dodavatel)
spolupracuje_s (firma → firma)
je_nadřízen (úředník → úředník)

RDF – jazyk ontologií

Ontologie se často zapisují pomocí RDF triád ve formě subjekt-predikát-objekt:

“Jan Novák” → “je_jednatelem” → “Firma ABC”
“Ministerstvo dopravy” → “uzavřelo_smlouvu” → “Smlouva č. 123”
“Firma ABC” → “získala_zakázku_za” → “50 milionů Kč”

Tohle už počítač dokáže automaticky zpracovat a hledat v tom vzorce.

Výhody ontologií v praxi

Automatizace – počítač sám najde všechny firmy napojené na určitou osobu
Propojování – můžu spojit svoje data s externími zdroji (Wikidata, obchodní rejstřík)
Vizualizace – vytvoří se síťové grafy, kde jsou vidět skryté vazby
Ověřitelnost – někdo jiný může použít stejnou strukturu a výsledky zkontrolovat

Rozdíl od obyčejné databáze

Klasická databáze má pevnou strukturu – tabulky se sloupci. Ontologie je flexibilnější:

Můžu přidat nový typ vztahu, aniž bych měnil celou strukturu
Stejná entita může mít různé role (Jan je zároveň politik i majitel firmy)
Vztahy mají sémantiku – “vlastní” není totéž jako “řídí”

Ontologie vs. klasifikace vs. taxonomie

Klasifikace – zařazuji věci do škatulek (kniha → žánr sci-fi)
Taxonomie – hierarchický strom (savci → primáti → lidoopi → člověk)
Ontologie – komplexní síť vztahů mezi pojmy, které můžou být hierarchické i nehavařické

Příklad z praxe: Volební kalkulačka

Při tvorbě volební kalkulačky vytvářím ontologii:

Entity: strany, kandidáti, témata, pozice, regiony Vztahy: kandidát → zastupuje → stranu, strana → má_pozici → k_tématu Vlastnosti: pozice má hodnotu na škále 1-5

Díky tomu pak můžu automaticky počítat podobnost mezi voličem a stranami.

Nástroje a standardy

OWL (Web Ontology Language) – standard pro zápis ontologií
RDFS – rozšíření RDF o třídy a vlastnosti
SKOS – jednodušší standard pro tezaury a klasifikace
Protégé – editor ontologií

Proč je to důležité pro žurnalistiku?

Ontologie umožňuje:

Systematickou investigativu – žádné důležité vazby mi neuniknou
Transparentnost – moje metody jsou jasně popsané
Colaboraci – ostatní novináři můžou navázat na moji práci
Fact-checking – rychle ověřím tvrzení proti struktuře vztahů

Ontologie je prostě způsob, jak udělat ze složitého světa srozumitelnou mapu, se kterou můžou pracovat i počítače. V datové žurnalistice je to neocenitelný nástroj pro odhalování skrytých souvislostí.

4. Kategorizace, klasifikace, fazetace a vědecká taxonomie Kategorizace je kognitivní proces zařazování jevů do tříd na základě podobnosti. Klasifikace je systematické řazení dokumentů nebo objektů do tříd podle předem stanovených pravidel. Vědecká taxonomie se snaží o univerzální, hierarchické třídění (např. biologická klasifikace), zatímco fazetace umožňuje vícerozměrné třídění podle nezávislých hledisek.

Fazetová klasifikace (např. Ranganathan) umožňuje popsat objekt více hledisky (např. místo, čas, forma). V žurnalistické praxi ji využívám při analýze veřejných zakázek – firmu třídím podle regionu, oboru, velikosti i vztahů.

Používám standardní klasifikační systémy jako NACE (obory), NUTS (území) nebo CZSO klasifikace. Kombinací fazet odhaluji vzorce, které by jinak zůstaly skryté – např. systematické zvýhodňování některých dodavatelů. Takto strukturovaná analýza je základem jak pro investigaci, tak pro vizualizaci.

5. Indexace a selekční jazyky Pro dlouhodobé investigativní projekty si vytvářím vlastní databáze s důkladnou indexací. Každý dokument, rozhovor či dataset označuji klíčovými slovy, abych je později snadno našla.

Často si tvořím vlastní tezaury – řízené slovníky termínů specifických pro danou kauzu. Například při sledování dotačních podvodů si definuji, co znamená „napojení“ firmy – je to přes vlastníky, jednatele, nebo adresu?

Znalost fungování selekčních jazyků, jako jsou systematické selekční jazyky (např. Conspectus nebo RAMEAU), je pro mě důležitá i při práci s knihovními databázemi a archivními fondy – kvalitní rešerše závisí na správném formulování dotazu.

V dlouhodobých žurnalistických projektech si vytvářím vlastní databáze s promyšlenou indexací. Každý dokument, rozhovor, dataset potřebuji opatřit klíčovými slovy, aby se dal později efektivně najít. V některých případech si vytvářím vlastní řízené slovníky – například u vyšetřování dotačních podvodů si stanovím pojmy jako “napojená firma” nebo “křížové vlastnictví” a definuji, jak tyto vztahy poznám.

Znalost principů selekčních jazyků je klíčová i při hledání ve veřejných archivech, registrech smluv nebo mediálních databázích. Formulace dotazu často rozhoduje o tom, zda získám relevantní informaci.

6. Dokument, jeho analýza a popis V datové žurnalistice pracuji s velmi různorodými typy dokumentů – od tabulek přes texty až po naskenované smlouvy. Každý typ vyžaduje jiný přístup k popisu.

Metadata jsou pro mě naprosto zásadní. Když publikuji dataset, musím jasně uvést, odkud data pocházejí, jak jsem je zpracovala, co znamenají jednotlivé proměnné a jaká jsou omezení. To odpovídá zásadám 6C – obsah musí být srozumitelný, konzistentní, kontextualizovaný a přístupný ke zpětné kontrole.

Rozlišuji různé typy metadat: administrativní (kdo, kdy), popisná (o čem), technická (formát), licenční (práva). Hloubka závisí na účelu – někdy stačí metadata na úrovni celku, jindy je třeba popsat každou proměnnou zvlášť.

V datové žurnalistice pracuji s velmi různorodými typy dokumentů – od strukturovaných tabulek přes úřední listiny po naskenované smlouvy. Každý z nich vyžaduje odlišný přístup. Například u datasetů musím uvést tzv. datová metadata: co který sloupec znamená, odkud data pocházejí, jaká jsou omezení. Odpovídá to tzv. modelu 6C (clear, coherent, contextualized, concise, correct, complete).

Procesy v praxi Můj pracovní postup odpovídá základním procesům organizace znalostí:

Nejprve si ujasním, co chci zkoumat.
Roztřídím data a opatřím je metadaty.
Propojím související informace.
Uložím vše do databáze s kvalitním vyhledáváním.
Průběžně kontroluji a aktualizuji.

Technologie a trendy Linked Open Data mění i žurnalistiku. Díky propojení s Wikidaty nebo DBpedií mohu doplnit vlastní datasety o nové souvislosti a vizualizace.

Umělá inteligence mi pomáhá s extrakcí dat, rozpoznáváním textu a analýzou sentimentu. Zároveň ale vzniká problém „černých skříněk“ – je těžké vysvětlit čtenáři, co algoritmus přesně dělal. Proto kladu důraz na transparentnost.

Současné výzvy Velká dilemata dnes představují konflikty mezi právem na informace a právem na zapomnění, mezi transparentností a ochranou soukromí, mezi efektivitou algoritmů a lidskou odpovědností. Jako novinářka musím často balancovat mezi těmito hodnotami.

Skepsi ve mně budí systémy, kde uživatel nerozumí principu fungování – tzv. „kouzelné skříňky“. V žurnalistice je klíčové, aby výsledky byly srozumitelné a ověřitelné.

Závěr Organizace znalostí není výlučně akademická disciplína. Jsou to principy, které každý den používám při přetváření dat na srozumitelné příběhy. Pomáhají mi strukturovat myšlení, zajistit ověřitelnost informací a budovat důvěru – což je v době fake news a informačního přetížení zásadní.

Kdokoliv dnes pracuje s informacemi – ať už novinář, knihovník, nebo datový analytik – vlastně využívá principy organizace znalostí. A čím lépe jim rozumíme, tím lépe dokážeme sloužit veřejnosti.