Obama vs. Romney v českém zpravodajství na internetu

Prezidentské volby v USA jsou vždy zajímavým témat. Ty předposlední silně podpořily hype kolem sociálních médií, na těch letošních se mnoho zpravodajských webů a vlastně i provozovatelů sociálních sítí a monitoringů vyřádilo z pohledu vizualizací dat. A tak znělo i zadání našeho úkolu na @Stunome*.

V krátkosti bych vám chtěl přiblížit týdenní práci, kterou jsme spolu s kolegy Orny Vitaiovou (@ornyv), Martinou Pokornou (@martinapokorna), Markem Bothou (@scottpilgrim88) a za podpory data miningové platformy Yeseter od Captaworks (disclaimer na konci) udělali s cílem zjistit, jak se české internetové zpravodajské weby vyjadřovaly o prezidentských kandidátech.

Jak jsme postupovali?

Vyhledali jsme všechny články z vybraného vzorku zpravodajských webů, které obsahovaly klíčová slova “obama” nebo “romney”. Prohledávali jsme iDnes.cz a Lidovky.cz (Mafry), iHned.cz (Economia), Novinky.cz (Seznam a Právo) a Aktualne.cz (Centrum Holdings). Celkem jsme našli 253 článků.

V těchto článcích jsme pak hledali hodnotící výrazy spojené s prezidentskými kandidáty. Těch bylo celkem 180. U těchto hodnotících výrazů jsme poté určovali sentiment, tedy jakou tonalitu měl příspěvek.

Obama oblíbencem Aktualne.cz a iHned.cz?

Obamův obraz byl z celkového pohledu pozitivnější a to docela výrazně, ve srovnání s protikandidátem.

Pohled na různé zpravodajské weby je však o něco zajímavější. O Obamovi se nejvíce pozitivně zmiňoval iDnes.cz. Dalo by se ale říct, že iDnes, podobně jako Novinky.cz, byl celkově vstřícný ke oběma kandidátům. Romney to pěkně schytal na iHned.cz a ani Lidovky ho nešetřily. Obama měl z pohledu negativního sentimentu “navrch” jen jednou – na Novinky.cz, ale celkový objem je relativně nízký.

Jak blízcí jsou si kandidáti?

Do analýzy jsme zanesli také pohledu na blízkost různých výrazů k jednotlivým kandidátům. K tomu jsme využili NodeXL, doplněk pro MS Excel, který dokáže vizualizovat vazby mezi uzly v síti. Jako vazbu jsme si vybrali vztah mezi označujícím hodnotícím výrazem a označovaným kandidátem. Pokud se některý hodnotící výraz objevoval vícekrát, převedli jsme tuto duplikaci na vyšší váhu vazby (která ale ve vizualizaci není).

Velikost jednotlivých uzlů je dána jeho propojeností v síti (degree centrality). Platí, že čím větší je uzel, tím více je propojený. Výsledný graf není příliš přehledný a to hlavně z jednoho důvodu – je příliš mnoho různých výrazů a tím pádem málo prvků, které jsou více propojeny s kandidáty. Mít trochu více času, určitě stálo za to hodnotící výrazy trochu pročistit nebo kategorizovat. Výsledek posuďte sami.

Jeden zajímavý, avšak ne úplně překvapivý, pohled nabízí wordcloud. Zatímco Obama byl zmiňován hlavně jako “prezident”, u Romneyho se objevovalo více různých výrazů s vysokou frekvencí.

Digital Humanities vnášející do humanitních věd relativně exaktní metody mohou často nabídnout zajímavý pohled na situaci, pohled, který bychom standardně nezachytili. Na druhou stranu si musíme dávat pozor na interpretaci poznatků. Myslím, že například nelze soudit, že by měl iHned.cz nějaký problém s republikány (aby to bylo dostatečně přehnané).

Disclaimer 1: Data od Captaworks jsme dostali výměnou za zmínku v metodologii tohoto článku. Navíc představa, že bychom ty články hledali a ukládali ručně, děsí nejenom mě.

Disclaimer 2: Captaworks je dodavatelem data miningového řešení Yeseter, který využíváme v MEC, kde pracuji. To pro úplnou transparentnost.

Autor: Honza Páv

* Studia nových médií jsou jedním z oborů základní součásti Ústav informačních studií a knihovnictví (ÚISK), který zajišťuje organizaci jeho studia.