Heureka XPATH atd.

Odkaz na Google sheet s vypracovaným úkolem je zde:

https://docs.google.com/spreadsheets/d/1Q3rQUkrTRpOce-5tx2IKPrc-65PohLSNSP7-C0a3mco/edit?usp=sharinghttps://www.datovazurnalistika.cz/wp-content/uploads/2024/01/ukol_2.1.csv

Zadání dle prezentace:

■ V Google sheets pomocí Xpath vytvořte dynamický seznam

○ Top 48 fitness věcí z heuréky

— Název

— Cenové rozpětí

— Hodnocení

Pozor na reklamy a TOP

V úkolu nasdílejte i tabulku

■ Vyzkoušejte si jeden z nástrojů:

○ https://demo.geneea.com/

■ Nalezněte delší článek a vložte jej do toolu

■ Myslíte, že byste tool někdy reálně využili?

■ Napište něco, co vás zaujalo

○ http://voyant-tools.org/

■ Nahrajte do toolu delší dokument (5 stránek +)

■ Myslíte, že byste tool někdy reálně využili?

■ Napište něco, co vás zaujalo

■ Projděte si https://regexone.com/

Geneea.com

Je dobré, že umí rovnou dávat náhledy na Wikipedii (tahle část je dobře zpracovaná) a zvýrazňovat stejné výrazy v textu. Tento nástroj by byl užitečný, pokud by byl zabudován přímo do prohlížeče. V současné době je to jen další stránka, kterou musíte navštívit, abyste získali informace. Výhodou je, že je to zdarma a demo nevyžaduje registraci.

Voyant Tools

Nástroj vycházející z frekvenční analýzy textu. Zaujalo mě, že zobrazuje nejen četnost slov, ale i jejich vzájemné vztahy. Výsledky jsou zobrazeny v grafu, který je možné exportovat do PDF. Nástroj je zdarma a nevyžaduje registraci.

Výsledek se kromě tabulkového přehledu zobrazuje ve wordcloudu a v doprovodném line chartu. Jestli to dobře chápu, pro seriózní obsahovou analýzu bude nejspíš nutné výchozí text předem čistit a odstraňovat například předložky a slova, která nenesou sama o sobě význam. I když samozřejmě záleží na tom, co chceme analyzovat.

Oceňuji, že ve výchozím českém textu, na kterém jsem ho testovala, našel opakující se fráze – v mém případě “veřejný diskurz”.

Nejsem si jistá, že bych ho použila v tuto chvíli, ale je dobré vědět, že existuje. Rozhodně ho ještě víc prozkoumám, protože jsem se v minulosti už věnovala analýzám textu a měřila buzz i sentiment – z toho pak bylo dokonce možné připravovat predikce. Mé první pokusy se týkaly první přímé volby prezidenta v roce 2013 (připravovala jsem analytické podklady pro tehdejšího šéfredaktora Aktuálně Pavla Tomáška). Moje první samostatná analýza se pak týkala internetových diskusí.

Pozdější analýza pak byla na téma “Jaký je veřejný obraz žen a jaké doopravdy jsou?” a opět šlo o textovou analýzu veřejné debaty.