Závěrečný projekt

Odkaz na hlavní dokument je zde:

https://docs.google.com/spreadsheets/d/1Q3rQUkrTRpOce-5tx2IKPrc-65PohLSNSP7-C0a3mco/edit?usp=sharinghttps://www.datovazurnalistika.cz/wp-content/uploads/2024/01/ukol_2.1.csv

 

Vlastní zpracování dat a vizualizace:

 

https://docs.google.com/spreadsheets/d/1T8CU3zSEMOcxvc3JbhXtQ8HJlLMWnxLpoFVEkz4TgwU/edit?usp=sharing

Masarykova univerzita v Brně

Filozofická fakulta

Katedra informačních studií a knihovnictví

                                            ZÁVĚREČNÝ PROJEKT

k předmětu ISKM55
Nástroje a metody datové analytiky

 

 

Autorka: Kateřina Mahdalová

 

UČO: 543997

 

 

Typ studia: kombinované

 

Vídeň

30. 12. 2023

 

 

 

Závěrečný projekt

 

Základní otázka

Jaké je nejprůměrnější město v ČR? 

(Se speciálním zaměřením na volby.)

 

 

Dílčí podotázky

  1. Jaké jsou nejprůměrnější obce v ČR podle počtu obyvatel?
  2. Jaké jsou nejprůměrnější obce v ČR podle průměrného věku obyvatel?
  3. Jaké jsou nejprůměrnější obce v ČR podle volebního výsledku v roce 2021?
  4. Jaké jsou nejprůměrnější obce v ČR podle volební účasti v roce 2021?
  5. Jaké jsou nejprůměrnější obce v ČR podle vzdělání obyvatel?

 

Vlastní zpracování dat a vizualizace

Detailní zpracování zde:

 

https://docs.google.com/spreadsheets/d/1T8CU3zSEMOcxvc3JbhXtQ8HJlLMWnxLpoFVEkz4TgwU/edit?usp=sharing 

 

  
  

Zdrojová data

1. a 2. otázka: Počet obyvatel v obcích ČR dle ČSÚ

https://www.czso.cz/csu/czso/pocet-obyvatel-v-obcich-k-112023

 

3. otázka: Otevřená data o volbách ČSÚ

https://volby.cz/opendata/ps2021/ps2021_opendata.htm (první tabulka)

 

4. otázka: Otevřená data o volbách ČSÚ

https://volby.cz/opendata/ps2021/ps2021_opendata.htm (druhá tabulka)

 

5. otázka: Data o vzdělání obyvatel na úrovni obcí k mému překvapení ČSÚ neposkytuje jako data, takže tuto část jsem nakonec byla nucena vynechat.

 

Rovněž hledání v Národním katalogu otevřených dat nepřineslo výsledek  (obdobně i hledání přímo na webu ČSÚ). 

https://data.gov.cz/datov%C3%A9-sady?dotaz=vzd%C4%9Bl%C3%A1n%C3%AD%20obce  

 

 

Celkový index, dílčí indexy

Za každou otázku jsem udělala index, kde 0 bylo minimum (nejprůměrnější obec) a celkový součet dílčího indexu byl standardizován na průměr 1.

Celkový index je součet všech dílčích indexů.

 

 

Použité nástroje

Nejvíce zpracování dat jsem prováděla v Google Sheets, kde jsem vytvářela i většinu grafů. Pouze jeden graf jsem vytvořila na platformě Flourish. 

 

Část dat jsem zpracovala předem v Excelu – šlo o velká data s volebními výsledky (více než 1/4 milionu řádků; jeden řádek obsahoval výsledky jedné strany v jednom volebním okrsku) – tady jsem provedla prvotní pivot table, kde jsem získala data za obce a ne volební okrsky.

 

 

Alternativně by šla taková analýza tvořit v Pythonu, speciálně pokud by měla být opakovaná.

 

Postup výpočtu jednotlivých otázek

 
  1. Jaké jsou nejprůměrnější obce v ČR podle počtu obyvatel?

Postup je vcelku jednoduchý, neboť zdrojová data již obsahují počet obyvatel v obcích. Zde jsem navrhla, aby 0 odpovídala počtu obyvatel obce, kdy polovina lidí bydlí ve větší obci a polovina lidí bydlí v menší obci.

 

 

Výsledkem je, že střední města v ČR mají mírně nad 11 tisíc obyvatel. Prachatice a Rychnov nad Kněžnou jsou nejprůměrnější města v ČR podle počtu obyvatel.

 

 

  1. Jaké jsou nejprůměrnější obce v ČR podle průměrného věku obyvatel?

Zde jsem opět nejdříve musela vypočítat vážený průměrný věk obyvatel – vážený proto, abychom získali celkový průměrný věk v celé ČR. Váha byla tedy počet obyvatel v obci. To šlo opět přímo z dat.

 

 

Průměrný věk obyvatel v ČR je 42,6 roku. I podle grafu je vidět, že takových obcí je v ČR hodně, kde je průměrný věk obyvatel blízko této hodnoty.

 

 

  1. Jaké jsou nejprůměrnější obce v ČR podle volebního výsledku v roce 2021?

Zkraje jsem musela vyřešit problém, že data z volby.cz jsou za volební okrsky, a hlavně: v případě velkých měst tyto okrsky jsou v rámci městských obvodů/městských částí (např. Brno-střed, Brno-Kohoutovice, nikoli za samotné Brno). 

 

 

Nejdříve jsem tedy musela pomocí pivot table (kontingenční tabulky) spojit výsledky z volebních okrsků do měst (nebo městských obvodů/částí). Poté jsem připojila k městským obvodům a částem samotná města (tj. např. obvody jako Brno-střed a Brno-Kohoutovice se spojily všechny do Brna).

 

 

Poté jsem spočítala odchylku za procentuální volební zisk každé strany v obci od celostátního zisku. Ty odchylky jsem sečetla a nakonec opět index standardizovala, aby nejmenší odchylka (nejprůměrnější obec) byla 0 a celkový součet dílčích indexů byl standardizován na průměr 1.

 

 

Poté jsem vypočítala index, kde 0 bylo minimum (nejprůměrnější obec), a celkový součet dílčího indexu byl standardizován na průměr 1. Zde vyšlo, že nejprůměrnější město v ČR podle volebního výsledku jsou Moravské Budějovice.

 

 

  1. Jaké jsou nejprůměrnější obce v ČR podle volební účasti v roce 2021?

Zde jsem postupovala stejně jako v předchozím případě, jen jsem místo odchylek od celostátního volebního výsledku počítala odchylky od celostátní volební účasti. Zde vyšlo, že nejprůměrnější obec v ČR podle volební účasti jsou Němčice.

 

Celkový index

Celkový index je součet všech dílčích indexů. Podle tohoto výpočtu je nejprůměrnější město v ČR je Zubří v okrese Vsetín.

 

 

Mezi další průměrná města patří třeba Hořovice (první v Čechách), první průměrné město nad 20000 obyvatel byla Mladá Boleslav, nejprůměrnější z krajských měst byla Jihlava, nejprůměrnější z velkých měst je Olomouc.

 

 

Naopak mezi “nejextrémnější” obce v ČR, kde je největší odchylka od celostátního průměru, patří Vysoká Lhota (nejmenší a zároveň průměrně nejstarší obec v ČR – jen 16 obyvatel v průměrném věku 65 let).

 

 

Mezi většími obcemi potom Obrnice (nejextrémnější nad 1000 obyvatel), Jesenice u Prahy (nejextrémnější nad 10000 obyvatel), Karviná (nejextrémnější nad 50000 obyvatel) a Praha (nejextrémnější nad 100000 obyvatel). 

 

 

Je vidět, že tyto obce s největšími odchylkami mohou být extrémní více směry – nejmenší a nejstarší, volící jedním (dnešní opozice, nižší účast) nebo druhým směrem (koalice a větší účast).

 

Comments are closed.

Seminář
k diplomové práci II.

ISKM08

Online vzdělávání:
od designu k praxi

ISKM58

Literatura,
knihovní procesy a trh

ISKM03

Nástroje a metody
datové analytiky

ISKM55

Informační vědy

ISKM01

Vizualizace dat

ISKM56

Python
pro neprogramátory

ISKM80

KPI55 DigCompEdu:
Technologie ve vzdělávání

KPI55

Praktikum online tutora:
Technologie ve vzdělávání

ISKB78