Hromadné zpracování dat - big data
Zdroje velkých dat
- statistické záznamy firem, států, ...
- data sbíraná delší dobu
- data ze snímačů (čidel) - chytré hodinky, zdravotní náramky apod, sledování trasy
- data vytvářená systémy AI (ke svému učení)
Big data - velké IT firmy - cílená reklama - větší zisky
sledování všech aktivit, každé klepnutí, lajk, sledované video, poslané zprávy apod.
Google (Alphabet)
Facebook, WhatsApp, Messenger, Instagram (Meta)
Tik-tok (ByteDance)
velké e-shopy (Amazon.com)
Vztahy a souvislosti mezi daty
Příjem na osobu × očekávaná délka života odkaz
rostoucí bohatství - šance dožít se vyššího věku (nejde o přímou závislost - některé chudší země => vyšší věk)
Souvisí výroba elektřina a spotřeba plynu s teplotou (ročním obdobím)?
nepřímo úměrná závislost (vyšší teplota => nižší spotřeba)
u plynu je závislost výraznější => více se topí plynem...
Souvisí délka chodidla (velikost nohy) s výškou člověka?
Jak lépe zobrazit data v grafu, aby poskytovala vyšší vypovídací hodnotu? (např. seřazení podle výšky člověka, volba lepšího grafu, rozdělení závislostí, spojnice trendu)
prodej zmrzliny × počet napadení žralokem
ze stejné křivky grafu ještě neplyne, že jedna veličina přímo souvisí s druhou
příčina?
Korelace (stejný průběh) neznamená kauzalitu (spojitost, příčinnost - tj. jedna věc způsobuje druhou)
pozor na záměrné manipulace!
