
Strojové učenie v Pythone 4 – práca s údajmi
V predchádzajúcej časti sme ukázali import a export údajov vo formáte CSV, čiže hodnoty oddelené čiarkou. V tejto kapitole ukážeme ako zistíte informácie o tabuľkách v objektoch DataFrame, zostavíme podmienky pre výber údajov. Ukážeme možnosti utriedenia a tiež vizualizáciu údajov pomocou grafov
Postup vytvorenia príkladov je v krátkom videu
Budeme pracovať jednak s jednoduchou tabuľkou (objektom DataFrame), ktorú sme použili aj v predchádzajúcej časti Kód na vytvorenie:
A taktiež s tabuľkou, ktorá bude obsahovať viac záznamov, konkrétne 25 a 8 atribútov. Pre jednoduchosť ju naplníme pomocou generátora náhodných čísel

Informácie o tabuľke, čiže objekte DataFrame zistíte pomocou príkazu .info()
Zoznam atribútov zistíte z atribútu columns.
Základné štatistické parametre pre číselné atribúty zistíte pomocou príkazu describe(). Takto zistíte počet záznamov, aritmetický štandardnú odchýlku, minimum, maximum a percentily. Napríklad 25 % percentil označuje hodnotu pre ktorú platí, že 25 % hodnôt je menších a 75 % hodnôt je väčších než je táto hodnota.

Môžete zadať aj konkrétne hodnoty percentilov napríklad 30, 50 a 70 percent

Pomocou príkazu head(n) vypíšete n záznamov od začiatku a príkazu tail(n) n záznamov od konca.

Môžete vybrať len konkrétne atribúty prípadne v kombinácii s príkazom head(), alebo tail()

Samozrejme môžete vybrať len údaje, ktoré vyhovujú určitej podmienke, napríklad
Môžete taktiež zmeniť údaje pre atribúrty vyhovujúce podmienke. Napríklad každému pracovníkovi nad 36 rokov pridať k mzde 100 €
Podmienky môžeme kombinovať. Napríklad nás zaujímajú ľudia pod 35 rokov s mzdou nad 1100 €
Ukážeme aj podmienku na výskyt reťazca znakov. V našom prípade vypíšeme priezviská, ktoré obsahujú reťazec 'ak'

Údaje môžete zoskupiť podľa nejakého kritériá a na takto zoskupené údaje aplikovať vhodnú funkciu. V našom prípade zoskupíme údaje podľa veku. Nakoľko máme v tabuľke dvoch ľudí s vekomn 37 rokov, zistíme priemer ich miezd.

Ukážeme aj názornú vizualizáciu pomocou grafov. Implicitne je na osi X index

V našom prípade by sme potrebovali mať na osi X priezvisko. Jedným z riešení je vytvoriť nový DataFrame s takýmto indexom

Údaje v tabuľke môžeme utriediť podľa rôznych kritérií, napríklad pomocou indexov. Nakoľko indexy máme usporiadané vo vzostupnom poradí, parameter ascending=False špecifikuje, že chceme opačné poradie, čiže od najväčšej po najmenšiu hodnotu. Parameter axis=0 utriedi údaje podľa indexov riadkov.
Parameter axis=1 utriedi údaje podľa indexov stĺpcov.
Viac nás bude zaujímať triedenie podľa stĺpcov. Vytvoríme novú tabuľku (DataFrame) utriedenú podľa priezvisk
Kód pre utriedenie v zostupnom poradí
Údaje môžeme utriediť aj podľa viacerých stĺpcov. V tomto prípade napríklad podľa veku a ľudí rovnakého veku podľa mzdy
Aj v tomto prípade môžeme definovať poradie od najmenšej, alebo od najväčšej hodnoty
V doterajších príkladoch sme vytvorili nový DataFrame s utriedenými údajmi. Ak chceme utriediť údaj v pôvodnom DataFrame, použijeme parameter inplace=True.
Ukážeme ako premenovať stĺpce
Odstránenie stĺpca
V budúcom pokračovaní sa budeme podrobnejšie venovať vizualizácii údajov pomocou knižnice matplotlib
Predchádzajúce diely:
Strojové učenie v Pythone 1 – prostredie Google Colab
Strojové učenie v Pythone 2 – knižnica Pandas na prácu s údajmi
ML v Pythone 3 – export a import údajov vo formáte CSV a Excel
Zobrazit Galériu