
ML v Pythone 3 – export a import údajov vo formáte CSV a Excel
V predchádzajúcej časti sme predstavili knižnicu Pandas na prácu s údajmi vrátane štatistík a analýz. V téme budeme pokračovať importom a exportom údajov vo formáte CSV, čiže hodnoty oddelené čiarkou a taktiež do dokumentov Excelu s príponou xlsx.
Postup vytvorenia príkladov je v krátkom videu
Najskôr ukážeme export údajov z DataFrame do súboru vo formáte CSV. Použijeme kód na vytvorenie tabuľky s ktorou budeme pracovať aj v ďalších príkladoch.
Prvým krokom je pripojenie vášho Disku Google do služby Google Colab. Umožní vám to pristupovať k súborom na Disku Google zo zápisníka Colab.
Zobrazí sa výzva na overenie účtu Google a udelenie povolenia zápisníku Colab na prístup k vášmu Disku Google. Udelením prístupu umožníte kódu spustenom v zápisníku služby Colab meniť súbory na vašom Disku Google.
DataFrame môžete uložiť ako súbor CSV pomocou metódy to_csv(). V našom príklade uložíme údaje do súboru pc_komponenty.csv v zložke MojeData. Zložku je potrebné vytvoriť pred spustením kódu. Parameter index=False spôsobí, že do CSV súboru nebudú zapísané indexy
Ak chcete zapísať aj indexy, použite parameter index=True
V CSV súbore bude zapísané údaje v tvare
Súbor s vyexportovanými údajmi môžete zobraziť priamo v Disku Google, priamo,
alebo cez Tabuľky Google alebo si ho môžete stiahnuť do svojho počítača. V prvom riadku súboru, ktorý tvorí záhlavie sú názvy jednotlivých stĺpcov.
Teraz príkazom pr.read_csv() načítame údaje zo súboru CSV do štruktúry DataFrame, ktorú sme pomenovali df_nacitany. Bude to zároveň aj kontrola, či sa údaje zapísali a čí sa zapísali správne, takže údaje necháme aj vypísať
Ak v prvom riadku CSV súboru nie sú záhlavia, napríklad
Môžete ich doplniť pri načítaní
Knižnica Pandas umožňuje údaje uložiť aj vo formáte dokumentu Excel
Síce sa zobrazí hlásenie ohľadne možnej budúcej nekompatibility, ale export sa vykoná
Nás bude najviac zaujímať načítanie údajov, ktoré sme nejakým spôsobom získali, napríklad meraním, exportom z nejakej aplikácie monitorujúcej procesu a podobne. V príklade použijeme údaje vo formáte CSV zo stránky https://www.datablist.com/learn/csv/download-sample-csv-files, konkrétne dátovú množinu People obsahujúcu atribúty Index, User Id, First Name, Last Name, Sex, Email, Phone, Date of birth, Job Title. Na stránke sú verzie od 100 po 2 milióny záznamov. SMy budeme používat verziu s 1 000 záznamami. Stiahneme ju a uložíme na Google Disk do nami vytvorenej zložky MojeData.
Všimnite si, že vo výpise takejto veľkej tabuľky sa zobrazí len prvých a posledných 5 riadkov
Len pre zaujímavosť, ktorá by sa niekedy mohla hodiť ukážeme transformáciu údajov z DataFrame tak, že stĺpce sa pretransformujú na riadky a opačne riadky sa pretransformujú na stĺpce. Získame teda tabuľku 9 riadkov x 1000 stĺpcov. Vo výpise sa zobrazí prvých a posledných 10 stĺpcov. Údaje v DataFrame zostanú v pôvodnej podobe, čiže 1000 riadkov a 10 stĺpcov.
Samozrejme môžete vytvoriť nový DataFrame s transformovanou štruktúrou
Ukážeme aj načítanie údajov z hárku programu Excel, čiže súboru s príponou xlsx. Použili sme súbor Employee Sample Data.xlsx zo stránky https://www.thespreadsheetguru.com/sample-data/ Súbor najskôr nahráme do Disku Google a následne ho načítame do štruktúry Data Frame
Načíta sa aj tabuľka s nepravidelnou štruktúrou, prázdne bunky budú doplnené hodnotou NaN
![]() |
![]() |
V budúcom pokračovaní ukážeme príkazy na prácu s údajmi vrátane štatistiky a analýz
Predchádzajúce diely:
Strojové učenie v Pythone 1 – prostredie Google Colab
Strojové učenie v Pythone 2 – knižnica Pandas na prácu s údajmi
Zobrazit Galériu