Analýza údajov v Exceli s využitím Copilota
Tabuľkový procesor Excel – súčasť balíka Microsoft 365 – je jedna z fundamentálnych aplikácií nielen vo firmách, ale aj na osobné použitie. Občas niečo viac alebo menej zložité potrebujeme vypočítať všetci.
V predošlom čísle sme sa zamerali na možnosti kompresie a filtrovania údajov, aby sme zmenšili objem údajov v súboroch.csv a .xlsx na prípadnú analýzu pomocou cloudových nástrojov. Aj napriek tomu bude takáto analýza nákladná, pretože všetky údaje musíte poslať do cloudu a ich objem sa počíta do tokenov zadania. Rovnako aj výstup. Prípadne sa vaše údaje nezmestia do limitu tokenov pre jedno zadanie. Token je krátke slovo alebo krátky reťazec číslic. Ak analyzujete štruktúrované dáta, napríklad tabuľky alebo JSON, každá časť týchto údajov (teda kľúčové slová, hodnoty, znaky) sa tiež počíta ako token. Napríklad jeden záznam v jednoduchej tabuľke
|
Meno |
Priezvisko |
Dátum narodenia |
Hrubá mzda (€) |
Zrážky (€) |
Názov pobočky |
|
Ján |
Novák |
14. 5. 1987 |
1800 |
200 |
Bratislava |
obsahuje 6 – 10 tokenov v závislosti od dĺžky textov a číselných reťazcov v jednotlivých atribútoch
Predplatné OpenAI API GPT-4 Turbo (32k) je špeciálne navrhnuté na prácu s veľkými súbormi údajov a dokáže spracovať 32 768 tokenov v jednom volaní. Ak predpokladáme, že jeden záznam má 8 tokenov, môžeme na analýzu odoslať súčasne len 4096 riadkov. Cena je $0,06/1000 tokenov pre vstupy a $0,12/100 tokenov pre výstupy. Za jednu vstupnú dávku 4096 záznamov by ste zaplatili necelé 2 doláre. Z uvedeného je zrejmé, že je výhodnejšie spracovávať a analyzovať údaje lokálne.
Určite budete namietať, že ak na analýzu údajov použijete Copilot integrovaný do Excelu, ktorý posiela zadania do cloudu, budete na tom rovnako. Vôbec nie. Do cloudu sa pošle len text vášho zadania, prípadne informácia o štruktúre tabuľky, s ktorou pracujete. Výstupom bude vzorec, ktorý treba na údaje aplikovať, prípadne postup aktivovania funkcií. Aj v prípade tabuliek obsahujúcich milióny či stovky miliónov údajov sa do cloudu pošlú len metadáta o štruktúre údajov a výstupom bude vzorec. Tento vzorec potom Excel aplikuje na záznamy, ktorých sa to týka. Údaje zostávajú v lokálnom PC alebo v cloudovom úložnom priestore typu OneDrive, kde vznikli alebo kam sa presunuli. Poplatok za 1 TB cloudový úložný priestor je rádovo nižší než poplatky za presun údajov do AI služieb.
Klasický postup pri práci s údajmi v Exceli je taký, že v prirodzenom jazyku sformulujeme, čo potrebujeme, a následne tento zámer zrealizujeme vo forme vzorcov, filtrov, sumárov, kontingenčných tabuliek a podobne. Copilot nás dokáže od tejto druhej fázy odbremeniť. Napíšeme zadanie v prirodzenom jazyku, bez problémov aj v slovenčine, a Copilot nám navrhne riešenie aj s praktickou ukážkou. Samozrejme, neustále musíme mať na pamäti, že AI môže fabulovať a robiť chyby, takže návrhy Copilota treba dôkladne skontrolovať.
Využívanie Copilota v aplikáciách Office, ako sú Excel, Word, PowerPoint a Outlook, je možné len v rámci predplatného plánu Microsoft Copilot Pro, za ktoré zaplatíte 22 eur za používateľa a mesiac. Prvý mesiac máte službu zadarmo, no pri jej aktivovaní zadáte číslo platobnej karty. Po skončení skúšobného obdobia sa predplatné začne automaticky strhávať.
Možnosti Copilota v Exceli ukážeme na jednoduchej tabuľke, ktorá obsahuje základné údaje o zamestnancoch. Tabuľku nám vygenerovala AI, konkrétne ChatGPT. Názvy atribútov v prvom riadku sú v slovenčine. Pokiaľ chcete naplno využiť potenciál AI, mali by byť tieto názvy čo najvýstižnejšie, aby sa v nich Copilot dokázal zorientovať.
Po aktivovaní Copilota sa zobrazí bočný panel s príkladmi výziev. Začneme najjednoduchším zadaním, ktoré si vyžaduje skombinovať údaje z dvoch stĺpcov a výsledok uložiť do nového stĺpca. Zaujíma nás čistá mzda, ktorú zamestnávateľ vyplatí zamestnancovi. Vo výzve nebudeme vysvetľovať, ako sa čistá mzda počíta, stačí napísať:
Vytvor stĺpec Čistá mzda.
Copilot vytvorí vzorec, napíše, ako k nemu dospel, v našom prípade: „Vypočíta čistú mzdu každého zamestnanca odpočítaním zrážok od jeho hrubej mzdy“ a zobrazí vzorec =$D2-$E2 a príklad hodnôt v novom stĺpci Čistá mzda. Vzorec je správny, takže môžeme novovytvorený stĺpec pridať do tabuľky.

V ďalšom zadaní sa spoľahneme na to, že Copilot dokáže určiť vek zamestnanca z dátumu narodenia.
Vytvor stĺpec Odmena a každému zamestnancovi nad 40 rokov navrhni odmenu vo výške 10 % hrubej mzdy.
Copilot znovu vytvorí vzorec, v tomto prípade =IF(YEARFRAC($C2;TODAY();1)>40;$D2*0,1;0), a zobrazí ukážku prvých troch riadkov novo vytvoreného stĺpca. Ukážka nám v tomto prípade veľmi nepomôže, pretože zamestnanci, ktorých záznamy sú prvé tri v tabuľke, zhodou okolností majú menej ako 40 rokov, takže hodnota odmeny je 0. Stačí však premiestniť kurzor nad tlačidlo + Vložiť stĺpec pod ukážkou a nový stĺpec sa sivým fontom dočasne vloží na patričné miesto, takže môžeme skontrolovať viac záznamov a rozhodnúť sa, či stĺpec vložíme, alebo nie. V prípade, ak vidíme, že vo vzorci je chyba, môžeme stĺpec vložiť a následne vzorec opraviť.
Potrebujem súčty hrubých miezd podľa jednotlivých položiek.
Skúsenejší používatelia Excelu vedia, že riešením tohto zadania je vytvorenie kontingenčnej tabuľky. V konečnom dôsledku však potrebujeme tabuľku, prípadne aj graf súčtu miezd pracovníkov jednotlivých položiek, ale nepotrebujeme vedieť, že ide o kontingenčnú tabuľku alebo kontingenčný graf, a ani to, ako sa takáto tabuľka či graf vytvára. Copilot to urobí za nás. Tabuľku aj graf, o ktorý sme síce nežiadali, ale jeho názornosť väčšinou poteší, následne Copilot vloží na nový hárok.

Nasledujúce zadanie bude úmyselne trochu všeobecné.
Aké sú ročné náklady na každého zamestnanca? Údaje ulož do nového stĺpca.
Nešpecifikovali sme, či sa tam majú zahrnúť odmeny a či sa odpočítajú zrážky. Vygenerovaný vzorec =($D2 - $E2 + $H2) * 12 prezradí, že odmena sa pripočíta a zrážky sa odpočítavajú. V takýchto prípadoch odporúčame, aby zadanie bolo čo najpodrobnejšie.
Vytvor stĺpec vyjadrujúci, aké percento mzdových nákladov tvorí mzda jednotlivých zamestnancov v rámci firmy, a druhý stĺpec percento v rámci pobočky.
=$G2/SUM($G$2:$G$31)
Vypočíta percento mzdových nákladov pre každého zamestnanca v rámci firmy pomocou nasledujúcich krokov:
Vezme hodnotu v stĺpci Čistá mzda pre každého zamestnanca.
Vydelí túto hodnotu súčtom všetkých hodnôt v stĺpci Čistá mzda v tabuľke pomocou funkcie SUM.
=$G2/SUMIFS($G$2:$G$31; $F$2:$F$31; $F2)
Vypočíta percento mzdových nákladov pre každého zamestnanca v rámci jeho pobočky pomocou nasledujúcich krokov:
Použije hodnotu v stĺpci Čistá mzda pre aktuálny riadok.
Použije funkciu SUMIFS na sčítanie hodnôt v stĺpci Čistá mzda pre všetky riadky, kde sa hodnota v stĺpci Názov pobočky zhoduje s hodnotou v stĺpci Názov pobočky pre aktuálny riadok.
Vydelí hodnotu Čistá mzda pre aktuálny riadok súčtom mzdových nákladov pre príslušnú pobočku.
Copilot nám pomôže aj s formátovaním. Prvé intuitívne napísané zadanie:
Zvýrazni v tabuľke troch najviac zarábajúcich zamestnancov
neprinieslo očakávaný výsledok. Copilot nepochopil, že najviac zarábajúci zamestnanci sú zamestnanci, ktorí majú najvyššiu hrubú mzdu. Nepomohlo ani spresnenie zadania:
Zvýrazni v tabuľke troch zamestnancov, ktorí majú najvyššiu mzdu.
Ani v jednom z týchto zadaní Copilot neoznámil, že zadaniu nerozumie, ale označené boli tri údaje v stĺpci Dátum narodenia. Medzi označenými údajmi a zadaním nebola žiadna súvislosť. Znovu zdôrazňujeme, že vygenerovaný výstup treba dôkladne skontrolovať.
Očakávaný výstup poskytlo tretie zadanie, ktoré sa nezameralo na zamestnancov, ale na hrubé mzdy:
Zvýrazni v tabuľke tri najvyššie hrubé mzdy.
Copilot ponúkol farbu výplne aj písma, ak sme s nimi spokojní, môžeme zmenu aplikovať. Bolo použité podmienené formátovanie, takže aj po zmene údajov v stĺpci Hrubá mzda budú označené tri najvyššie hodnoty.
V ďalšom zadaní otestujeme tri funkcie – filtrovanie, utriedené a do určitej miery aj synonymum v zadaní.
Zobraz piatich najstarších zamestnancov zoradených podľa výšky hrubej mzdy.
Copilot si s týmto zadaním hravo poradil, zobrazil ukážku a po schválení zobrazil požadované údaje v novom hárku.
Určite sa vám stalo, že vám niekto poslal tabuľku, v ktorej sú vzorce, ktorým na prvý pohľad nerozumiete. Napríklad v našej tabuľke v stĺpci Odmena je v bunke H9 vzorec =IF(YEARFRAC($C9;TODAY();1)>40;$D9*0,1;0). My vieme a v podstate aj Copilot, ak si pamätá históriu zadaní, by mal vedieť, že v tomto stĺpci sú odmeny pre zamestnancov nad 40 rokov vo výške 10 % hrubej mzdy.
Naše ďalšie zadanie bude:
Vysvetli vzorec v bunke H9.
V tomto prípade sa Copilot nevyznamenal. Výstup totiž neobsahuje informáciu o podmienke, že odmena sa počíta len pre ľudí starších ako 40 rokov. Citujeme: Vzorec v bunke H9 je: =G9 + 0,1 * G9 Tento vzorec vypočíta hodnotu v bunke H9 takto: Vezme hodnotu v bunke G9 (čistá mzda). Pridá 10 % z tejto hodnoty (0.1 * G9). Výsledkom je čistá mzda zvýšená o 10 %.
Namiesto záveru tretíkrát zdôrazňujeme, že AI môže robiť chyby, prípadne si vymýšľať, takže skôr než zmeny aplikujete na údaje, je potrebné vygenerované vzorce dôkladne skontrolovať a v každom prípade si treba urobiť zálohu pôvodných údajov.
Zobrazit Galériu