SAMSUNG_07 SAMSUNG_07 SAMSUNG_07 Advertisement

Tomáš Koctúr: Ak uvažujete nad nasadením strojového učenia, zbierajte kvalitné dáta čím skôr

Technológie
1

Špeciálny projekt

Tomáš Koctúr pracuje ako Data Science Engineer v najväčšej IT firme na východe Slovenska. Umelá inteligencia je podľa neho jedna z top oblastí IT, aj keď cíti, že v našej spoločnosti nie je úplne akceptovaná. Čo prinesie budúcnosť, v ktorej nás AI nahradí? Aj to v rozhovore priblížil prácu Data Science tímu v Deutsche Telekom IT Solutions Slovakia.

Na akých projektoch pracujete v Košiciach?

Najviac podnikáme v oblasti umelej inteligencie nazývanej spracovanie prirodzeného jazyka (NLP, Natural Language Processing). Špecifikom tejto oblasti strojového učenia je, že spracovávame text v neštruktúrovanej forme. V tejto oblasti pracujeme na skoro všetkých typoch úloh, ktoré NLP prináša. NLP sa venujeme preto, lebo povaha telco priemyslu prináša hlavne tieto úlohy. Z projektov spomeniem sémantické vyhľadávanie informácie, zhlukovanie textových dát, predikcia a klasifikácia založená na textovom vstupe, chatboty a voiceboty. Mimo NLP sa venujeme čiastočne projektom v oblasti počítačového videnia a vo veľkom sa venujeme oblasti automatického rozpoznania reči (speech to text) a prevodu textu na reč (text to speech). V poslednej dobe sa zameriavame aj na detekciu anomálií v našich systémoch, ktoré majú doplniť, a možno neskôr úplne nahradiť, štandardné monitorovacie nástroje systémov, aplikácií či infraštruktúry.

Pre oblasť Data Science máte v Deutsche Telekom IT Solutions Slovakia tím?

Áno, pred 3 rokmi sme začali budovať tím, ktorý sa venuje tejto oblasti. Momentálne je nás 8 Data Science Engineerov. V tíme máme aj developerov a automatizačných inžinierov. Aj v tomto počte sme asi najväčší Data Science tím v regióne a stále rastieme.

Ako dlho trvá trénovanie modelov?

Záleží na úlohe a na dátach. Jednoduchý model sa dá natrénovať za 5 minút. Ak sa bavíme o modeloch na automatické rozpoznanie reči, tak to trvá aj niekoľko týždňov. V oblasti NLP to môžu byť aj mesiace. Na trénovanie sa požívajú výkonné grafické karty, ktoré vďaka paralelnému spracovaniu údajov urýchľujú trénovanie modelov. Ale ani grafická karta nie je záruka toho, že sa model natrénuje rýchlo. Napríklad v súčasnosti najväčší NLP jazykový model so 175 miliardami parametrov by sa podľa jeho tvorcov trénoval na jednej grafickej karte 355 rokov. Preto sa používajú veľké množstvá grafických kariet alebo špecializované ASIC obvody. V súčasnosti dominuje trend zväčšovania jazykových modelov, s čím úplne nie som stotožnený, takže je predpoklad, že čas potrebný na trénovanie modelov bude rásť.

Koľko grafických kariet používate na trénovanie modelov vo vašom tíme?

Jednotky až desiatky, to záleží na úlohe. Treba však poznamenať, že ani v našom koncerne si nemôžeme dovoliť natrénovať extrémne veľké jazykové modely, ako som spomínal v predošlej otázke. Trénovanie takého modelu by trvalo dlho, stálo veľmi veľa peňazí a v súčasnosti na to nemáme ani dosť dát. Treba si uvedomiť, že čím väčší model je, tým potrebuje viac dát na to, aby sa dobre natrénoval. V praxi, teda ak sa nebavíme o Googli, Microsofte či Facebooku, sa používajú už natrénované veľké jazykové modely, pričom sa len dotrénujú, čiže prispôsobia na danú úlohu. V tomto prípade trvá trénovanie „len“ niekoľko dní až týždňov.

S akými problémami sa vo svojej práci stretávate?

Myslím, že sa stretávame s tými istými problémami ako ostatní Data Scientisti. Data Scientista nemá nikdy dosť dát a dostatočný výpočtový výkon. Na druhej strane, ak by aj mal dosť dát a výpočtového výkonu, tak by štandardne zväčšil model a tým pádom by použil toto väčšie množstvo dát a výpočtový výkon. A na následné zlepšenie modelu by potreboval zase viac dát a výpočtového výkonu, je to taký začarovaný kruh smiley . Ďalej sa často stretávame so zlou kvalitou dát. Akonáhle sú dáta zlé, tak aj model bude po natrénovaní zlý. Alebo druhá možnosť je dáta čistiť a to nikto nerobí rád. Preto by som rád poradil každému, kto uvažuje o nasadení akéhokoľvek riešenia na báze strojového učenia v akejkoľvek oblasti, zbierajte dáta, dajte si záležať na ich kvalite a začnite čím skôr. Samozrejme treba dodržať GDPR.

Dá sa nasadiť strojové učenie aj do sfér biznisu, kde nemáme nazbierané dáta?

Áno a stáva sa nám to pomerne často. Jednou možnosťou je pri definovaní úlohy začať zbierať potrebné dáta a keď ich zozbierame v dostatočnom množstve, tak môžeme natrénovať model. Ďalšou možnosťou je využitie tzv. Transfer Learningu, kde využijeme model natrénovaný na inú úlohu a pretrénujeme ho na novú úlohu s malým množstvom relevantných dát. Inou možnosťou je získavanie dát na internete. Internet je dostatočne veľký a často obsahuje dáta, ktoré by sa nám hodili na trénovanie, len ich treba získať. Tu je však potrebná kreativita a šikovnosť, lebo aj keď sú tieto dáta verejne dostupné, často si ich majiteľ chráni pred automatizovaným zberom.

Čo je podľa vás najväčším prínosom umelej inteligencie?

V prvom rade vieme škálovať prácu a nemusíme rozhodovať o veciach, ktoré vieme naučiť počítač, aby za nás rozhodoval. Predtým musel človek robiť triviálnu úlohu, dnes natrénujete model, ktorý dokáže vyriešiť niekoľko tisíc rozhodnutí za krátky čas. Taktiež si musíme uvedomiť, že človek nie je dokonalý a žiadnu úlohu nevykonáva na 100 %. Ani ML modely nie sú stopercentné, ale v niektorých úlohách strojového učenia dosahujú modely lepšie výsledky ako človek. Tieto tvrdenia sú, samozrejme, potvrdené štúdiami, ale aj praxou. Napríklad najznámejšie elektrické autonómne automobily majú nižšiu nehodovosť v autonómnom režime ako autá, ktoré ovláda človek. Ale aj tieto autá mávajú havárie a za ne, žiaľ, nemôže ich posádka, preto sa týchto technológií ľudia boja. Treba si však uvedomiť, že je to štatisticky bezpečnejšie, ako keby šoféroval človek.

V akých oblastiach vidíte do budúcna zastúpenie AI?  

Musíme si uvedomiť, že AI funguje už desiatky rokov. Dokonca niektoré AI technológie sú už natoľko etablované, že ich ani verejnosť nevníma ako umelú inteligenciu. Napríklad už asi 20 rokov využívame rozpoznanie textu zo scanov alebo fotiek, na to sa využíva strojové učenie. V súčasnosti budeme častejšie vídať nasadzovanie v kognitívnych úlohách, ako je rozpoznávanie  a syntéza reči, rozpoznávanie a spracovanie obrazu a videa, pochopenie neštruktúrovaného textu a generovanie zmysluplného textu a samozrejme, ich kombinácie. V podstate sa dá AI nasadiť na akúkoľvek úlohu a to už v dnešnej dobe často vidíme. Taktiež sa vo veľkom rozvíja oblasť posilňovacieho učenia (Reinforcement Learning), ktorá sa používa hlavne v robotike a riadení (napr. autonómne riadenie).

Časť verejnosti vníma AI ako hrozbu – je to odôvodnený pocit?

Čiastočne aj pre ten problém s akceptáciou Data Sciencie, ktorý u nás máme, som sa stal ambasádorom Deutsche Telekom IT Solutions Slovakia tejto témy. Ľudia si AI predstavujú ako terminátora, ktorý nás všetkých zabije, alebo sa často zamestnanci boja o svoje pracovné miesta. Nechcem ľudí vystrašiť, no napriek tomu, že súčasná umelá inteligencia je zastúpená strojovým učením, čo je v skutočnosti len veľmi veľký matematický vzorec, to čiastočne môže byť pravda. AI môže nahradiť človeka v rôznych pracovných úlohách, ktoré sú triviálne alebo často sa opakujúce. Ak pracovnú úlohu začne vykonávať AI, je prirodzené, že človek bude vykonávať inú, komplexnejšiu alebo kreatívnu úlohu. Ani prvá priemyselná revolúcia nenahradila človeka, len nahradila určité pracovné pozície a rozvoj ľudstva vytvoril nové, dovtedy neexistujúce pracovné miesta. Na to, aby človek nebol nahradený strojom, sa musí neustále rozvíjať. A na to, aby nás umelá inteligencia nezabila, je potrebná regulácia na národnej a nadnárodnej úrovni. Napríklad, aby sa kritické a život ohrozujúce aplikácie umelej inteligencie vhodne regulovali.

Aké regulácie máte na mysli?

V tomto smere sa snažím angažovať ako člen komisie pre etiku a reguláciu umelej inteligencie, ktorú založilo Ministerstvo investícii, regionálneho rozvoja a informatizácie SR. Vývoj je nezastaviteľný a problém etickosti tu bol a bude aj naďalej. Problém etiky a ľudských práv v oblasti AI už nastal vo viacerých krajinách, preto je podstatné sa z cudzích chýb poučiť a pomôcť nastavením regulácií tohto odvetviach, tak aby bola zachovaná etická stránka ale aj aby sa zbytočne neblokoval rozvoj v tejto oblasti. Naša komisia napomáha ministerstvu pri komentovaní týchto tém či už v rámci EÚ, UNESCO či OECD, keďže tieto regulácie sú väčšinou vytvárané na nadnárodnej úrovni.

Ilustračné fotografie, zdroj: Deutsche Telekom IT Solutions Slovakia

 

 

 

 

 

 

 

 

Zobrazit Galériu

Deutsche Telekom IT Solutions Slovakia

Všetky autorove články

1 komentár

v skratke reakcia na: Tomáš Koctúr: Ak uvažujete nad nasadením strojového učenia, zbierajte kvalitné dáta čím skôr

15.6.2021 01:06
"umelá inteligencia je zastúpená strojovým učením, čo je v skutočnosti len veľmi veľký matematický vzorec".
Reagovať

Pridať komentár

Mohlo by vás zaujímať

Mohlo by vás zaujímať