Priprema podataka i izvještavanje pomoću KNIME-a
Ivan Pažin, mag. math., Data Scientist, u kratkom intervjuu predstavio je Pripremu podataka i izvještavanje pomoću KNIME-a, a o ovoj temi će detaljnije biti govora na:
4. MENADŽERSKA KONFERENCIJA: Menadžersko izvještavanje, 21.11.2023.
Zašto je važno imati dobro pripremljene podatke, odnosno „čiste“ podatke, za menadžersko izvještavanje?
Dobro pripremljeni, čisti i točni podaci temelj su svakog izvještavanja ili analize. Netočni podaci na ulazu gotovo sigurno znače netočne podatke na izlazu. Utrošeno vrijeme zaposlenika u procesu izvještavanja tako rezultira nepouzdanom analitikom, koja ne može osigurati informirano donošenje zaključaka i odluka od strane menadžera. Takvi zaključci i odluke onda sa sobom povlače veliki financijski i strateški rizik.
Koji su najčešći razlozi da podaci budu „nečisti“?
Podaci mogu postati 'nečisti' iz različitih razloga: netočan unos podataka, nedosljedni formati podataka, nedostajuće vrijednosti, duplikati, zastarjele informacije i spajanje izvora podataka s različitim protokolima. Najveći faktor u svemu tome je onaj ljudski. Primjeri ljudskog faktora s kojim sam se do sada najčešće susretao su nesvjesnost pri unosu podataka i nepostojanje jednoznačnog standarda unosa. Zaposlenici često unose podatke „pro forme“ nesvjesni budućih procesa u kojima se taj podatak može koristiti. Nepostojanje standardiziranog procesa na razini cijele kompanije dovodi do toga da različiti odjeli unose podatke onako kako ih oni primarno percipiraju – dolazi do multipliciranja unosa, višeznačnih vrijednosti iste pojave/poslovne aktivnosti. Sve to skupa pri izvještavanju „košta“ dosta vremena i truda da se iskristalizira čisti podatak.
Kako organizirati kvalitetan proces „čišćenja“ podataka odnosno kako postići da ih uopće nije potrebno „čistiti“?
Kvalitetan proces čišćenja podataka mora biti osviješten proces unutar cijele kompanije. Dio rješenja leži u radu s ljudima i osvješćivanju njihove uloge u cijelom procesu izvještavanja. Drugi dio leži u odgovornosti kompanije da definira jasne, jednoznačne i standardizirane protokole unosa podataka. Oba ova procesa su dugotrajna i naslanjaju se na rad sa zaposlenicima, dok se jedan dio procesa može automatizirati, bilo provjerama ili ograničavanjem pri unosu ili „batch“ obradom podataka na kraju dana. Iluzorno je očekivati potpuno čiste podatke u današnjim količinama podataka koje se obrađuju, ali preventivne mjere mogu znatno pomoći pri obujmu podataka koje treba čistiti.
Koji su najpopularniji alati za pripremu podataka i zašto se KNIME među njima posebno ističe?
Popularni alati za pripremu podataka uključuju Microsoft Excel i Power BI, Python, R i ETL (Extract, Transform, Load) platforme poput Informatice i Talenda. KNIME se ističe zbog svojeg korisnički prijateljskog sučelja s mogućnošću 'drag-and-drop' koje omogućava i onima koji nemaju prethodnog programerskog iskustva da kreiraju složene procese pripreme i čišćenja podataka. Širok raspon integriranih funkcionalnosti koje imaju detaljnu dokumentaciju i mogućnost uključivanja strojnog učenja i AI čine ga svestranim za različite zadatke pripreme podataka.
Kako vidite buduću ulogu umjetne inteligencije u pripremi podataka i izvještavanju?
Buduća uloga AI u pripremi podataka i izvještavanju vjerojatno će biti transformacijska. AI može automatizirati složene zadatke čišćenja i pripreme podataka, učiti iz uzoraka podataka kako bi predložio uvide i poboljšao izvještavanje s prediktivnom analitikom. S vremenom se očekuje da će AI rukovati sofisticiranijim aspektima analize podataka, omogućavajući stručnjacima da se usredotoče na strateško donošenje odluka i interpretaciju.
Više o temi Priprema podataka i izvještavanje pomoću KNIME-a na:
4. MENADŽERSKA KONFERENCIJA: Menadžersko izvještavanje, 21.11.2023.
Novosti