R-udarenje podataka
Mr. sc. Tomislav Grebenar, dipl. ing. el., savjetnik u Hrvatskoj narodnoj banci je u kratkom intervjuu predstavio glavna obilježja procesa rudarenja podataka i softverskog rješenja R, a ovoj temi će detaljnije biti govora na:
13. KONTROLING KONFERENCIJA: Data Science, 25.05.2022.
1. Koja skupina poduzeća/organizacija, prema Vašem iskustvu, više, a koja manje koristi IT alate za statističku analizu?
Sveopća informatizacija i digitalizacija poslovanja, ali i svih ostalih društvenih interakcija u proteklih 30-tak godina, usporedno sa razvojem informacijskih tehnologija stavila je poseban naglasak i zahtjev za statističkom obradom eksponencijalno rastuće količine i svestranosti prikupljenih podataka. IT alati za statističku obradu podataka razvijali su se paralelno sa jačanjem računalne procesorske snage, ekspanzijom medija za pohranu podataka te povećanjem dostupnosti i brzine komunikacijskih kanala i računalnih mreža. Današnji alati za statističku obradu podataka unaprijeđeni su u alate za rudarenje podataka, prediktivne analize, duboko strojno učenje i razvoj sustava temeljenih na umjetnoj inteligenciji. Rješenja temeljena na moćnim statističkim analizama pronalaze primjenu u gotovo svim poslovnim segmentima, a najintenzivniji korisnici su poduzeća iz informatičkih i telekomunikacijskih djelatnosti, financija i osiguranja, trgovine na malo i veliko te pružatelji usluga u smještaju i prijevozu. Pored poduzetničke i financijske industrije, statistički se alati znatno primjenjuju u znanstveno-istraživačke svrhe te omogućuju dokazivanje i najkompleksnijih znanstvenih hipoteza i spoznaja.
2. Koje je temeljne preduvjete potrebno ispuniti kako bi se mogli koristiti IT alati za statističku analizu?
Današnji najmoćniji alati za statističke analize mogu raditi na osobnim računalima srednjih karakteristika, a neki od njih rade i na tabletima. S razvojem računalstva u oblaku, mnogi statistički alati imaju mogućnost rada u oblaku, čime se povećava njihova dostupnost i iskorištava procesna moć distribuiranih računalnih sustava. Većina je statističkih alata dostupna za sve glavne operativne sustave (Windows, MacOS, Linux), a također je njihovo korištenje često regulirano licencama otvorene dozvole (GNU, GPL, LGPL,...) što ih čini sveopće dostupnima. Najkorišteniji statistički alati otvorene dozvole su prije svega R i Phyton, koji su ujedno i otvorenog koda s desecima tisuća dostupnih knjižnica koje sadrže najraznolikije statističke, vizualizacijske, komunikacijske i podatkovne funkcionalnosti.
3. Kako biste ocijenili spremnost donositelja odluka za korištenje rezultata statističke analize u svom radu?
Spremnost za korištenje rezultata statističkih analiza prilikom donošenja poslovnih odluka je dio procesa sazrijevanja organizacijske i informacijske kulture u poduzeću. Najsklonija poduzeća primjeni analitičkih podloga u procesu odlučivanja su ujedno i najveći kreatori i korisnici poslovnih i bihevioralnih podataka. U tome svakako prednjači financijski i telekomunikacijski sektor, no važnosti temeljenja poslovnih odluka na analitičkim podlogama i predviđanjima postaju svjesnija i poduzeća iz drugih uslužnih i trgovačkih djelatnosti koji iste koriste ne samo u financijskim analizama, već i u prodajnim kampanjama prema segmentiranim kupcima ili prema individualnim klijentima.
4. Zašto je vizualizacija rezultata statističke analize toliko važna u svakodnevnoj poslovnoj praksi?
Statistička obrada i analiza rezultira velikim količinama brojeva, vremenskih serija, raznovrsnim distribucijama, regresijskim analizama i sl. Za njihovo lakše razumijevanje i preglednost ključni su alati koji ujedno mogu na lako razumljiv i jednostavan način vizualizirati rezultate dobivene iz nerijetko vrlo velike količine podataka. Kvalitetna, jednostavna, razumljiva i ujedno informativna vizualizacija podataka i njihove statističke analize često je ključna za njihovo razumijevanje i zaključivanje te donošenje poslovnih odluka.
5. Koje su glavne prednosti R softverskog rješenja u odnosu na druga IT rješenja za statističku analizu?
R rješenje jedan je od najmoćnijih statističkih alata otvorene dozvole i otvorenog koda. Raspolaže sa više od 10.000 knjižnica (paketa, library-ja) koji sadrže gotova rješenja i funkcionalnosti za najsloženije obrade podataka, statističke analize, strojno učenje i umjetnu inteligenciju. Osim što je besplatan, dostupan je i za glavne operativne sustave (Win, MacOS, Linux), a pored statističkih i data-mining mogućnosti, ističe se i iznimnim grafičkim mogućnostima za vizualizaciju podataka. Pored njegove dostupnosti i mogućnosti, važno je spomenuti i široku zajednicu korisnika i developera koji putem društvenih mreža i blogova stavljaju na raspolaganje rješenja i kodove za gotovo sve primjene R alata u statističke, analitičke, vizualizacijske i data-mining svrhe. R sintaksa i programiranje je lako razumljivo i primjenjivo već i uz minimalno razumijevanje programerske logike i podatkovne obrade.
Više o rudarenju podataka i R softverskom rješenju na:
Novosti