31. 08. 2017.
Tko je Data Scientist?

Tko su osobe koje se bave znanošću o podacima – podatkovni znanstvenici (dalje u tekstu se upotrebljava sintagma na engleskom jeziku Data Scientist/Engineer)? Zašto je u posljednjih nekoliko godina taj pojam postao zanimljiv ponuđačima posla? Što obuhvaća navedeni pojam? Stručnjaci koji dugi niz godina rade u okruženju poslovnog izvještavanja BI-a i DWH sustava mogu jasno zapaziti problem u objedinjavanju potrebnih poslovnih vještinama, koje su pak u poduzeću razasute u nizu odjela.

Nužnost objedinjavanja interdisciplinarnih vještina

Čemu služe neimenovane vještine Data Scientista? Služe kao potporna djelatnost za razumijevanje tržišta, postojećih i potencijalnih kupaca usluga ili proizvoda. Iskustvo pokazuje da treba postojati osoba sa znanjima kako istražiti ponašanje kupaca u okviru vlastitih usluga, proširiti to istraživanje na širu populaciju, iskoristiti računala za prediktivne modele i statističke analize te primjereno prezentirati pronađene zakonitosti i prijedloge za unaprjeđenja usluga. Sve to služi povećanju dobiti ili vrijednosti poduzeća općenito. Ta unaprjeđenja sežu od vrlo jednostavnih (npr. ne nuditi ono što već postoji u kućanstvu) do kompliciranijih (osobe koje su kupile proizvod A i imaju barem 75% slične demografske i ekonomske pokazatelje kupuju i proizvod B).

Problem u cijelom konceptu nastaje, kao i u drugim segmentima djelatnosti, tamo gdje treba spojiti neke interdisciplinarne djelatnosti, osobito na tržištima gdje nema formalnog edukativnog programa dostupnog osobama koje se tim poslovima bave. Primjeri su brojni (u okvirima kombinacije s informatikom) te obuhvaćaju spoj statistike s informatikom, spoj financija i IT-ja, medicine i IT-ja i niz drugih djelatnosti koje se dopunjuju informatikom. Rezultat tog stanja ukazuje na to da se interdisciplinarnom strukom (koja obuhvaća IT i još neku disciplinu) bave osobe koje su zapravo završile samo jednu od tih disciplina (u ovom slučaju fakultete prirodoslovnog smjera poput matematike ili informatičkih smjerova). Drugi slučaj, u većim organizacijama, pokazuje još i više slabosti. Poslovi su razdijeljeni na više odjela. Tako jedan odjel priprema podatke, dok ih osobe iz drugog odjela analiziraju i upotrebljavaju. To dovodi do niza komunikacijskih, organizacijskih i drugih problema koji proizlaze iz rada u velikim sustavima i organizacijama. Otud želja i potreba poduzeća da se sve vještine usmjere prema jednoj osobi ili odjelu koji kvalitetno funkcionira sam unutar sebe. Dakako, kad jedna osoba ovlada svim potrebnim vještinama, situacija je znatno lakša jer nema sastanaka, elektroničke pošte, objašnjenja, iterativnog procesa pripreme podataka, analize i sl. 

1. Profil Data Scientista/Engineera

Data Scientist/Engineer je osoba zadužena za integraciju alata za procesiranje podataka, njegovo konfiguriranje i svakodnevnu uporabu (Loss, 2017.).

Slika 1. Modern Data Scientist

Izvor: Agrawal, 2017. 

Pokušajmo definirati što data scientisti NISU kako bismo shvatili njihovu ulogu iz drugog aspekta (Agrawal, 2017.).

  • Ne razvijaju aplikacije, ali... pišu skripte koje im pomažu u pripremi podataka i njihovoj obradi.
  • Ne razvijaju korisnička sučelja jer... posao im završava nakon analize podataka i pripreme dobre „priče” koja slijedi iz podataka. Ne pripremaju se aplikacijom za pokazivanje te „priče”, konačni rezultat je u alatu za prezentaciju i neformalnom razgovoru o pronađenim zakonitostima, izvještaju.
  • Nemaju veze s inicijalnom pripremom podataka jer… druge aplikacije i programi služe za PRIKUPLJANJE podataka, a Data Scientist ih UPOTREBLJAVA te se eventualno brine o primjerenoj pohrani rezultata.
  • Ne bave se OS-om, serverima te njihovim održavanjem, već... ih UPOTREBLJAVAJU za rad.

2. Utjecaj Big Datae

Big Data kao buzzword uglavnom se povezuje s radnim mjestima Data Scientista. Oduvijek je jasno da postavljanje pravih pitanja o podacima predstavlja svojevrsnu vještinu. Ipak, nameće se pitanje kako su se podaci mijenjali posljednjih godina.

Svaki segment ekonomije danas ima pristup većoj količini podataka nego što je to bilo zamislivo svega desetljeće unatrag. Sposobnost za izvlačenje vrijednosti iz novih izvora podataka ograničena je razumijevanjem. U tu priču ulaze nova znanja i nove tehnologije. Podaci su često nepotpuni i nestrukturirani, a svoje pravo značenje dobivaju u kombinaciji s dodatnim informacijama. Za sva se poduzeća nameće isti izazov – kako učinkovito upotrebljavati sve te podatke? Novi izvori podataka, između ostaloga, uporabnu vrijednost dobivaju razvojem Big Datae.

Slika 2. Data Cloud

Izvor: Alexa Blog, 2017.

Big Data predstavlja sveobuhvatan pojam koji ponajprije označava izvore velike količine podataka i infrastrukturu koja podržava njihovo spremanje. Pristup podacima zahtijeva nove alate i tehnologije (framework) za optimiziran pristup. Razvijeni su brojni jezici za analitiku novih izvora, real time rješenja, sigurnosni koncepti i sl.

Big Data daje dodatni poticaj istraživanju novih i netradicionalnih podataka. Unatoč navedenome, ostaje utvrditi koliko je značajan utjecaj na Data Scientista.

Data Scientist:

  • omogućuje neke nove perspektive u analiziranju izvora podataka (novi izvori)
  • od istraživača očekuje neke nove tehnike rada (podaci su često nepotpuni)
  • zahtijeva usvajanje mnogo novih tehnologija (Hive, Spark, MapReduce...).

Ako se vodi namjerom da iz podataka izvuče neku dodatnu vrijednost ili uvid, svejedno je koji je izvor podataka, dokle god se njime znamo služiti. Upravo je to i jedna od ideja. Teško je ići ukorak sa svim Big Data tehnologijama. Ključna je spremnost na prihvaćanje novih znanja na uporabnoj razini. U trenutku kad se zna kako pročitati podatak, može se izvući neka korisna informacija iz skupa podataka s kojim se možda i prvi put susreće.

3. Pozicioniranje na tržištu rada

Prema istraživanjima Data Scientist se trenutno se nalazi na prvome mjestu liste najboljih poslova američkog tržišta rada za 2016. i 2017. godinu (Glassdoor.com, 2017.). Na britanskom tržištu rada taj se posao svrstava na šestu poziciju najpoželjnijih poslova prema istraživanjima Glassdoora (Glassdoor.co.uk, 2017.). S druge strane, na američkom je tržištu nešto drukčija situacija. Studije McKinsey Global Institutea za 2018. godinu procjenjuju nedostatak i do 200.000 osoba talentiranih da iskoriste mogućnosti koje nudi Big Data (Manyika et al., 2011.). Koliko je ta tema aktualna, govori i činjenica da brojna svjetska i europska sveučilišta već niz godina nude master programe na području Data Science-a (Wikipedia, 2017.).

Iako svjetski trendovi s određenim (vremenskim) zaostatkom postaju dijelom domaće ekonomije, intenzivan razvoj Big Data tehnologija i njihovo prihvaćanje od vodećih poslovnih igrača daje velik poticaj razvoju Data Science-a.

Slika 3. Comparison Jobs in Data Science

Izvor: Analytics Vidhya, 2015. 

Kompetitivnost hrvatskog telekom tržišta potiče na bolje razumijevanje potreba klijenta, procesa i postupaka konkurencije. Cilj je ponuditi što pristupačniji proizvod, pa je ovo zanimanje traženo u domaćoj telekom industriji. Vodeći telekomi se već nekoliko godina usmjeravaju na predviđanje ponašanja klijenta na temelju različitih izvora podataka (interdisciplinarni pristup).

Slično je u i financijskom sektoru. Vodeće hrvatske banke neprekidno traže ljude sposobne za razumijevanje podataka. Razvoj Big Data tehnologija i njihova integracija u postojeće sustave i procese banke označavaju prekretnicu u poslovnom razumijevanju podataka. Već je pretraživanje nekretnina po portalima indikator za izračun kreditne sposobnosti klijenta kako bi mu pri prvom dolasku u poslovnicu bankar mogao ponuditi proizvod prilagođen njegovim potrebama (imajući u vidu nove izvore podataka).

Osiguravajuća industrija potpuno je koncentrirana na klijenta - osiguranika. Big data i analitika prikupljenih podataka iz novih izvora (Data Science) daju potpuno novu perspektivu razumijevanju životnih navika klijenta s ciljem razvoja novih proizvoda, bolje prodaje postojećih proizvoda, ali i uvijek prisutnim fraud-detection-om. Primjera je, dakle, zaista mnogo.

4. Zašto ulagati u Data Science znanja

Istraživanje podataka neizbježno postaje redovni posao svakog poduzeća zato što se u podacima nalaze informacije važne za razvoj, strateške odluke i napredak poslovanja. Puno je argumenta zašto se priključiti ovom procesu – od atraktivnosti zanimanja, preko dobrih plaća do dinamičnih i zanimljivih radnih uvjeta.

Postavlja se pitanje kako početi.

Analiziramo li primjerice mali skup podataka (Excel), neki strukturiran skup (relacijska baza) ili pak velike, nestrukturirane skupove podataka (Big Data), potrebno je dosta razumijevanja kako bismo došli do kvalitetnih zaključaka. Taj se proces sastoji od više koraka:

  1. razumijevanje poslovne logike i osnova priprema podataka,
  2. razumijevanje statističkih metoda kojima se obrađuju podaci,
  3. poznavanje algoritama za izračun i interpretacija rezultata i
  4. prezentacija i vizualizacija.

Ti koraci ukratko objedinjuju potrebna znanja, vještine te istraživačke metode nužne za uspjeh u najdinamičnijem zanimanju ovog desetljeća. 

Otkuda krenuti?

Temelj se zasniva na pripremi podataka koja se usmjerava na prethodna znanja o bazama podataka. To je ključan korak analize zato što se velik broj korisnih podataka nalazi u informacijskim sustavima vezanim za relacijske baze podataka. Često će analize počinjati i završavati upravo s bazama podatka. To se događa zato što klijenti najčešće kvalitetne informacije i zaključke istraživanja podataka žele pohraniti u nekoj izvještajnoj bazi podataka koju onda upotrebljavaju brojni poslovni korisnici.

Mnoštvo je prediktivnih i analitičkih metoda, stoga je važno upotrebljavati ono što se zaista razumije. Bez obzira na to radi li se o upotrebi modela, pretpostavki modela ili pak interpretaciji dobivenih rezultata te neovisno o algoritmu za koji se Data Scientist odlučio, modeliranje i izračun nešto je što se prepušta statističkim alatima.

U praksi su se za tu namjenu profilirala dva open-source programska jezika: R i Python. Posebnost R-a je njegova prihvaćenost u svijetu (u akademskim i poslovnim krugovima), činjenica da su ga razvijali statističari, dostupnost (open-source software) te mnoštvo već gotovih, provjerenih algoritama spremnih za primjenu na podacima. Upravo velik broj gotovih procedura za izračun u R-u od analitičara zahtijeva razumijevanje pretpostavki modela, primjenu i interpretaciju rezultata, a ne implementaciju algoritama.

Da bi Data Scientist mogao prenijeti pronađeno, navedeno je potrebno prikazati na primjeren način. Danas alati za vizualizaciju pružaju bolju mogućnost od niza tabličnih prikaza te sami služe kao alat za otkrivanje informacija u podacima. Cilj je, dakle, zaključke istraživačkog procesa objediniti i prezentirati na ispravan način. Valja istaknuti uporabu dvaju posebno zanimljivih alata: PowerPivot i Tableau zbog široke dostupnosti, jednostavnosti uporabe i njihove vizualizacijske moći – daju pravi uvid u podatke.

Albert Ćosić, mag. math.
DW/BI consultant, Neos d.o.o.

Mr. sc. Krešimir Futivić
Project manager, Neos d.o.o.

Pero Hrabač, dr. med.
Asistent, Medicinski fakultet u Zagrebu


Alexa Blog (2017.) Data Cloud, dostupno na: http://blog.alexa.com/know-data-science-important/, pristupljeno 19.8.2017.
Analytics Vidhya (2015.) Comparison Jobs in Data Science, dostupno na: http://i1.wp.com/www.analyticsvidhya.com/wp-content/uploads/2015/10/infographic.jpg, pristupljeno 19.8.2017.
Berkley (2017.) What is Data Science?, dostupno na: https://datascience.berkeley.edu/about/what-is-data-science/, pristupljeno: 21.8.2017.
Davenport, T. H. i Patil, D. J. (2012.) Data Scientist: The Sexiest Job of the 21st Century, Harvard Business Review, dostupno na: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century, pristupljeno: 20.8.2017.Loss, A. (2017.) Who are Data Engineers in 2017, dostupno na: https://www.linkedin.com/pulse/who-data-engineers-2017-anton-loss, pristupljeno: 14.6.2017.
Glassdoor.com (2017.) 50 Best Jobs in America, dostupno na: https://www.glassdoor.com/List/Best-Jobs-in-America-LST_KQ0,20.htm, pristupljeno: 19.8.2017.
Glassdoor.co.uk (2017.) 25 Best Jobs in UK, dostupno na: https://www.glassdoor.co.uk/List/Best-Jobs-in-UK-LST_KQ0,15.htm, pristupljeno: 21.8.2017.
Manyika J. et al. (2011.) Big data: The next frontier for innovation, competition, and productivity, dostupno na: http://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation, pristupljeno: 17.8.2017.
Scott J. (2014.) 5 Google Projects That Changed Big Data Forever, dostupno na: https://mapr.com/blog/5-google-projects-changed-big-data-forever/, pristupljeno: 18.8.2017.
SINTEF (2013.) Big Data, for better or worse: 90% of world's data generated over last two years, dostupno na: www.sciencedaily.com/releases/2013/05/130522085217.htm, pristupljeno: 24.8.2017.
Wikipedia (2017.) Data Science, dostupno na: https://en.wikipedia.org/wiki/Data_science, pristupljeno: 17.8.2017.
Wikipedia (2017.) R (programming language), dostupno na: https://en.wikipedia.org/wiki/R_(programming_language), pristupljeno: 25.8.2017.

 
Da li vam se svidio stručni tekst?
Prijavite se za redovito primanje obavijesti iz kontrolinga, financija i menadžmenta.