Ova radionica je 3. modul programa Certified Data Scientist.

Opis i cilj modula:

Cilj modula 3 je upoznavanje polaznika s programskim jezikom R – trenutno jednim od vodećih za statistiku i data science. Pregršt gotovih paketa i funkcija pojednostavljuje rad U R-u pa će se tijekom modula polaznici upoznati s njih nekoliko. Prediktivne i statističke analize prezentirane su kroz „case study“ prilikom kojih će polaznici steći razumijevanje promatranog poslovnog procesa te načine predikcije primjenom više tehnika (Primjerice ponašanja klijenta – „Churn“ u telekom industriji, „Default“ u poslovanju banaka). Znanjem pokrivenim ovim modulom, polaznici će biti spremni za analizu podataka korištenjem R-a, primjenu prediktivnih modela te interpretaciju rezultata izračuna.

SADRŽAJ RADIONICE

1. DAN
Uvod u programski jezik "R"

Uvod u programski jezik R
•    Razvoj i primjene u Big Data-i

 Najčešće korišteni paketi - CRAN
•    Instalacija konzole i razvojna okolina

Osnovni objekti i tipovi podataka
•    Funkcije

Jednostavne transformacije podataka
PRAKTIČNE VJEŽBE:
Upoznavanje s razvojnom okolinom i osnovnim tipovima podataka potrebnim za rad u programskom jeziku. Pridruživanja, jednostavne naredbe i transformacije nad podacima.

2.    DAN
Data Mining i vizualizacije podataka

Učitavanje podataka (txt, xls, db, ...)
•    Pregled i osnovne obrade podataka

Napredne obrade podataka (čišćenje podataka, manipulacija i join - dplry, …)
•    Export podataka

Osnove vizualizacije podataka

Napredne vizualizacije (ggplot)

PRAKTIČNE VJEŽBE:    
Drugi dan modula polaznicima daje pregled tehnika koja je moguće istraživati podatke. Rad počinje učitavanjem podataka iz raznih izvora i pregledom podataka (osnovne kontrole i obrade). Polaznici se upoznaju s naprednim tehnikama rada u dplry paketu (jedan od vodećih paketa za data mining u R-u). Kraj cjeline čini osnove vizualizacije podataka korištenjem R-a (paket ggplot).

3.    DAN
Data Analytics - Prediktivne analize u R-u

Korelacije
•    Case Study: Povrati od ulaganja i Value-at-Risk (Quantitative Risk Management)

Uvod u regresijski model
•    Linearna i logistička regresija
•    Case Study: Primjena logističke regresije za Probability of Default

Predviđanje primjenom vremenskih nizova

Case Study: Primjena vremenskih nizova za predviđanje potrošnje energenta
PRAKTIČNE VJEŽBE:    
Nakon uvoda u R i pripreme podataka za analizu, zadnji dan modula daje pregled osnovnih prediktivnih tehnika. Uz prethodni teoretski uvod u pojedini Case-Study, korištenjem paketa i funkcija u R-u polaznici samostalno izvršavaju prediktivne tehnike te interpretiraju rezultate predikcija.