Pande za manipulaciju tabelama (Prvi deo)

Ako težite ka tome da vam pojam Big Data postane blizak i srodan, naravno da možete postići to ne znajuci mnogo toga o Pandama, ali time biste sebi uskratili velike beneficije koje dolaze sa ovom sjajnom pajtonovom bibliotekom. Možemo slobodno da kažemo kako je ovo najpoznatija biblioteka za manipulaciju tabelama koja čini osnovu svakog data engineera i data scientista. U prvom delu proći ćemo kroz neke osnovne stvari kako biste se upoznali sa mogućnostima pandi. Kao primer tabele u ovom blogu, koristio sam open source-ovanu tabelu sa statistikom NDPa zemalja sveta, a vi takodje možete da pronađete mnogo drugih tabela na UCI Repository koje možete koristiti za vežbu. Za prezentaciju sam koristio Jupyter Notebook, koji ima instant output, te je zbog toga veoma pogodan za ovakve stvari.

Read more

Kako kupiti kartu za budućnost?

Ovaj tekst predstavlja skroman pokušaj demistifikacije zanimanja iz Big Data oblasti i skup saveta za nalaženje posla i dalje edukacije u sferi Big Data tehnologija. Tekst je namenjen početnicima ili profesionalcima iz drugih oblasti koji se interesuju za ovu oblast.

Svi znamo da je današnji svet zatrpan podacima od kojih samo mali deo bude iskorišćen za dobijanje kvalitetnih informacija. Sa porastom obima prikupljenih podataka direktno opada njihova “vrednost po bajtu”. Ova vrednost opada iz dana u dan kako se okeani podataka slivaju u skladišta kompanija širom sveta. Motivacija kompanija koje istražuju ove mračne dubine okeana podataka jesu inovacije i prednost u odnosu na konkurenciju. Da se ne lažemo, postoji i jedan deo kompanija koje samo deklarativno pripadaju ovom miljeu dok u stvarnosti menadžment nema sluha za preporuke koje dolaze od ljudi koji rade sa tim podacima.

Da bi bile u stanju da procesiraju i interpretiraju podatke, kompanijama su potrebne različite tehnologije i ljudi koji znaju da ih koriste. Spisak tehnologija i opis zanimanja koje firme koriste variraju u velikoj meri od slučaja do slučaja. Po mom mišljenju, danas postoji suficit tehnologija a “debeo” deficit profesionalaca koji su spremni i znaju kako da se uhvate u koštac sa haosom podataka.

Gde smo tu mi?

S obzirom da je era velikih podataka tek u povoju, mnoge stvari su i dalje nedefinisane. Na primer, kada pogledate kakva sve zanimanja postoje i koliko se razlikuju jedna od drugih čak i kada se isto zovu čovek lako može da se zbuni. Koliko sam ja uspeo da primetim, postoje dva najčešća zanimanja koja se direktno vezuju za Big Data a bez kojih se ne može:

  • Data Engineer
  • Data Scientist

Postoji mnogo definicija za opise ovih poslova a one uglavnom zavise od interpretacije same kompanije.

Data Engineer

Zanimanje koje se uglavnom stavlja u drugi plan kada se priča o Big Data svetu iako je podjednako važno  kao i Data Scientist. Ovu poziciju uglavnom zauzimaju ljudi koji imaju dobro razumevanje distribuiranog programiranja, infrastrukture i arhitekture. Ovi profesionalci vladaju podacima iz druge perspektive. Oni rade na razvoju infrastrukture, tokova i skladištenja podataka. Osećaju se udobno sa instalacijom distribuiranih sistema kao što su Hadoop MapReduce/Spark klasteri, znaju da kodiraju u programima kao što su Scala/Python/Java i znaju Unix skripting i SQL.

Data Scientist

Ova uloga uglavnom zahteva ljude koji znaju kako da rade nad velikim skupovima podataka sa machine learning (ML) algoritmima, kako da razvijaju prediktivne modele, znaju teoriju (matematiku i statistiku) iza modela i znaju da interpretiraju i objasne ponašanje modela jednostavnim jezikom. Takođe, tipično je i da se traži dobro poznavanje SQL-a kao i poznavanje barem jednog programskog jezika za prediktivnu analitiku (npr. R/Python).

Često se pominje da su zanimanja iz ove oblasti multidisciplinarna i to je više nego tačno. Na primer, od data scientist-a se često traži da poseduje znanje statistike i matematike, razvoja algoritama, machine learning-a, biznisa, baza podataka, programiranja, vizuelizacije rešenja i komunikacije rešenja. Ako u ovaj miks uključimo i različite alate koji mogu da se koriste za neke od kategorija, ispada da je veoma teško naći individuu koja bi uspešno ispunjavala sve kriterijume. Teorija nam kaže da bi idealno bilo da se kreira tim ljudi koji bi zajedno činili potpunu kombinaciju veština i znanja. Ipak, u praksi, a pogotovo prilikom zapošljavanja, stvari stoje malo drugačije.

Kako se edukovati?

Ako planirate da se bavite nekim od zanimanja iz Big Data sveta konstantno učenje vam je neminovno. Kada prestanete da učite, prestajete da budete konkurentni.

U narednom tekstu ću izlistati potrebne osnove koje će vam obezbediti dovoljno znanja da možete početi tražiti posao kao data scientist. A što se tiče edukacije za data engineer-a, mislim da nisam dovoljno kompetentan da dajem smernice.

Ako bih počinjao ispočetka, moj redosled učenja bi bio sledeći:

Ako dođete do toga da ste savladali prethodno navedene alate i znanja dalje preporuke vam neće biti potrebne već ćete i sami znati kako dalje da se usavršavate. Alati, algoritmi i ostala znanja iz ove oblasti su neiscrpni tako da ćete imati šta da učite do kraja života.

Kako do posla?

Posla ima mnogo ali, iako postoji deficit radne snage u ovoj oblasti, ima mnogo i konkurencije. Da biste znali šta vas očekuje na intervjuima možete pogledati kakva pitanja postavljaju velike kompanije poput facebook-a:

https://www.glassdoor.com/Interview/Facebook-Data-Scientist-Interview-Questions-EI_IE40772.0,8_KO9,23.htm

Dobra je ideja pratiti oglase za određenu poziciju (čak i kada ste zaposleni) da biste videli koji su trendovi i kako biste eventualno dopunili svoj arsenal dodatnim znanjem.

Fokus testova u slučaju Data Scientist pozicije su nekada na statistici i ML modelima, nekada vam postavljaju pitanja vezano za SQL upite i skripting, neki se opet fokusiraju na pitanja u vezi sa razvojem algoritama i kodiranja a neki vas pitaju sve od toga. S obzirom da imena pozicija nisu standardizovana može vam se desiti da vas isti opis posla očekuje i pod nazivom Data Analyst.

Ako je ovo oblast koja vas zaista interesuje i ispunjava onda ćete naći i vremena da se bavite njome. Povremeno uradite neki mini projekat sami za sebe, uključite se u prikladne interesne grupe na LinkedIn-u, učestvujete na organizovanim okupljanjima, ne prestanete da učite i doći ćete do posla ili će posao doći do vas.

Vredi li truda?

Iskreno, mislim da je vredno da odvojite koliko god vremena da vam treba da naučite potrebna znanja da bi ste dobili posao u ovoj struci pa makar to bilo i godinu-dve dana ili više. Investiranje vremena u sticanje veština i znanja koja će vam omogućiti lep život i lepu karijeru u radu na izazovnim, kreativnim i interesantnim projektima ne može biti greška. Budućnost ove oblasti tek počinje a samo od vas zavisi da li ćete se priključiti. Što se mene tiče, ja ne planiram da prestanem da učim a vi kako hoćete.

Monetizacija Big Data koncepta – iz ugla Zane Pekmez

Dragi pratioci,

Big Data sve više počinje da se primenjuje u našem regionu. Sagovornik na ovu temu, Zana Pekmez, bila je jedan od organizatora seminara koji je posvećen poslovnoj analitici i Big Data u svrhu optimizacije poslovanja a koji je održan u BiH u novembru.

U nastavku vam prenosim intervju sa Zanom.

Slike 4

Koje teme su bile ključne na seminaru koji je održan?

Na međunarnom Burch univerzitetu (International Burch University) u okviru Burch Business Centra u novembru održan je jedan od prvih seminara u Bosni i Hercegovini na temu poslovne analitike i primjene Big Data u svrhe optimizacije poslovanja. Glavni cilj seminara bio je predstaviti privrednicima, kao i bankarima dalekosežne mogućnosti monetizacije Big Data koncepta. Seminar je obuhvatio prezentaciju osnovnih koncepata Data Science, rudarenja podacima, i osnovnih alata koje se koriste u te svrhe, te ilustraciju procesa analize podataka po fazama. U svrhe što boljeg razumjevanja monetizacije i same koristi ovoga koncepta polaznici seminara su imali da urade konkretan zadatak.

Najveći broj polaznika seminara je bio iz bankarske industrije, potom realni sektor i distribucija. Održanim seminarom sam mnogo zadovoljna obzirom da je predmet istog dosta nepoznat u BiH te nisam očekivala veliki odziv niti interes. Na kraju smo imali čak 10 polaznika više od prijavljenih, a polaznici su bili vrlo aktivni tokom radionice i pokazali su svoje radoznalost u želji da se što bolje upoznaju sa konceptima.

Reci nam nešto o sebi – koji si fakultet završila i kako si počela da gradiš svoju karijeru?

Srednju školu i dodiplomski studij sam završila u SAD-u. Diplomirala sam na Bates College-u na katedri Ekonomije. Program mojih dodiplomskih studija iz ekonomije bio je jako fokusiran na kvantitativne metode i primjenjenu ekonomiju (statistika, ekonometrija, napredni kalkulus i linearna algebra) tako da sam se tada prvi put susrela sa alatima koje koristimo za statističku analizu i obradu podataka (Mathlab, Gauss, eViews).

Nadalje, teze koje sam odabrala za sva tri ciklusa mojih studija su vrlo, kako da kažem, „Data-centrične“ , u kontekstu potreba za obradom podataka, modeliranjem odnosa između varijabli i dobijanjem koherentnih inferencija.

Zahvaljujući svom obrazovanju sa fokusom na kvantitativnu ekonomiju mogu reći da mi je prvi posao koji sam dobila ujedno i bio moj „dream-job“! Unutar projekta koji je u to vrijeme finansirala Svjetska banka dobila sam priliku da radim u timu stručnjaka sa ciljem analize potencijalnih efekata uvođenja stope PDV-a na nivo siromaštva u BiH. Koristili smo razne statističke metode u SPSS-u, a i poseban simulacijski alat koji se zove PovStat, koji je razvijen u Excel-u. No, sve što je lijepo kratko traje, pa je i ovaj projekat trajao svega godinu dana dok parlamentarno usvajanje Zakona o PDV-u nije konačno prošlo kompletnu proceduru.

Profesionalno iskustvo nastavljam u oblasti finansija i bankarstva. U toj branši stekla sam punih 9 godina upravljačkog iskustva u kontekstu operativne organizacije, upravljanja troškovima, planiranja resursa i budžeta, te proaktivno upravljanje procesima u cilju optimizacije i razvoja novih poslovnih praksi kako bi se osigurala učinkovitost poslovanja i racionalizacija troškova.

Šta je za tebe data science? Kako vidiš njegovu primenu u bankarskom sektoru?

Data Science je za mene multidisciplinarna grana, „catch-all“ koncept, koji obuhvata raznorazne metode, alate i procese rada sa podacima, kao što su statistika, vizualizacija podataka, rudarnje podataka (data mining), „machine learning“, umjetna inteligencija itd.

Smatram da je podatak nova valuta, pa tako da Banke koje ne budu pratile ovaj trend vrlo brzo će zaostati u svim segmentima poslovanja. Okruženje u kojem poslujemo nije statično i stalne promjene zahtjevaju nova dinamična rješenja koja omogućavaju dostupnost izvještajima i poslovnoj metrici u stvarnom vremenu (real-time).

Bankarska industrija je isključivo usmjerena prema profitu, odnosno stvaranju dodatne vrijednosti dioničarima (sharehodlers value), te u sadašnjim uslovima vrlo jake konkurecije svoje komparativne prednosti gradi na unapređenju usluge i odnosa prema klijentima kroz raznorazne kanale. Upravo u tom segmentu u svrhe analize i uvida u ponašnje klijenata (UX, consumer behaviour) primjenjujem Big Data kako bi nam obrađene informacije jasno ukazale na prilike za cross-selling i up-selling. U bankarskom sektoru Big Data mozemo primjeniti i u procesu upravljanja ključnim rizicima.

Kako izgleda tvoj uobičajen dan na poslu? Da li imaš dodira sa data science-om?

Volim da najteže zadatke, koji zahtjevaju dosta koncentracije i pažnje, obavim odmah ujutro čim dodjem na posao. Jako mi je važno da imam svakodnevnu komunikaciju sa svojim prvim saradnicima, pa tako ne prođe niti jedan dan bez zajedničkih sastanaka i rekapitulacije predstojećih aktivnosti koje nas čekaju.

Sveobuhvatna TO-DO lista je meni vrlo važna, te u nju zapisujem sve sto treba da uradim.

Kada si shvatila da želiš da se baviš data science-om? Kako si shvatila da podaci imaju moć?

Na doktorskom studiju 2012.g. na Ekonomskom Fakultetu u Sarajevu imali smo gostujućeg profesora na predmetu „Sustainability in Business“, Prof. Ajay Vinze sa Univerziteta u Arizoni (Arizona State University) koji nam je na jednom od predavanja spomenuo tada jos emerging koncept Big Data, prognozirajući da će isti napraviti revoluciju u poslovnom svijetu. Mnogo su me zaintrigirale njegove izjave i shvatila sam koliku moć imaju podaci onda kada nam je prezentirao rezultate analize koja je pokazala korelaciju između kupovine pelena i pive od strane mladih američkih muškaraca i to na određene dane u sedmici. Trgovina je iskoristila ovu informaciju na način da je pozicionirala pelene pored pive.

Nadalje vrijednost informacije koja proizilazi iz obrađenih podataka, odnosno analitike najbolje pokazuju skora istraživanja CGI grupe za bankarsku industriju koja kaže da Banka koja uloži u a/m analitiku ima 2-4 puta veći response-rate na cross-selling marketing, 10% smanjenje gubitka klijenata konkurentima, te značajno unapređenje indeksa povrata na ulaganja (risk to return) uslijed kvalitetnijih odluka u Lending procesu.

Odakle crpiš ideje o onome što želiš da analiziraš?

Čitam mnogo stručnu literaturu i to različite oblasti. Zbog posla mi je važno da sam u toku sa najnovijim trendovima u optimizaciji bankarskog poslovanja, strateškog planiranja informacionih sistema itd itd, a onda sa druge strane imam doktorski rad koji radim iz oblasti makroekonomije i energetike čemu sam posvetila dosta vremena i trenutno je sva analiza koju radim podređena tom radu.

Čija karijera te trenutno inspiriše?

Ja volim da se ugledam na pozitvine primjere uspješnih ljudi oko sebe, bilo da se radi o nekim mojim kolegama ili pak nekim poznatim ličnostima.

Trenutno mi je najveća inspiracija Sheryl Sandberg, COO Facebook-a, ne samo iz razloga što Sheryl zastupa ravnopravnost žena na upravljačkim pozicijama, nego zato što u svojoj knjizi „Lean-In“ i svojim govorima i prezentacijama, daje prednost „soft“ vještinama i kompetencijama stečenim kroz iskustvo, a ne stručnom i fukcionalnom znanju koje je uz adekvatan trening lako savladati ili naučiti.

Kako vidiš data science u narednih  5 godina? Da li sebe vidiš u ovoj oblasti u budućnosti?

Želim da budem data scientist! Pored obaveza na redovnom poslu i PhD-u ne nalazim mnogo vremena da se posvetim ovoj oblasti koliko bih zeljela kako bih unaprijedila svoje tehničke vještine.

Obzriom na moje statističko znanje, te znanje poslovne strane i komunikacijsko/prezentacijske sposobnosti smatram da imam dobre predispozicije da se uspješno profiliram kao data scientist.

Koji bi savet dala svima koji žele da uplove u ove vode?

Data Science je amalgam kreativnosti, matematike, statistike, psihologije, poslovne strane, upravljanja  i time odlična prilika za svestrane ljude da kroz praksu pokažu sve ono što vole da rade.

Svojim studentima i mlađim kolegama uvijek spomenem činjenicu da će poslovni analitičari i data scientisti biti najtraženija roba na tržištu rada.

Data Science u sportskom klađenju – lično iskustvo Dine Dicić

Dragi pratioci,

Kao što sam obećala  – očekuje vas još jedna priča o Data Science-u. Ova priča je malo drugačija od prethodne dve. Prvi razlog je što je reč o osobi ženskog pola što je za svako divljenje i pohvalu imajući u vidu da u ovom zanimanju po brojčanom stanju još uvek dominiraju muškarci, a drugi razlog je taj što je u pitanju primena Data Science-a u specifičnoj oblasti – sportskom klađenju.

Dinu sam upoznala na konferenciji Data Science, koja je po prvi put održana u Beogradu 13. i 14. oktobra 2015. godine, gde je održala fantastično predavanje na temu Primena nauke o podacima u sportskom klađenju.

U nastavku vam prenosim intervju sa Dinom.

IMG_8168-2

Reci nam nešto o sebi – koji si fakultet završila i kako si počela da gradiš svoju karijeru?

Osnovne i master studije sam završila na Idaho State University u SAD-u. Studirala sam matematiku ali na post diplomskim sam se više okrenula statistici i verovatnoći. Posle školovanja sam radila kao profesor na fakultetu u Americi a kada sam se posle jedanaest godina vratila u Srbiju dobila sam priliku da se bavim analizom podataka u sportskoj kladionici. Obzirom na to da nisam imala nikakvog iskustva sa data science profesijom, karijeru sam počela prvo izveštavanjem a onda se okrenula više ka  ETL-u, arhitekturi DWH  i predikcijama.

Šta je za tebe data science? Kada si shvatila da želiš da se baviš data science-om?

Za mene data scence je neophodna nauka za svaki biznis. Živimo u svetu gde su podaci sve više dostupni i razvojem tehnologija  prosto je prirodno da se ti podaci koriste za nesto više od samog izveštavanja i gledanja u prošlost. Mislim da nisam imala onaj “AHA“ momenat da ću od sada da se bavim data science-om. Do toga je došlo prirodno – stalnim učenjem i razvojem dolazite do nekih novih stvari a to je u mom slučaju bio data science.

Kako bi opisala specifičnosti primene data science-a u sportskom klađenju?

U svetu, primena data science-a u klađenju je ustaljena stvar bez koje se ne može. U Srbiji, većina ljudi je vrlo skeptična po tom pitanju. Ovde i dalje postoji stigma o tome šta su u stvari kladionice i na koji način one zarađuju. Ali kada pogledate, predikcija koju date na ishod neke utakmice ili događaja u formi kvote je nista drugo nego primena data science-a. Koriste se podaci iz prošlosti koji prolaze kroz matematički model i daju vam verovatnoću da će se nesto desiti u budućnosti.

Odakle crpiš ideje o onome što želiš da analiziraš?

Za bilo koju analizu podataka morate da imate dobro razumevanje biznisa u kome radite, bilo da je to marketing, klađenje, finansije itd. Izveštaji i  grafici  mogu da vam ukažu na  promene u poslovanju. Meni je to najbolji pokazatelj koji deo podataka treba da „napadnete“. Sa druge strane, bitno je i da znate sta je vaš krajnji cilj.  Kada se poslovanje odvija u granicama očekivanog  kao analitičar morate da se zapitate šta možete da uradite da to poslovanje bude još bolje.

Kako bi opisala svoj prvi skup podataka sa kojim si počela ozbiljnije da radiš?

Ogroman! Imala sam tu sreću da radim sa velikom količinom podataka koji su vrlo zanimljivi i kompleksni.

Koje tehnologije i alate koristiš? Zašto baš njih?

To sve zavisi od toga na čemu radim.  Koristim SQL, R, SPSS, Excel i razne data integration alate kao sto su Pentaho Kettle i SSIS. Postoji još nekolio alata koji su lepi i korisni ali skupi tako da se uglavnom fokusiram na open sourse alate.  Definitivno sebe teram da učim Python ali od ostalih dnevnih obaveza on je trenutno u back logu.

Kako znaš/osećaš da si prikupila i da analiziraš prave podatke?

Već sam spomenula da je bitno da imate dobro razumevanje biznisa i podataka koji vam taj biznis donosi. Čest je slučaj da vam prikupljanje i čišćenje podataka traje mnogo duže nego sama analiza i modeliranje. Kroz taj proces upoznate šta je korisno a šta ne za vaš model.

Kako vidiš data science u narednih  5 godina? Da li sebe vidiš u ovoj oblasti u budućnosti?

Data science je posao koji tek kreće u akciju. Sebe definitivno vidim u ovoj oblasti iako to nije bio slučaj pre pet godina.

Koji bi savet dala svima koji žele da uplove u ove vode?

Da se ne plaše da napadnu podatke i da uče nove tehnologije. Imala sam priliku da dovedem studente na praksu i to sam prepoznala kao jedan od problema. Većina njih je imala strah da nesto „ne pokvare“. Radoznalost i konstantno učenje su ključ u ovakvom poslu. Danas ima toliko besplatnih kurseva na internetu da je neophodna samo volja i malo vremena.

Koji je najzanimljiviji rezultat do kojeg si došla primenom data science-a u sportskom klađenju? 

Mozda najzanimljiviji bas ne mogu da ispričam J  , ali tu smo dolazili do mnogo interesantih stvari. Neke od fun fact-ova koje mogu da spomenem koje su prolazile kroz analizu su na primer podaci da žene iako se slabo klade imaju veći procenat dobitnosti od muškaraca i da igrači u Srbiji uglavnom izbegavaju da igraju na Đokovića.

Karijera Data Scientist-a: iz ličnog iskustva Ognjena Zelenbabića

Dragi pratioci,

Sigurno ste se kao i ja, suočili sa poteškoćom da u jednoj rečenici roditeljima, bakama i dekama, strinama i tetkama objasnite na kojoj poziciji radite, kako se zove vaše zanimanje i šta tačno podrazumeva… Zanimanja Business Intelligence Consultant, Database Architect, Database Administrator itd. su teško objašnjiva u jednoj reči onima koji nisu u IT vodama… Generalno gledano, sa razvojem novih tehnologija uvek su se javljale i nove radne pozicije i nova zanimanja… U lavini podataka sa kojima smo svi suočeni u ovoj big data eri, došlo je do razvoja brojnih tehnologija, tehnika i alata koje zahtevaju posebna znanja, stručnosti i veštine zaposlenih. Trenutno aktuelne pozicije koje podrazumevaju rad sa ovim tehnologijama su Data Scientist, Data Engineer, Information Strategist,  Big Data Architect, Big Data Consultant, Data Executive, Chief Digital Officer, i slično…

Zbog velikog interesovanja za sve one specifičnosti i karakteristike ovih novih zanimanja, odlučila sam da intervjuišem nekoliko ljudi koji se baš bave data science-om i uopšte analitikom u big data eri.

Ognjen Zelenbabić je bio i više nego racionalan izbor za intervju o data science-u, a u nastavku ćete i sami shvatiti zašto…

?

Reci nam nešto o sebi – koji si fakultet završio i kako si počeo da gradiš svoju karijeru?

Nisam hteo da prihvatim neminovnost da u Srbiji, nakon toliko godina investiranja u obrazovanje, čovek najviše može da se nada da ima posao. Posle završenih master studija na ETF-u postavio sam sebi cilj da nije dovoljno samo da radim već i da volim ono što radim i da od toga lepo živim. Menjao sam oblast delatnosti nekoliko puta sve dok se na kraju nisam pronašao u svetu prediktivne analitike. Bilo je potrebno mnogo rizika i odricanja da bih na kraju uspeo da se udomim u oblasti koja je intelektualno zahtevna i kreativna. Poziciji u kojoj se sada nalazim su najviše doprineli sati i sati učenja kada god bih uspeo da odvojim slobodno vreme za to.

Kako bi opisao data science? Koliko se data science uklapa u tvoj svakodnevni posao?

Data Science je prirodni iskorak dalje u odnosu na tradicionalnu analitiku i poslovnu inteligenciju. Sa sazrevanjem tehnologija i sa izobilju podataka koje sada imamo nalazimo se u situaciji da možemo da uradimo nešto više sa podacima. Uočavanje skrivenih šablona unutar podataka i njihovo korišćenje je ono što je toliko popularizovalo data science zbog raznih benefita koji iz toga proizilaze. Kada, na primer, uspete da napravite prediktivni model korisničkog ponašanja, dolazite u situaciju da možete da adaptirate svoje poslovne procese u odnosu na ono što će se desiti (data science) a ne u odnosu na ono što se dešavalo (tradicionalna analitika). Moj posao je izrada modela i komuniciranje rešenja odnosno davanje preporuka u zavisnosti od dobijenih rezultata.

Kako izgleda tvoj uobičajen dan na poslu?

To zapravo zavisi od toga koji je dan u pitanju. Nekada je to rad na definisanju mehanizama praćenja i ekstrakcije podataka, nekada je rad na integraciji podataka, čišćenje podataka, eksplorativna analiza, itd. Izrada modela dolazi na red tek kada su svi preduslovi čistih i pravilno pripremljenih podataka ispoštovani. „Najteži“ deo posla je predstavljanje rešenja kada morate da ubedite ljude u nešto što nije intuitivno. Upravo zbog toga je vizuelizacija podataka izuzetno bitna.

Kada si shvatio da želiš da radiš sa podacima? Kako si shvatio da podaci imaju moć?

Da budem iskren, prvenstveno sam hteo da se bavim razvojem algoritama i primenom machine learning-a a podaci su došli kao potreban rekvizit. Od momenta kada sam se na fakultetu prvi put susreo sa machine learning algoritmima kao što su genetski algoritmi, inteligencija roja, neuralne mreže itd. bio sam opčinjen njihovom upotrebnom moći.

Prilikom rešavanja problema, ljudi se uglavnom ograničavaju na ono što već znaju (“Kada imaš čekić sve ti liči na ekser”). Upravo zbog toga smatram da je veoma važno proširiti horizonte i steći što više novih znanja kako bismo bili u stanju da rešavamo kompleksnije probleme i bili veći profesionalci u onome što radimo.

Kako znaš da si prikupio i da analiziraš prave podatke?

Prvi korak analize je uvek eksplorativna analiza kada pokušavamo da uočimo zakonitosti koje postoje unutar podataka. Ako postoje šabloni unutar podataka onda imamo materijal koji možemo iskoristiti za izradu prediktivnih modela, u suprotnom su podaci beskorisni. Eksplorativna analiza podrazumeva upoznavanje sa prirodom podataka uglavnom iscrtavanjem velikog broja grafika (scatter plot, box plot, histogrami itd.) kada možemo vizuelno da uočimo zavisnost promenljivih i njihove međusobne odnose.

Koje tehnologije i alate koristiš? Zašto baš njih?

Koristim dosta alata, sve u zavisnosti od toga kakve su potrebe. Uglavnom koristim Linux, Python, R, SQL, Hadoop, Matlab i Excel. Veliki sam fan Matlab-a ali je on nažalost veoma skup pa firme baš nisu raspoložene da kupuju licence a tu je i problem kako implementirati Matlab program u produkciju. Iz tih razloga sam prešao na open source alatke kao što su Python i R. Svaki od njih imaju svoje prednosti i mane pa njihova upotrebna vrednost zavisi od konteksta. Trudim se da pratim scenu kako bih konstantno bio u toku sa novim tehnologijama. Njih je danas toliko mnogo da nema šanse da se savladaju sve.

Dosta ljudi upadne u zamku da zbog favorizacije neke tehnologije pokušavaju da je proguraju čak i gde to nije prikladno. Ja sam pre za pristup da se utvrdi koji je cilj, šta treba da se postigne, i onda da se pronađe najjednostavnije rešenje za rešenje problema.

Kako vidiš data science u narednih 5 godina? Da li sebe vidiš u ovoj oblasti u budućnosti?

Data Science je uhvatila zamajac koji je teško zaustaviti. Razvoj machine learning algoritama, novih tehnologija koje ih podržavaju i broj ljudi koji se time bave sve je veći tako da u budućnosti možemo da očekujemo još značajnije tehnološke proboje i veću popularizaciju ove oblasti.

Ja sam u data science-u pronašao doživotnu strast tako da sam tu da ostanem. Ono što bih voleo da vidim je da u Srbiji imamo program za edukaciju ovakvih kadrova da makar što se toga tiče idemo u korak sa svetom.

Koji bi savet dao svima koji žele da uplove u ove vode?

Mislim da se može očekivati da će u budućnosti biti veliki deficit za kadrovima ovog profila tako da ne bi bilo loše da se na vreme ukrcate u voz. Strast i posvećenost su veoma bitne jer da biste bili uspešni u ovom poslu podrazumeva se da znate mnogo tehnologija. Ako niste spremni da učite redovno, zaboravite na ovu profesiju.

S druge strane, osećaj da možete pozitivno da utičete na kompletno poslovanje kompanije ili osećaj postignuća koji dobijete kada uspete da izgurate kompleksan projekat je neprocenjiv.

Sigurna sam da vas je ova priča podstakla da razmislite da li želite da se bavite ovom oblašću, a uskoro možete očekivati nove intervjue sa uspešnim profesionalcima iz ove oblasti…