Mojih top 5 data science preporuka – Marko Jevremović

U raznim mogućim klasifikacijama (klasterizacijama?) koje se mogu naći za Data Science, Marko Jevremović se već dugo bavi podacima kao Product Data Scientist. Za poslednjih 8 godina od kad radi u Nordeusu imao je prilike da radi na zaista širokom spektru problema, ali mu je najzabavnije lansiranje nove igre.

Zamolili smo ga da prođe kroz svoje bookmarkove i sa nama podeli 5 preporuka.

1. Staro zlato

Gledano iz ove perspektive, kada se svakodnevno pojavljuju novi tutorijali, kursevi i blogovi, potpuno mi je neverovatno odsustvo istih u periodu mojih početaka, kako u Data Science-u, tako i u gejming industriji. Ipak, te, sada, na neki način, davne 2013. godine izašao je blog pod nazivom The 10 Commandments of Mobile App Analytics koji je napisao Erik Bendžamin Sojfert, čovek koga svakako treba pratiti ukoliko se bavite marketingom i / ili analitikama mobilnih aplikacija.

Nebrojano puta sam se vraćao na ovu listu sa uvidima u njenu ispravnost. “Zapovesti” su jasne i zdravorazumske, iako smo svi mi i previše često u iskušenju da se ogrešimo o njih. Analogija uspela, reklo bi se. Od kad je ovaj blog napisan Python 2 je penzionizan, ja sam naučio Juliju i promenio tehnologiju infrastrukture podataka nekoliko puta, ali i dalje preporučujem ovaj tekst. Čekam još koju godinu i mogu otvoreno da ga svrstam u klasike. U ovoj industriji je 10 godina dovoljan test vremena.

2. Log

Kada sam prvi put pročitao ovaj blog, potpuno me je oduvao. U pitanju je The Log: What every software engineer should know about real-time data’s unifying abstraction. Bavio sam se dosta i nekim tehničkim detaljima infrastrukture za podatke i siguran sam da ljudima koji nisu išli dublje od čitanja podataka iz baze ovo neće biti podjednako zanimljivo. S druge strane, u međuvremenu je Kafka postala standard u svetu Big Data, a infrastruktura koja je opisana je postala prototip iz kog se izvode konkretne varijacije. Korisno je imati neku predstavu o tome kako rade ovakvi sistemi. Meni je jako pomoglo da bolje dizajniram event-ove za prikupljanje podataka.

3. Statistika je ne samo lažljiva, već i pokvarena

Statistika je glavni alat nekoga ko se bavi Data Science-om. Neizbežna. Koliko dobro poznajemo alat koji koristimo?

Nekad se čini kao da je statistika zla sestra matematike. Dok je matematika prikupila razne uzvišene, kraljevske, epitete, statistika kao da oslikava ono najgore u nama. Čuveno “postoje laži, proklete laži i statistika” već postaje deo pop-kulture, a taj citat koji je prerastao u meme kao da reflektuje nešto dublje što se odvija poslednjih godina. Five ways to fix statistics je jedna od mnogih ozbiljnih priča na temu problema u statistici i korišćenja statistike.

Rekao bih da je ovo tema koja će tek dobiti na zamahu narednih godina. Bajesijanska statistika se sve više koristi, a pojavljuju se i novi metodi kauzalnog zaključivanja koji sa sobom donose moćnije alate za preispitivanje načina na koji koristimo podatke. Tek dolaze generacije koje će moći efikasno da se služe tim alatima i cenim da će to dovesti do novih standarda u korišćenju statistike u svim naukama koje se oslanjaju na istu, uključujući i Data Science, naravno.

4. Ti i tvoje istraživanje, od Ričarda Haminga

Originalni naslov You and Your Research, by Richard Hamming. Da, u pitanju je onaj Haming. Tekst je transkript govora koji je održao 1986. i to je, sasvim moguće, jedan od najboljih govora za koje niste čuli. Čak i ako nemate ambiciju da jednog dana dobijete Nobelovu nagradu, ovde možete naći više nego primenljive savete.

Upoznao sam jako puno inteligentnih ljudi, talentovanih u bilo kom pogledu. Na žalost, ljudi često misle da je to dovoljno, da je dar nekako uspeh. Haming je u Bel Laboratorijama bio suočen sa činjenicom da od svih tih darovitih ljudi samo šačica uspe da uradi nešto veliko i veoma metodično je pokušao da otkrije šta pravi razliku, a zatim je ideje isprobao na sebi. Uz malo slobodnije shvatanje pojedinih rečenica, ovaj govor je jedan od najboljih saveta kako da bilo ko učini najviše što može sa svojim darom.

U nekom užem smislu, ovo je svakako puno jako dobrih saveta za svakog ko se rutinski bavi nekakvim istraživačkim radom, što uključuje i Data Science. Za početak, uvek treba imati neki projekat sa strane, za zadovoljavanje ideje nastale iz intuicije i strasti za otkrivanjem. Tako se i uči i jača intuicija i zadovoljava neka duboka potreba koju imamo svi koji se bavimo ovim poslom.

5. Pisanje kao prozor u svet

Sve što se nađe, napravi, uradi, treba preneti drugima. Komunikacija je poslednja stepenica koju jedan Data Scientist treba da pređe i često se na njoj spotakne. Često slušam (i čitam) diskusije o tome koji jezik treba učiti, koji je bolji, brži, efikasniji za koji posao? Retko se bavimo jezikom koji koristimo u komunikaciji sa ljudima, za razliku od ovih kojima komuniciramo sa mašinama. Maternji, ili, najčešće, engleski nam treba za tu poslenju stepenicu. Svakako, dobra vizualizacija će pomoći. Slika govori hiljadu reči. Problem je što nekad nije očigledno kojih tačno hiljadu reči. Zato sliku treba da prate i reči, priča koja će pomoći nekome da za 6 minuta shvati ono na čemu ste radili 6 nedelja.

U ovom predavanju, Linguistics, Style and Writting in 21st century, Stiven Pinker izlaže zaista sjajnu ideju o pisanju kao prozoru u svet. Veliki problem u komunikaciji nastaje i zato što neko ko je nešto saznao ili naučio ne može više lako da zamisli osobu koja to ne zna.

Kada gledamo film ne vidimo gomile ljudi i tehnike koji stoje oko glumaca, ne pratimo svaki detalj života glavnog lika. Ovakav okvir ne rešava problem u potpunosti, ali pomaže da se priča ispriča oslobođena svih trivijalnosti i prenese suština, što je često poslednji korak do uspešnog projekta. Prozor se pažljivo usmerava i slika polako otkriva. To je nešto što treba vežbati, kao i pisanje i struktuiranje koda.