Mojih top 5 resursa za data science – Milica Petrović

Ja sam Milica Petrović, završila sam master studije iz statistike i od 2017. radim kao data sciencist. Kao i drugi u ovoj oblasti, i ja imam neke uže teme o kojima sam dosta istraživala, čitala i učila: automatizacija praćenja kvaliteta podataka, operacionalizacija modela, itd. Međutim, umesto da delim izvore iz tih konkretnih oblasti, mislim da je daleko korisnije za mnogo veći broj ljudi da podelim neke generalne izvore preko kojih se mogu naći korisne informacije na te i mnoge druge teme. Probala sam da izaberem neke sajtove za koje mi se čini da nisu baš poznati ili uobičajeni, ali su svejedno sjajni.

Nadam se da će vam koristiti!

5.Tutorijali

Dobrih tutorijala ima gomila, i najbolje je ako imate vremena za čitave kurseve na portalima kao što su Coursera ili Udacity. Ali kad vam treba brzi tutorijal na neku temu a nemate vremena za ceo kurs, dobri sajtovi su Analytics Vidhya (konkretno tutorijali i blogovi od Prateek Joshi-ja) i kanal Sentdex na youtube-u.

4.Podaci

Za data science su najvažniji podaci (ovo je 4. stavka na listi samo zato što je prvo mesto zauzeto jednim još zanimljivijim resursom vezanim za podatke). Neki generalni poznati resursi korisni za sve su UCI Machine Learning Repository, The World Bank Data i srpski zvanični Portal otvorenih podataka. Jedan manje poznat koji je meni bio vrlo koristan je Data World Na kraju par čisto zabavnih izvora: janeaustenr, paket koji sadrži cele romane Džejn Ostin i može se koristiti za analizu teksta, i Panic! at the dataset, set koji se sastoji od tekstova pesama benda Panic! at the disco obeleženih za sentiment analysis.

3.Edukativni blog

Kada pokušavam da naučim ili razumem nešto vezano za mašinsko učenje, kratka pretraga me često odvede na sajtove poput Medium-a (konkretno Towards Data Science), koji ponekad ima odlične tekstove korisne kao uvod u neku temu, ili Stack Overflow, ako imam neko konkretno pitanje (usput, SO takođe ima i svoj kul newsletter, The Overflow). Međutim, na oba ta sajta tekstove i objave piše gomila različitih ljudi. Ako treba izabrati jednog čoveka koji je sam napisao mnoštvo odličnih tekstova na razne tema iz te oblasti, to bi za mene bio Jason Brownlee sa svojim sajtom Machine Learning Mastery. Kod njega sam prvi put uspela da razumem kako funkcionišu u teoriji i praktično neuralne mreže sa više različitih ulaznih slojeva. Taj i drugi tekstovi na njegovom blogu služe kao odlični uvodi, objašnjenja i smernice. Ja gomilu njegovih tekstova imam u sačuvanim linkovima za kad mi opet zatrebaju.

2.Liste resursa

Ovo sada deluje kao inception ili listception, ali za mene je bilo fantastično otkriće. Github, osim za deljenje open-source koda, često služi i za pravljenje lista resursa na određenu temu. Za mene su od ogromne pomoći bile lista resursa posvećenih sažimanju teksta, lista naučnih članaka o sažimanju teksta, lista resursa o sentence & word embedding modelima, lista otvorenih setova tekstualnih podataka za NLP i lista resursa o intepretiranju i objašnjavanju modela, jer sam se tim konkretnim temama bavila. Ali ako guglate “github curated lists” ili liste na neku određenu temu koja vas zanima, naći ćete sjajne i vrlo opširne liste.

1.Newsletter

Internet je prepun raznih nedeljnih biltena, od kojih se skoro svi bave najnovijim otkrićima ili primenama veštačke inteligencije u raznim oblastima. Ali ja znam samo za jedan koji se bavi samim podacima: Data is plural. Nekome su neki podaci bili potrebni i/ili zanimljivi pa ih je sakupio, strukturirao i objavio da budu dostupni svima. O takvim malim i nepoznatim setovima nas izveštava ovaj newsletter koji sastavlja Jeremy Singer-Vine.

Bonus: Za one koje zanima igranje tekstom, konkretno imenima, ovo je super zabavan blog: Give your kids futuristic names with a neural network!

Beyond Tomorrow: Vreme je za akciju – ali kakvu?

Kada danas nekome postavite pitanje ima li plan za sutra, po odgovoru koji dobijete možete veoma lako da prepoznate koliki je kapacitet vašeg sagovornika. I u doba velikih neizvesnosti, poput ove svetske koju je donela pandemija virusa korona, veliki ljudi i biznisi znaju šta im je činiti „dan posle sutra“. I dok smo se svi proletos naglo probudili iz „zimskog sna“ kada se svet oko nas promenio i naterao nas na brzu reakciju, za one najuspešnije među nama došlo je vreme za – akciju.

Posle više od pola godine života u novim uslovima, svima je jasno da su se stvari promenile i da će se i dalje menjati – samo je pitanje kako da mi iz toga izvučemo najbolje. 

Virtuelna konferencija Beyond Tomorrow koju organizuje SAS od 23. do 25. novembra pokušaće da pronađe odgovor na ključno pitanje – šta će biti „dan posle sutra“, kako bi biznisi mogli da se prilagode novim okolnostima i iz njih izađu.

Beyond Tomorrow

Prvi dan konferencije, 23. novembar je posvećen data science-u. Tog dana će svi ljubitelji nauke o podacima imati priliku da se upoznaju sa primerima iz prakse kako SAS može da pomogne u pretvaranju ogromne količine podataka u korisno znanje.

To znanje moglo bi da dobije potpuno novo značenje kada se iskombinuje sa razmišljanjima čoveka koji je ekspert za pitanja kuda se kreće ljudsko društvo i kakva ga budućnost čeka. Ričard van Hojdonk uveliko razmišlja o tome kako tehnologija utiče na naše živote i posebno na procese u poslovanju. Na njegovoj analizi radi tim od petnaest specijalista iz različitih oblasti – robotike, dronova, nezavisnih transportnih sistema, Internet of Things, virtuelne realnosti.

Kada nas van Hojdonk razbudi, a svakako je krajnje vreme za buđenje sa temom „Dobrodošli u novu budućnost, novu realnost“, otkrićemo kako izgleda kada se spoje SAS i Open Source. Ovaj dan biće posvećen i učenju, pa će biti ispunjen sesijama sa naučnicima, edukatorima i onima koji znanja već primenjuju.

Drugi dan konferencije, 24. novembar, posvećen je industrijama bankarstva, osiguranja, telekomunikacija i prodaje, dok je treći dan, 25. novembar rezervisan za diskusije o upravljanju kompanijama uz neočekivane promene tržišta, kao i kako ih savladati.

Pri registraciji možete da odaberete sesije kojima želite da prisustvujete. Kreiranje ličnog programa u kome će se naći teme koje vas najviše interesuju pokazaće da nam je cilj da budemo efikasni, odaberemo ključne podatke i primenimo ih u praksi – baš kao što to sa velikim bazama podataka rade alati SAS-a.

Uostalom, i naš odgovor za „dan posle sutra“ je baš takav – na osnovu znanja i veština, sami ga kreiramo. U našim je rukama.

Link za besplatnu registraciju je ovde.

Agilno i Nauka o Podacima (Data Science) kao savršen spoj

Kako sam se pre par meseci upoznala sa manifestom agilne metodologije – vrednostima i principima, najzanimljivije mi je bilo da razmišljam o njegovoj primeni u Data Science projektima. 

Ideja je vrlo jednostavna. Međutim, duboko sam ubeđena da svaka od vrednosti ima i drugu stranu, jer ono što je primenljivo u jednom kontekstu, u drugom pak nije, ne donosi istu vrednost.

Agilni manifest, kao korak napred u odnosu na tradicinalne metodologije, kao što je model vodopada, treba da omogući smanjenje jaza u komunikaciji koji postoje između klijenta i vendora. Istovremeno, treba da odgovori i na sve brži razvoj novih tehnologija i sve ćešće promene u inicijalnim zahtevima, koji nastaju kao posledica dinamike rada, digitalizacije i konkurentnog tržišta.

Podsetimo se agilnih vrednosti kroz prizmu Data Science-a. 

Pojedinci i interakcije ispred procesa i alata

U Data Science-u, interakcije su ključne tokom razumevanja i definisanja problema, odnosno izvlačenja maksimalne vrednosti na osnovu analize. Jako je bitno zadržati kritički um i ukazivati na nepravilnosti. Neki uvidi često navode na promenu smera i rešavanje stvari koje nisu bile definisane projektom, što ponekad podrazumeva da se ode i van procesa. Sa druge strane, ograničavanje analitike na određene alate i tehnologije može da rezultuje okrnjenom analizom i neupotrebljivim uvidima. U ovakvim projektima održavanje sprinta može biti izazov zbog prirode samog naučnog istraživačkog procesa, ali je dobro imati ritam koji omogućava da se evaluira progres. 

Primenljiv softver ispred detaljne dokumentacije

Ovo je možda vrednost o kojoj može najviše da se diskutuje kroz prizmu Data Science-a. Imati primenljiv softver i isporučiti rešenje je jako važno, međutim pisanje detaljne dokumentacije i objašnjenja na koji način su podaci uzorkovani i pripremljeni, koji modeli su i zašto korišćeni, šta stoji iza tih modela i kako tumačiti dobijene rezultate, kakve su očekivane performanse – sve ovo je jako važno detaljno razdraditi kako bi se osim isporučenog rešenja osigurala i njegova upotrebna vrednost. Dodatno, kako ulazimo u eru veštačke inteligencije, transparentnost i objašnjivost algoritama i načina korišćenja podataka su neophodni kako bi se obezbedila etička primena, a to ne može da se postigne bez odgovarajuće metodologije dokumentovanja rešenja. 

Saradnja sa klijentima ispred ugovornih aranžmana

Kao i u svakom razvoju rešenja, imati dobru saradnju sa klijentima je preduslov za sve. U Data Science-u je ovo jako bitno, što kroz razumevanje domena kroz interakciju sa klijentom, što kroz tumačenje i testiranje rešenja koje se isporučuje, od strane klijenta. Budući da je specifična oblast, jako je važno uspostaviti saradnju sa klijentom koja podrazumeva ulaganje zajedničkih napora kako bi se kreiralo rešenje koje će imati upotrebnu vrednost – najćešće vrednost rešenja direktno zavisi od znanja koje čuči kod domenskih eksperata. 

Reakcija na promenu ispred pridržavanja plana

U ovome se agilno i Data Science najviše poklapaju. Čest je slučaj da se kao rezultat analize probudi neka nova ideja o budućim koracima, unapređenju ili prilagođavanju postojećeg plana. Zato je potrebno biti agilan i ne pridržavati se slepo definisanog plana, kako bi se uspešno odgovorilo na ovakve zahteve. Plan jeste jako bitan, ali zastareva i postaje neupotrebljiv kako se ciljevi redefinišu i menjaju.  

Da budem dovoljno jasna – to što su agilno i Data Science, kako sam ih već okarakterisala – “savršen spoj”, ne znači da u realizaciji dovode uvek do savršenog ishoda, već agilno dozvoljava Data Scientist-ima da se posvete istraživanju, da u zavisnosti od toka analize i  izvučenih uvida menjaju smer kretanja i redefinišu ciljeve i da usko sarađuju sa klijentima u pokušajima da pronađu rešenje. 

Ako se govori o agilnim principima (onih čuvenih dvanaest), velike su šanse da će se svaki Data Scientist/Developer na prvu loptu složiti sa svakim od njih. To i jeste lepota agilnih principa – definisani su tako, da se mogu uspešno primeniti u većini projekata. Treba reći da postoje i neki principi koji jesu diskutabilni – kao što je princip koji govori da najbolja arhitektura, zahtevi i dizajn dolaze od samo-organizujućih timova. Ja verujem u ovo. Ali jedan jako važan preduslov za ovo je način na koji su ti timovi sačinjeni. Ukoliko u tom timu nisu ljudi koje krasi inovativnost, “growth mindset”, autonomija i odgovornost – vrlo verovatno će ova ideja pasti u vodu. Prosto, najčešće se desi da su timovi napravljeni “kako mora” i ponekad je evidentno da timu fali lider koji će ga voditi. 

Mogla bih ovako o svakom principu ponaosob, ali zadržaću se samo na ovom, a dopustiti vama da porazmislite o dobrim i lošim stranama svakog (ili situacijama kada bi neki princip mogao biti osporen).

Međutim, postoji nekoliko (ozbiljnijih) problema, koji mogu da se pojave kao posledica ovog spoja, a to su:

  • loše i šturo (ili čak nikakvo) dokumentovanje procesa istraživanja, jer je fokus na uvidima i rezultatima, što može predstavljati problem ukoliko neko drugi treba da se uključi u proces;
  • jako česte promene zahteva mogu da odvedu analizu u potpuno drugom smeru, te je zbog toga teško definisati kriterijume za prihvatanje rešenja i vremenske rokove – ponekad proces razvoja nekog modula oduzme i više meseci (nepotrebno);
  • klijenti nemaju uvek razumevanja za mršave rezultate prediktivnih modela, što onda utiče na komunikaciju i kvalitet saradnje;
  • klijenti često veruju da je Data Science magično oružje koje će rešiti sve njihove poslovne probleme – što opet utiće na komunikaciju, kvalitet saradnje i praktičnu upotrebu rešenja, ali vodi i do neostvarenih očekivanja;
  • Data Scientist-i često imaju problem sa osećanjem velikog pritiska – njihovo rešenje teško je opredmetiti, a kada se opredmeti, kritično je zavisno od  ulaznih podataka, na koje oni ne mogu da utiču;
  • komunikacije na dnevnom nivou mogu da budu demotivišuće, jer često se desi da na nekim Data Science zadacima nema značajnog progresa nekoliko dana uzastopno, gde se ideja čestih i inkrementalnih pomeraja gubi.

Bilo kako bilo, najbitnije je prepoznati u kom trenutku napraviti optimalan balans između agilnih vrednosti i onoga što je potrebno timu. U nastavku možete naći par iskustvenih saveta kako to može uspešno da se uradi:

  • neka timovi budu kros-funkcionalni, jako je bitno da tim okuplja pojedince različitih veština, kako bi mogao da iznese projekat od početka do kraja. Treba voditi računa o tome da tim ne bude ni premali ili preveliki (5-6 članova po timu je optimalno);
  • kako bi se pratio pogres, a obezbedila kontinuirana i inkrementalna isporuka, najbolje je raditi u sprintovima, gde je svakome jasno na kojim zadacima radi u svakom sprintu, i šta se očekuje na kraju sprinta (sprintovi od dve nedelje su u Data Science-u sasvim korektan period u kome je moguće ostvarivati progres);
  • potrudite se da i na projektima istraživanja i razvoja (R&D) imate inkrementalni progres. U suprotnom će ti projekti trajati celu večnost, i izgubiti upotrebnu vrednost. Definišite očekivanja od svake faze istraživanja, kako biste po potrebi znali kada da presečete i počnete sa ulaganjem napora u nešto korisnije;
  • biti agilan ne znači biti haotičan. Ovo je klopka u koju se jako lako upada. U redu je da dinamički odgovarate na novonastalu situaciju, međutim nepromišljeno delanje brzo vodi ka haotičnoj realizaciji, što uzrokuje kontra efekte, a to nije ideja agilne metodologije.

Budući da je Data Science tako šarenolik, u zavisnosti od toga šta podrazumeva Data Science projekat na kome radite, mogućnost primene agilnih metoda će se razlikovati od jednog do drugog projekta. Ukoliko radite na razvoju proizvoda, Data Science u tom smislu postaje niša softverskog inženjerstva, gde se primena agilnih metodologija i scrum-a pokazuju kao jako korisne. Sa druge strane, ukoliko radite na jednokratnim  projektima ili rešenjima primena može biti mnogo blaža i smislena samo u određenim fazama. Najbitnije je prepoznati koje su to dobre strane koje biste mogli da iskoristite, kako biste unapredili svoj način rada i postigli najbolje moguće rezultate. Drugim rečima, možete primeniti agilni način razmišljanja u vašim Data Science projektima, a da ne morate bukvalno primenjivati agilnu i scrum metodologiju.

Autor : Valentina ĐorđevićHead of Data Science u kompaniji Things Solver

DSC Croatia 2020 je uskoro tu! I sada je BESPLATNA!

Prva ikada – DSC Croatia 2020 – održaće se 2. jula. Tema ovog jednodnevnog događaja će biti Deep Learning & AI. DSC Croatia će se održati virtualno, putem Zoom platforme, dok će oficijalni jezik konferencije biti engleski.

DSC Croatia 2020 Program & Raspored:

Tokom događaja imaćete priliku da slušate 6 kvalitetnih govora.

  • Peter Morgan, iz Deep Learning Partnership, sa kojim će biti organizovan Fireside Chat na temu Quantum Computing & Generalnoj veštačkoj inteligenciji;
  • Sray Agarwal, iz Publicis Sapient, koji će pričati o Etici i AI;
  • Jan Stedul, iz Mindsmiths, koji će  više reći o tome kako izgleda praviti AI proizvod tokom korona krize na primeru Andrija.ai;
  • Nemanja Micovic, iz Nordeusa, koji će pričati o primeni Computer Vision na javnim kamerama u saobraćaju;
  • Petar Zecevic, iz SV Group, koji će pričati o primeni Data Science & AI u astronomiji;

Pored govora, očekuju vas i 2 Data Diskusije.

U diskusiji ”How to start an AI Startup?” panelisti će biti Hajdi Cenan, Filip Panjevic i Darko Jovisic. Pričaće o tome kako se pokreće AI startup, kako izgleda proces od ideja do realizacije AI Startup-a, gde mogu da se pronađu finansije za takav poduhvat i koje su naučene lekcije.

U diskusiji ”AI Monetization” panelisti će biti Tomislav Krizan, Ana-Marija Petric i Filip Jekic. Tu ćete imati priliku da čujete kako izgleda razvoj AI proizvoda, kako uspešno monetizovati AI i koje su ključne prepreke zbog kojih nema više AI u produkciji. 

Ukoliko vam ovo zvuči dobro, pogledajte na  https://croatia.datasciconference.com/schedule/ više informacija o rasporedu.

Ukoliko želite da se prijavite, to možete učiniti na https://croatia.datasciconference.com/ 

Stručna praksa za studente Ekonomskog fakulteta u Subotici

Stručna praksa za studente Ekonomskog fakulteta u Subotici, Departman za poslovnu informatiku i kvantitativne metode.

stručna praksa

Ekonomski fakultet u Subotici, Departman za poslovnu informatiku i kvantitativne metode želi da obezbedi praksu za svoje studente, tokom letnjih meseci.

U pitanju su studenti III godine koji uspešno rade u nekoliko programskih jezika, a imaju i dodatne kompetencije kao što su:

  • osnovni poslovni procesi u SAP-u
  • programiranje (C, C#, Java, Java Script, Python)
  • razvoj web softverskih rešenja u integrisanim razvojnim okruženjima (MS Visual Studio za backend rešenja)
  • veb dizajn i veb programiranje (HTML5, CSS3, JS za frontend rešenja, razvojno okruženje NetBeans)
  • analiza i dizajn (UML dijagramiranje, ER modelovanje)
  • rad sa podacima (SQL Server, MongoDB)
  • testiranje i raspoređivanje softvera (Selenium IDE, Selenium Web Driver-Java)
  • agilno upravljanje projektima (Scrum kroz Microsoft TFS alat)
  • digitalni marketing (WordPress + Woocommerce, Google analitika, Facebook Business Manager, Google Tag Manager)
  • upravljanje komunikacijom u organizaciji (Microsoft Teams alat)
  • osnove Python-a i text mining-a
  • analiza sadržaja weba i društvenih medija (Web Sphinx, Weka, Web Log Explorer)
  • digitalna transformacija
  • osnove računovodstva i kontrolinga
  • osnove poslovnih finansija
  • upravljanje ljudskim resursima (HRM)
  • upravljanje inovacijama (Design Thinking) 

Ideja je da kompanije definišu poziciju/e na kojima bi studenti mogli da se angažuju. U obzir dolazi i online praksa. Fakultet će biti zadužen za pregled prijava od strane kompanija i povezivanje sa studentima koji se najbolje uklapaju u otvorene pozicije. Period u kom studenti treba da realizuju praksu je tokom letnjeg raspusta od 13. jula  do 1. septembra. Dužina i način realizacije prakse je potpuno na kompanijama, kao i nastavak saradnje sa praktikantom nakon prakse. 

Ukoliko ste u mogućnosti da studentima ponudite praksu, u skladu sa opisom, molimo vas da popunite sledeći upitnik NA LINKU i na taj način prijavite kompaniju i poziciju za koju imate otvoreno mesto za letnju praksu za ove studente.