My top 5 data science recommendations – Alexey Grigorev

Alexey Grigorev is a Lead Data Scientist at OLX. He is also a founder of @DataTalksClub. Author of Machine Learning Bookcamp. He likes writing about machine learning, software engineering, and career.

5.DataTalks.Club 

Slack community of aspiring and experienced data professionals. Join it to talk about data! https://datatalks.club/slack.html

4.Data Science interview questions

https://github.com/alexeygrigorev/data-science-interviews

3.Getting a data science job guide

https://www.youtube.com/watch?v=jYYR1fH8k7o

2.Standing out as a data scientist

https://www.youtube.com/watch?v=Sb4CJlonB3c

1.Great book for software engineers interested in data engineering and distributed system — “designing data intensive applications”

A few tips:

  • Go to Kaggle to build your portfolio. The position in the competition doesn’t matter as long as you learn something new
  • Share what you learn. Write articles, put your code to GitHub. Be active on LinkedIn and Twitter.

Mojih top 5 data science preporuka – Srđan Šantić

Data Science je interesantna oblast, i sa dobrim razlozima mnogi žele da uđu u nju. Ima jako mnogo resursa – skoro je jedna moja prijateljica postovala link za listu preko 400 AI kurseva, od univerzitetskih, do MOOC-ova, od besplatnih, do jako skupih. Ako Vas ne plaši paradoks izbora, svakako je pogledajte.

Ovaj post se ne bavi tim. Ovaj post se bavim onim što je neophodno znati, a što ovi kursevi ne pokrivaju. Bilo koji tip Data Scientist-a da želite da budete, morate ove stvari naučiti.

Značajan deo skillseta jednog Data Scientist-a je programiranje. I ono je jako bitno. Što ste bolji programer, to ćete ili lakše raditi posao koji Vam je zadat, ili ćete biti produktivniji i moći više rezultata da isporučite.

Ovde ću navesti stvari koje su bitne, i izvore koje smatram bitnim.

1.Linux i komandna linija

Full disclosure: ja sam Data Science i programiranje učio na Windows kompjuteru. I verujem da sam ih dobro naučio. I dalje koristim Windows na svom ličnom računaru, i volim ga.

Ali Linux se more znati. Mora. Ne kažem da treba da znate da postavljate Linux servere i administrirate ih, naravno da ne. Ali morate znati da koristite neku Linux distribuciju, i znati da koristite komandnu liniju. Ima više razloga. Gde god da odete da radite, imaćete Linux mašinu. Zatim, komandna linija ima jako mnogo korisnih alata, koji će Vam olakšati život.

Takođe, bilo radili na productu ili u konsultantskoj firmi, imaćete klijente. Klijenti će Vam davati remote pristup svojim mašinama. Verujte, na mašinama će biti Linux. I to ćete ga koristiti kroz komandnu liniju. Takođe, nećete znati šta je na njemu instalirano, i šta će Vam biti dozvoljeno da dodatno instalirate.

Evo jedne priče. Napisao sam Pajton skriptu koja je nešto radila. U pitanju je bio mali in-house alat koji se koristi kroz komandnu liniju. Naravno, primao je neke argumente. Koristio je argparse modul, kao što i treba, jer je uveden još u (pokojnom) Pajtonu 2.7. I ne lezi vraže – mašina na kojoj je trebalo da je koristim je imala Pajton 2.6. Apgrejd nije dolazio u obzir. Eto problema.

(Inače, ako pišete nekad u Pajtonu alate za komandnu liniju, pogledajte i colorama paket.)

Preporučujem Ubuntu distribuciju. Lako se instalira, ima lep vizuelni interfejs, i puuuno podrške onlajn. Mada ako preferirate neku drugu, svejedno je – većina alata su isti i dolaze sa distribucijom, ili se mogu lako instalirati. 

Za učenje Linuxa kao takvog, ima odličnih izvora – knjiga, na primer. Ali ima i odličnih kurseva.

Ovaj kurs pokriva mnoge, vrlo bitne, stvari vezane za komandnu liniju. Jeste time investment – ima 11 predavanja od po sat vremena. Ali kad razmislite, to je 11 dana po sat vremena dnevno. Takođe pokriva i, za Linux okruženje, neke stvari o kojima ćemo dalje pričati u ovom postu.

I naravno, nećete koristiti običan terminal za komandnu liniju, već moderan.

2.Git

Za Git i GitHub ste, verujem, čuli. Jedno je softver za kontrolisanje verzije koda koji ste napisali, drugi je repozitorijum za kod. Ovaj workflow je, u najjednostavnijem, dobar bekap za kod koji ste napisali. U naprednijem slučaju, daje Vam mogućnost uvida u prethodne iteracije koda – poređenje sa onim što ste već pisali, tako da piši-briši pristup kodiranju postaje robustniji. U praksi, koristi se za kolaborativno programiranje, i daje mogućnost rađenja revizije koda, što je u najmanju ruku odličan način za učenje na poslu.

Preporučujem jedan odličan kurs sa Coursere, koji Vas uči od početaka, do kolaborativnog rada. Ono što je kod njega jako zgodno je što ima duplirana predavanja, u smislu da ima predavanja koja pokrivaju i korišćenje Gita kroz komandnu liniju, a i korišćenje kroz Sourcetree. Sourcetree je odličan vizuelni korisnički interfejs za učenje i korišćenje Git-a. Ali Vi ga, naravno, nećete koristiti, jer ste već naučili komandnu liniju.

3.Data Science jeste softver

Priznajem, ukrao sam naslov ove sekcije iz tutorijala koji ću ovde linkovati, i kroz koji treba da prođete. Prikazuje nekw dobre programerske prakse koje treba ispoštovati, ili makar njima težiti.

Jedna od njih je dobra projektna struktura. Naime, u kursevima koje pohađate najčešće nemate mnogo fajlova. Ali kada zaista radite neki projekat, ima ih, i to bogami poprilično. Možda ste dobro organizovani, pa ćete smisliti neku lepu strukturu. But why reinvent the wheel? Mnogo pametniji i iskusniji ljudi od nas su osmislili projektne strukture koje su dobre. Za Dejta Sajens, tu je fenomenalni Cookiecutter Data Science.

Anaconda distribucija za Pajton je odličan način da se počne. Ali 95% paketa koje sa njom dolaze Vam nikada neće trebati. Možete instalirati Pajton od nule, i instalirati pakete po potrebi. Tako svakako rade R korisnici. Ali opet će se desiti da imate puno paketa na svojoj lokalnoj mašini. Kada pokrećete novi projekat, to je problem. Želite da, kada budete distribuirali svoj projekat, njegovi krajnji korisnici moraju da instaliraju samo pakete koji su neophodni. Tu Vam u pomoć dolaze Pajton virtuelna okruženja, koja svakako trebate koristiti.

Analize i modeliranje koje radite treba da budu što reproducibilniji. Kod koji se ponavlja treba izvući u funkcije. Skupovi funkcija treba da budu izvučeni u module. Kad imate skup modula – eto Vam sopstvenog paketa. E sad, analize i modeliranje imaju neku logičnu strukturu, i treba da se izvrše nekim redosledom. To je dobro automatizovati, i za to ima lepih alata.

Da ponovim, ovo je sve pokriveno u gore navedenom tutorijalu, kao i još ponešto.

4.Radno okruženje

Radno okruženje, ili što bi se reklo Integrated Development Environment, je jako bitno. Ima ih raznih. Najjednostavnija varijanta je da koristit neki lep tekstualni editor za početak. Kada budete baš napredni, ili Dejta Sajentist tipa B, možete koristiti nešto ozbiljnije.

U poslednje vreme, Visual Studio Code je postao jako popularan. Zgodno je što već dolazi sa dobrim Pajton plaginovima, tako da ga možete koristiti skoro out-of-the-box.

Ja sam se lično navikao na Sublime Text. Sa adekvatnim plaginovima, on postaje odličan IDE.

Naravno, ako ste R korisnik, koristićete Rstudio, i nećete nikada razmišljati ni o čemu drugom. 

5.Testiranje, debagovanje, logovanje i tehnički dug

Poduži naslov, priznajem. Ali ne zna se koja je stvar bitnija.

Što više budete pratili dobre programerske prakse, to ćete više apstrahovati svoj kod u funkcije. Funkcije imaju efekte. I nekad ne rade kako treba isprva. Zato za kod moraju da se pišu testovi. To je programerima odavno poznati i široko prihvaćeno, ali kod Dejta Sajentista nije.

Za početak, da Vas uvede u testiranje, imamo fenomenalnog Neda Batcheldera. On je tu da Vas nauči osnove testiranja, a kada ih naučite, koristićete PyTest paket u praksi. Posle ovoga, pogledajte još jedno predavanje sa PajKona. Ovde ćete naučiti o fenomenalnom hypothesis paketu za automatsko generisanje primera za testiranje. 

Kad pišete kod, naravno da on neće raditi uvek dobro. Onda morate da ga debagujete. Najjednostavnije je uneti print stejtmente, pa onda besomučno menjati kod i testirati. Ali ima boljih načina. O njima detaljno u ovom tutorijalu, kao i u ovom predavanju.

Logovanje je malo dosadnija, ali neophodna tema. Potrebno je imati način za praćenje šta je vaš kod sve uradio, i za to se koristi logovanje. Za analizu logova (a radićete je poprilično), koristite fenomenalni lnav.

Poslednja tema, tehnički dug, mi ne bi pala napamet da mi skoro jedna koleginica nije spomenula da će, u pauzi između Nove godine i Božića, raditi na otplaćivanju tehničkog duga. To me podsetilo intervjua koji sam imao za jednu, vrlo standarnu, Dejta Sajens poziciju, kada me menadžer pitao kako bih otplatio tehnički dug. Iznenađen pitanjem, nekako sam formulisao odgovor baziran na onome što sam naučio u ovom predavanju.

Honorable mention: SQL

Neki kažu da SQL nije pravo programiranje jer je deklarativan jezik – Vi kažete šta Vam treba, a on sam osmisli kako će do rezultata doći. Drugi kažu da je SQL lak. Ovo drugo me posebno nervira, jer je u pitanju najčešće Daning-Krugerov efekat – ljudi koji daju takve izjave nisu svesni koliko malo znaju. SQL ima mnogo mogućnosti, i mnogo naprednih funkcionalnosti.

SQL treba da naučite, dobro. On je lingua franca rada sa podacima. Bilo da ste Dejta Analitičar, Dejta Sajentist, ili Dejta Inženjer, on je neophodan. On je ono što multidisciplinarnim, i multijezičnim timovima daje najmanji zajednički sadržalac za rad. Drugo, podaci danas, po pravilu, žive u bazama podataka, pogotovo kod većih klijenata.

Ima mnogo resursa za njegovo učenje, a meni se njaviše sviđa ova knjiga, kao i prateći GitHub repozitorijum, sa podacima iz nje sa kojima možete vežbati. Jako je interesantno napisana, kao roman. Prati priču jedne Dejta Sajentistkinje, kojoj je data baza podataka, i neki zadaci, i kako ona radeći uči SQL, od početnih stvari, do naprednih. Sjajna je, i vredi kupovine.

Kada naučite SQL dobro, proverite svoje znanje ovde.

Srđan Šantić je ekonomista, koji se već 14 godina bavi podacima. U duši je edukator. Sve što je naučio o Dejta Sajensu, kao i o životu, naučio je, nažalost, na teži način.

Mojih top 5 data science preporuka – Željana Grbović

Ja sam Željana Grbović. Završila sam osnovne i master studije na Fakultetu tehničkih nauka u Novom Sadu. Trenutno sam na trećoj godini doktorskih studija na departmanu za Energetiku, elektroniku i telekomunikacije, usmerenje obrada signala, na istom fakultetu. Radim kao istraživač na Institutu BioSens, najviše na obradi različitih modliteta slika: rgb, termalne, hiperspektralne sa raziličitih vrsta senzora (kamere, dronovi, sateliti) sa primenom mašinskog učenja i deep learning tehnika u poljoprivredi sa ciljem predikcije prinosa, procene biomase ili detekcije bolesti. 

Evo nekih saveta i linkova gde možete usvojiti znanja iz ove oblasti. 

Prvo, kao zagovornik kvalitetnih online kurseva, koji su svoju pravu ekspanziju postigli tokom ove pandemije, tu su standardni sajtovi Coursera, Udacity, edX i Stanford Online, gde se mogu naučiti i osnove, ali i proširiti znanja iz oblasti koja vas zanima. Osim toga kao istraživač mogu da kažem, da je pregled literature nešto osnovno, i od izuzetne važnosti kako bi se stekao uvid u aktuelno stanje u oblasti.

5.Challenges

S obzirom da sam inženjer po struci, praktične stvari i taskovi su me oduvek najviše motivisali da najbrže napredujem i učim. Pa shodno, tome preporuka je fokusirati se na jedan dataset i rešavanje konkretnog problema, kroz koji se uči razvoju ideje i načinu razmišljanja koji vodi do krajnjeg rešenja, ali i teorijskim i praktičnim znanjima. Na nekim čelendžima sam i sama učestvovala i osvajala nagrade sa kolegama sa fakulteta i posla, pa eto još jedna dodatna motivacija. 

Neki od čelendža: IEEE Signal Processing Cup, Inspire Challenge, AGRICULTURE-VISION: CHALLENGES & OPPORTUNITIES FOR COMPUTER VISION IN AGRICULTURE, Kaggle. Bar za neke, verujem da su mnogi od Vas čuli, ili su se i takmičili.

4.Podaci

Podaci su postali veoma bitan resurs u IT industriji na globalnom nivou, i osnovna su veza na osnovu  koje mašinsko učenje i veštačka inteligencija imaju upliv u sad već skoro svaku granu industrije. Čak je i Google otvorio – Dataset Search – gde možete pronaći dostupne podatke.

3.AlphaSignal

Kao istraživač, zanimljiva mi je pretraga literature i naučnih radova, pa ova web aplikacija koja rangira naučne radove i obaveštava na nedeljnom nivou o najnovijim objavljenim radovima na osnovu oblasti koje čekirate da ste zainteresovani, je super stvar.

2.TensorFlow PlayGround

Interaktivna web aplikacija koja omogućava korisnicima da testiraju AI algoritme koristeći TensorFlow biblioteke za mašinsko učenje kroz browser. Moguće je kreirati jednostavne modele neuronskih mreža, puštati eksperimente i analizirati dobijene rezultate.

1.Google Colab 

Sjajno online okruženje koje omogućava korisnicima da proizvoljno pišu i pokreću svoje skripte i kodove pisane u Python-u kroz browser. Ono što bih izdvojila kao najveće benfite korišćenja ovakvog web-framework-a je što nema potrebe za konfiguracijom i podešavanjima biblioteka, pristup grafičkim karticama za izvršavanje koda (GPU) i jednostavna razmena i zajednički pristup skriptama.

***Bonus: Quick, Draw!

Zanimljiva online igrica koja zahteva od korisnika da nacrta zadati objekat, i koristi neuronsku mrežu kako bi pogodio šta je nacrtano. Algoritam se doobučava svakim crtanjem, povećavajući robusnost i generalizaciju modela, i verovatnoću za tačno prepoznavanje. Zanimljiv način i jednostavan način da vidite primenu neuronske mreže.

Mojih top 5 data science preporuka – Marko Jevremović

U raznim mogućim klasifikacijama (klasterizacijama?) koje se mogu naći za Data Science, Marko Jevremović se već dugo bavi podacima kao Product Data Scientist. Za poslednjih 8 godina od kad radi u Nordeusu imao je prilike da radi na zaista širokom spektru problema, ali mu je najzabavnije lansiranje nove igre.

Zamolili smo ga da prođe kroz svoje bookmarkove i sa nama podeli 5 preporuka.

1. Staro zlato

Gledano iz ove perspektive, kada se svakodnevno pojavljuju novi tutorijali, kursevi i blogovi, potpuno mi je neverovatno odsustvo istih u periodu mojih početaka, kako u Data Science-u, tako i u gejming industriji. Ipak, te, sada, na neki način, davne 2013. godine izašao je blog pod nazivom The 10 Commandments of Mobile App Analytics koji je napisao Erik Bendžamin Sojfert, čovek koga svakako treba pratiti ukoliko se bavite marketingom i / ili analitikama mobilnih aplikacija.

Nebrojano puta sam se vraćao na ovu listu sa uvidima u njenu ispravnost. “Zapovesti” su jasne i zdravorazumske, iako smo svi mi i previše često u iskušenju da se ogrešimo o njih. Analogija uspela, reklo bi se. Od kad je ovaj blog napisan Python 2 je penzionizan, ja sam naučio Juliju i promenio tehnologiju infrastrukture podataka nekoliko puta, ali i dalje preporučujem ovaj tekst. Čekam još koju godinu i mogu otvoreno da ga svrstam u klasike. U ovoj industriji je 10 godina dovoljan test vremena.

2. Log

Kada sam prvi put pročitao ovaj blog, potpuno me je oduvao. U pitanju je The Log: What every software engineer should know about real-time data’s unifying abstraction. Bavio sam se dosta i nekim tehničkim detaljima infrastrukture za podatke i siguran sam da ljudima koji nisu išli dublje od čitanja podataka iz baze ovo neće biti podjednako zanimljivo. S druge strane, u međuvremenu je Kafka postala standard u svetu Big Data, a infrastruktura koja je opisana je postala prototip iz kog se izvode konkretne varijacije. Korisno je imati neku predstavu o tome kako rade ovakvi sistemi. Meni je jako pomoglo da bolje dizajniram event-ove za prikupljanje podataka.

3. Statistika je ne samo lažljiva, već i pokvarena

Statistika je glavni alat nekoga ko se bavi Data Science-om. Neizbežna. Koliko dobro poznajemo alat koji koristimo?

Nekad se čini kao da je statistika zla sestra matematike. Dok je matematika prikupila razne uzvišene, kraljevske, epitete, statistika kao da oslikava ono najgore u nama. Čuveno “postoje laži, proklete laži i statistika” već postaje deo pop-kulture, a taj citat koji je prerastao u meme kao da reflektuje nešto dublje što se odvija poslednjih godina. Five ways to fix statistics je jedna od mnogih ozbiljnih priča na temu problema u statistici i korišćenja statistike.

Rekao bih da je ovo tema koja će tek dobiti na zamahu narednih godina. Bajesijanska statistika se sve više koristi, a pojavljuju se i novi metodi kauzalnog zaključivanja koji sa sobom donose moćnije alate za preispitivanje načina na koji koristimo podatke. Tek dolaze generacije koje će moći efikasno da se služe tim alatima i cenim da će to dovesti do novih standarda u korišćenju statistike u svim naukama koje se oslanjaju na istu, uključujući i Data Science, naravno.

4. Ti i tvoje istraživanje, od Ričarda Haminga

Originalni naslov You and Your Research, by Richard Hamming. Da, u pitanju je onaj Haming. Tekst je transkript govora koji je održao 1986. i to je, sasvim moguće, jedan od najboljih govora za koje niste čuli. Čak i ako nemate ambiciju da jednog dana dobijete Nobelovu nagradu, ovde možete naći više nego primenljive savete.

Upoznao sam jako puno inteligentnih ljudi, talentovanih u bilo kom pogledu. Na žalost, ljudi često misle da je to dovoljno, da je dar nekako uspeh. Haming je u Bel Laboratorijama bio suočen sa činjenicom da od svih tih darovitih ljudi samo šačica uspe da uradi nešto veliko i veoma metodično je pokušao da otkrije šta pravi razliku, a zatim je ideje isprobao na sebi. Uz malo slobodnije shvatanje pojedinih rečenica, ovaj govor je jedan od najboljih saveta kako da bilo ko učini najviše što može sa svojim darom.

U nekom užem smislu, ovo je svakako puno jako dobrih saveta za svakog ko se rutinski bavi nekakvim istraživačkim radom, što uključuje i Data Science. Za početak, uvek treba imati neki projekat sa strane, za zadovoljavanje ideje nastale iz intuicije i strasti za otkrivanjem. Tako se i uči i jača intuicija i zadovoljava neka duboka potreba koju imamo svi koji se bavimo ovim poslom.

5. Pisanje kao prozor u svet

Sve što se nađe, napravi, uradi, treba preneti drugima. Komunikacija je poslednja stepenica koju jedan Data Scientist treba da pređe i često se na njoj spotakne. Često slušam (i čitam) diskusije o tome koji jezik treba učiti, koji je bolji, brži, efikasniji za koji posao? Retko se bavimo jezikom koji koristimo u komunikaciji sa ljudima, za razliku od ovih kojima komuniciramo sa mašinama. Maternji, ili, najčešće, engleski nam treba za tu poslenju stepenicu. Svakako, dobra vizualizacija će pomoći. Slika govori hiljadu reči. Problem je što nekad nije očigledno kojih tačno hiljadu reči. Zato sliku treba da prate i reči, priča koja će pomoći nekome da za 6 minuta shvati ono na čemu ste radili 6 nedelja.

U ovom predavanju, Linguistics, Style and Writting in 21st century, Stiven Pinker izlaže zaista sjajnu ideju o pisanju kao prozoru u svet. Veliki problem u komunikaciji nastaje i zato što neko ko je nešto saznao ili naučio ne može više lako da zamisli osobu koja to ne zna.

Kada gledamo film ne vidimo gomile ljudi i tehnike koji stoje oko glumaca, ne pratimo svaki detalj života glavnog lika. Ovakav okvir ne rešava problem u potpunosti, ali pomaže da se priča ispriča oslobođena svih trivijalnosti i prenese suština, što je često poslednji korak do uspešnog projekta. Prozor se pažljivo usmerava i slika polako otkriva. To je nešto što treba vežbati, kao i pisanje i struktuiranje koda.

Mojih top 5 resursa za data science – Milica Petrović

Ja sam Milica Petrović, završila sam master studije iz statistike i od 2017. radim kao data sciencist. Kao i drugi u ovoj oblasti, i ja imam neke uže teme o kojima sam dosta istraživala, čitala i učila: automatizacija praćenja kvaliteta podataka, operacionalizacija modela, itd. Međutim, umesto da delim izvore iz tih konkretnih oblasti, mislim da je daleko korisnije za mnogo veći broj ljudi da podelim neke generalne izvore preko kojih se mogu naći korisne informacije na te i mnoge druge teme. Probala sam da izaberem neke sajtove za koje mi se čini da nisu baš poznati ili uobičajeni, ali su svejedno sjajni.

Nadam se da će vam koristiti!

5.Tutorijali

Dobrih tutorijala ima gomila, i najbolje je ako imate vremena za čitave kurseve na portalima kao što su Coursera ili Udacity. Ali kad vam treba brzi tutorijal na neku temu a nemate vremena za ceo kurs, dobri sajtovi su Analytics Vidhya (konkretno tutorijali i blogovi od Prateek Joshi-ja) i kanal Sentdex na youtube-u.

4.Podaci

Za data science su najvažniji podaci (ovo je 4. stavka na listi samo zato što je prvo mesto zauzeto jednim još zanimljivijim resursom vezanim za podatke). Neki generalni poznati resursi korisni za sve su UCI Machine Learning Repository, The World Bank Data i srpski zvanični Portal otvorenih podataka. Jedan manje poznat koji je meni bio vrlo koristan je Data World Na kraju par čisto zabavnih izvora: janeaustenr, paket koji sadrži cele romane Džejn Ostin i može se koristiti za analizu teksta, i Panic! at the dataset, set koji se sastoji od tekstova pesama benda Panic! at the disco obeleženih za sentiment analysis.

3.Edukativni blog

Kada pokušavam da naučim ili razumem nešto vezano za mašinsko učenje, kratka pretraga me često odvede na sajtove poput Medium-a (konkretno Towards Data Science), koji ponekad ima odlične tekstove korisne kao uvod u neku temu, ili Stack Overflow, ako imam neko konkretno pitanje (usput, SO takođe ima i svoj kul newsletter, The Overflow). Međutim, na oba ta sajta tekstove i objave piše gomila različitih ljudi. Ako treba izabrati jednog čoveka koji je sam napisao mnoštvo odličnih tekstova na razne tema iz te oblasti, to bi za mene bio Jason Brownlee sa svojim sajtom Machine Learning Mastery. Kod njega sam prvi put uspela da razumem kako funkcionišu u teoriji i praktično neuralne mreže sa više različitih ulaznih slojeva. Taj i drugi tekstovi na njegovom blogu služe kao odlični uvodi, objašnjenja i smernice. Ja gomilu njegovih tekstova imam u sačuvanim linkovima za kad mi opet zatrebaju.

2.Liste resursa

Ovo sada deluje kao inception ili listception, ali za mene je bilo fantastično otkriće. Github, osim za deljenje open-source koda, često služi i za pravljenje lista resursa na određenu temu. Za mene su od ogromne pomoći bile lista resursa posvećenih sažimanju teksta, lista naučnih članaka o sažimanju teksta, lista resursa o sentence & word embedding modelima, lista otvorenih setova tekstualnih podataka za NLP i lista resursa o intepretiranju i objašnjavanju modela, jer sam se tim konkretnim temama bavila. Ali ako guglate “github curated lists” ili liste na neku određenu temu koja vas zanima, naći ćete sjajne i vrlo opširne liste.

1.Newsletter

Internet je prepun raznih nedeljnih biltena, od kojih se skoro svi bave najnovijim otkrićima ili primenama veštačke inteligencije u raznim oblastima. Ali ja znam samo za jedan koji se bavi samim podacima: Data is plural. Nekome su neki podaci bili potrebni i/ili zanimljivi pa ih je sakupio, strukturirao i objavio da budu dostupni svima. O takvim malim i nepoznatim setovima nas izveštava ovaj newsletter koji sastavlja Jeremy Singer-Vine.

Bonus: Za one koje zanima igranje tekstom, konkretno imenima, ovo je super zabavan blog: Give your kids futuristic names with a neural network!