Prediktivna Analitika nad Velikim Podacima – Osnova Personalizovane Medicine

Utorak, 10.5.2016. Milan Vukićević (Fakultet Organizacionih Nauka, Univerziteta u Beogradu) će održati predavanje na temu “ Prediktivna Analitika nad Velikim Podacima – Osnova Personalizovane Medicine“. Predavanje će biti održano u 18:00 u sali 105.

Prediktivna analitika nad Velikim Podacima je prepoznata kao  jedan od glavnih faktora razvoja medicine od Reaktivne do Personalizovane, Prediktivne i Preventivne.  Tome je doprineo trend rasta broja pacijenata od hroničnih i teških bolesti sa jedne strane i eksponencijalni rast raspoloživih podataka i razvoj skalabilnih prediktivnih metoda sa druge strane.

Međutim i pored ogromnog potencijala, jako mali broj razvijenih modela postižu zadovoljavajući nivo prediktivnih performansi. Ovo dovodi do toga da se potencijal prediktivne analitike ne koristi u praksi, s obzirom da pogrešne odluke imaju jako visoku cenu (kako sa finansijske tako i sa ljudske strane).

Na ovom predavanju će biti diskutovani izazovi koji dovode do ovih problema a koji se odnose na izazove prediktivne analitike generalno, a ne samo u medicinskim aplikacijama):

  • Heterogenost podataka – Elektronski kartoni, genetski podaci, doktorske beleske (tekst), socijalne mreže (npr. Patients like me), podaci generisani “Wearable” uređajima i senzorima itd.
  • Visoka Dimenzionalnost – skupovi podataka često imaju desetine hiljada atributa
  • Razređenost (sparsity)
  • Selekcija algoritama, optimizacija parameter i selekcija atributa.
  • Interpretabilnost Modela.

Biće predstavljena skorašnja istraživanja koja su sprovedena u okviru Centra za Poslovno odlučivanje Fakulteta Organizacionih Nauka sa posebnim naglaskom na:

  • kolaborativni razvoj prediktivnih algoritama
  • optimizaciju parametara
  • selekciju atributa,
  • Integraciju domenskog znanja i modela vođenih podacima
  • Meta učenje.

Takođe će biti predstavljena platforma za Analizu Velikih Biomedicinskih podataka, baziranoj na Big Data tehnologijama (Hadoop okruženje), kao i prediktivnim modelima razvijanih u R-u, Python-u i RapidMiner-u.

O predavaču: Milan Vukićević je docent na Fakultetu Organizacionih Nauka, Univerziteta u Beogradu. Šira oblast njegovog istraživanja je razvoj i primena prediktivnih algoritama.   Trenutno radi na projektima vezanim za prediktivnu analitiku u oblasti zdravstva, kao i razvoju algoritama za analitiku podataka “Pametnih Gradova”.

U okviru Centra za Poslovno Odlučivanje, Fakulteta Organizacionih Nauka drži kurseve na svim nivoima studija koji uključuju: Otkrivanje Zakonitosti u Podacima (eng. Data Mining), Mašinsko učenje, Sisteme Poslovne inteligencije, Teoriju odlučivanja, Skladišta podataka.

Detaljniji pregled biografije i kontakt možete pronaći na:

LinkedIn profilu

ReasearchGate profilu

Prijave na Data Science Srbija meetup grupi.

Uvod u R za Data Science: Selekcija i početak rada

Pošto su se Branko Kovač i Goran S. Milovanović suočili sa 260 (rečima: dvesta i šezdeset) mahom odličnih kandidata za kurs Uvod u R za Data Science, tek juče su uspeli da završe težak i nezahvalan posao selekcije polaznika.

Kapacitet kursa je 15 polaznika. Branko i Goran su sve prijave za kurs ocenili nezavisno i onda kroz zajedničku diskusiju o najbolje rangiranim kandidatima odabrali grupu koja će početi sa radom u Startitu u četvrtak, 28. aprila, u 19h. Svi polaznici kursa su dobili e-mail na koji treba da odgovore do utorka, 26. aprila u 12h i potvrde svoje učešće. Ko ne može da učestvuje sada biće pozvan u sledeću grupu, ali je bitno da to znamo kako bismo pozvali sledećeg dobrog kandidata da krene sa radom u četvrtak.

Svim kandidatima sa izuzetno interesantnim prijavama smo takođe pisali i obećali sledeće: kada ovaj kurs budemo imali prilike da organizujemo naredni put, nećete morati da prolazite kroz selekciju već ćete biti automatski upisani. U međuvremenu, učite R online: postoji pregršt odličnih nastavnih materijala i kurseva na Internetu. Biće nam zadovoljstvo ako ostanete u kontaktu sa nama i pokušaćemo da odgovorimo na sva vaša pitanja.

Napomena o procesu selekcije. Pre svega, javio se veliki broj profesionalaca sa višegodišnjim iskustvom u programiranju, analitici i/ili menadžmentu podacima. Naš prvi kriterijum je bio da pozovemo što više mladih ljudi koji su tek na studijama ili na samom početku profesionalne karijere, i kojima je zato kurs poput Uvoda u programski jezik R daleko potrebniji nego iskusnim analitičarima ili developerima. Molimo ove druge da razumeju tu motivaciju: ako imate iza sebe Matlab (što je za većinu nas bila škola pre R, takođe), C, Javu i sl – snaćićete se i sa učenjem još jednog programskog jezika poput R… Dalje, bili smo (donekle) popustljivi prema motivaciji da se R koristi u fundamentalnom istraživačkom radu, akademskom ili ne, i takođe, skloni da biramo kandidate koji su jasno pokazali da već znaju pravac neposrednog istraživanja baziranog na kvanitativnim podacima u kome žele da idu. Tu smo da njima pomognemo – iako uvažavamo svačiju motivaciju da se na kurs prijavi.

Nastavni materijali će uskoro biti postavljeni na stranicama Data Science zajednice Srbija: te materijale će online moći da prate svi, bez obzira da li su prošli selekciju ovaj put ili ne. Ostajemo u kontaktu.

Unapred se radujemo saradnji i pokretanju R zajednice u okviru Data Science zajednice Srbija!

 

Ispred Data Science zajednice Srbije,

 

Goran S. Milovanović & Branko Kovač,

predavači na Uvod u R za Data Science

Prijavi se za kurs Uvod u R za Data Science!

Nauči besplatno osnove baratanja podacima i rad sa osnovnim statističkim modelima u programskom jeziku R sa nama!

Zadovoljstvo nam je da vas obavestimo da Data Science zajednica Srbije u saradnji sa Startitom organizuje besplatan kurs Uvod u programski jezik R za Data Science. Poznavanje ovog programskog jezika predstavlja jednu od najvažnijih pretpostavki za rad u savremenoj Data Science, izazovnoj profesiji koja okuplja istraživače i praktičare u zajednicu za koju se globalno projektuje ogroman broj novih radnih mesta u godinama pred nama. Za učešće se možete prijaviti ovde, gde ćete, osim forme za prijavu, pronaći kratki opis kursa, kao i nekoliko kratkih uslova za učešće. Uvodni kurs počinje 28. aprila 2016, odvijaće se u dvočasovnim sesijama u prostorijama Startita svakog četvrtka, imaće deset sesija, a o prvom sastanku će polaznici biti obavešteni odmah posle završetka selekcije.

Osnovni preduslov za pohađanje kursa Uvod u R za Data Science je da imate iskustvo prethodnog programiranja u ma kom programskom jeziku koji nije isključivo deskriptivne prirode (primeri: PASCAL, C, C++, FORTRAN, BASIC, Java, JavaScript, Python… više ili manje bilo šta preko HTML i CSS). Preduslov nije da vaše iskustvo bude profesionalno niti elaborirano na bilo koji drugi način: u suštini, ako ste već upoznati sa strukturama podataka u nekim proceduralnim i/ili objektno orijentisanim programskim jezicima, elementima kontrole toka, funkcijama i sl – slobodno možete da se bacite na učenje programskog jezika R sa nama! Saznajte više ovde gde ćete naći i kratak upitnik koji će vam pomoći da odlučite da li bi vam ovaj kurs bio interesantan.

Kurs će držati Branko Kovač, Data Analyst u CUBE Risk Management Solutions i jedan od osnivača Data Science zajednice, i Dr Goran S. Milovanović, Data Scientist, DiploFoundation. Polaznici će sa Brankom proći važne osnove programiranja u R-u, dok će sa Goranom raditi na primeni osnovnih statističkih modela u R kroz studije slučaja sa konkretnim projektnim zadacima, što bliže pitanjima neposredne primene.

Za učešće se možete prijaviti ovde, gde ćete, osim forme za prijavu, pronaći kratki opis kursa, kao i nekoliko kratkih uslova za učešće. Uvodni kurs počinje 28. aprila 2016, odvijaće se u dvočasovnim sesijama u prostorijama Startita svakog četvrtka, imaće deset sesija, a o prvom sastanku će polaznici biti obavešteni odmah posle završetka selekcije.

Pridružite nam se da zavrtimo R zajednicu kod nas zajedno!

Pregled kursa

  • Uvod u programski jezik R: strukture podataka i osnove kontrole toka.

Ilustrativni pregled programskog jezika R na primerima. Upoznavanje sa radom u RStudio razvojnom okruženju. Šta sve to R može i kako ga naterati da izvede najjednostavnije trikove koje ćemo vući u Data Science? Šta je to CRAN repozitorijum R paketa, šta su uopšte R paketi i kako se instaliraju.

  • Vektori, matrice, i liste u R.

R je vektorski programski jezik, što znači da u R programiranju treba maksimalno da iskoristimo mogućnost lake i brze manipulacije vektorima i matricama. S druge strane, mnogo rada u R je bazirano na upotrebi lista. Naučićemo osnove baratanja sa ovim strukturama podataka.

  • Data frame tip, faktori, i objekti u R.

Data frame nije najjednostavniji tip podataka u R, ali za veći broj R paketa za analizu i vizuelizacije on predstavlja polaznu strukturu na koju se primenjuju bitne funkcije. Slično, faktori u R su ponekad čvrsto vezani za logiku određenih statističkih analiza i vizuelizacija. Konačno, R je objektno-orijentisan programski jezik: dakle, naučićemo više i o objektima.

  • Staviti sve to u pogon: strukture podataka + kontrola toka. Funkcije u R.

Sada već programiramo u R, učimo kako se formiraju i pozivaju funkcije, struktuiramo naš kod i spremamo se na rad u različitim R paketima. Kontrola toka je sigurno u našim rukama, lako baratamo svim osnovnim tipovima podataka kojima R raspolaže.

  • Struktuiranje podataka: manipulacija stringovima u R.

Jedna od stvari po kojima se savremena Data Science razlikuje od prethodnog rada u različitim oblastima analitike podataka je to što smo danas često primorani da se bavimo struktuiranjem nestruktuiranih ili polustruktuiranih informacija, najčešće prikupljenih sa interneta. To mahom znači puno, puno manipulacije stringovima. Uvod u upotrebu R kapaciteta i paketa za rad sa stringovima. Priča za sebe: regularni izrazi u R.

  • Korelacije i jednostavna linearna regresija u R

Na osnovu vrednosti jedne varijable, pod određenim uslovima koji moraju biti zadovoljeni, u stanju smo da predviđamo vrednost neke druge varijable. Na osnovu nečije težine, makar i neprecizno, možemo da predvidimo koliko je ta osoba visoka, ili koji broj cipela nosi. U tržišnim istraživanjima, neko može da nam naruči da na osnovu nekog raspoloživog znanja o kupcima određenog proizvoda predvidimo kako će se on prodavati. Učimo osnovni model ovakve vrste prediktivnog rada u R, model jednostavne linearne regresije.

  • Multipla regresija u R

Na osnovu poznavanja vrednosti više varijabli, pod određenim uslovima koji moraju biti zadovoljeni, u stanju smo da predviđamo vrednost neke varijable koja nije među njima. Učimo model multipla regresione analize u kome ćemo već upoznati većinu problema sa kojima se suočavamo u prediktivnom poslu u Data Science. Kako da pokušamo da predvidimo ponašanje nekoga ili nečega na osnovu prikupljenog velikog broja varijabli tj. osobina te osobe ili tog fenomena? Multipla regresija je verovatno najjednostavniji odgovor na ovo veoma komplikovano pitanje.

  • Proširenje linearnog modela u zadatku klasifikacije: binomijalna i multinomijalna logistička regresija u R

Na osnovu poznavanja toga u koju od dve kategorije neka stvar spada, pokušavamo da kažemo što više možemo o tome zbog kojih njenih osobina – kojih može biti i veliki broj – se ona nalazi baš tamo. Pošto se rešimo problema binomijalne logističke regresije u R, sažetog u prvoj rečenici, prelazimo na složeniji problem multinomijalne logističke regresije: na osnovu znanja o tome iz koje od više raspoloživih kategorija dolazi neka stvar, pokušavamo da zaključimo zbog kojih njenih osobina se ona našla baš tamo? Interesantno, jednom kada znamo koje osobine vode u koju kategoriju stvari, mi možemo da rešimo klasifikacije prethodno neklasifikovanih objekata, što je jedan od najčešćih poslova koje će Data Scientist imati.

  • Redukcija dimenzionalnosti: multidimenzionalno skaliranje u R

Postoji veliki, veliki broj osobina kojima ste opisali određeni skup objekata. Neko traži od vas da napravite pregled te vaše analize i da rezultate prikažete vizuelno što jasnije. Avaj, vi ste problem opisali preko 100 karakteristika, a ljudski vizuelni sistem trpi dve do tri dimenzije: šta sad? Redukcija dimenzionalnosti je posao sa kojim se u Data Science srećemo skoro svaki dan: kako svesti obilje karakteristika stvari na manji broj karakterstika, a izgubiti pri tom što je manje moguće korisnih informacija? Razmatramo tek jedno moguće rešenje primenom multidimenzionalnog skaliranja u programskom jeziku R.

  • Neparametrijski statistički modeli u R

Popularnost neparametrijskih statističkih metoda već duže od deceniju dobija na zamahu, zahvaljući pre svega tome što se odlikuju pretpostavkama mnogo “jeftinijim” od uobičajenih. Završavamo sa pregledom osnovnih neparametrijskih metoda u R: kada ih i zašto koristimo, i kako?

Kako unovčiti podatke?

Data Science MonetizationData Science Monetization je međunarodna konferencija koja se održava 13. i 14. aprila u zagrebačkom Hypo centru. Na konferenciji će biti reči o poslovnoj strani data science-a i mogućnostima monetizacije sve veće količine podataka kojom raspolažu kompanije.

Read more

Aprilski Meetup – Cassandra i NoSQL

Nakon sjajnog martovskog RStudio Shiny meetup-a, druženje nastavljamo u aprilu uz NoSQL i Cassandra-u.

Koliko puta ste se zapitali da li je baza koju koristite najbolja za probleme koje imate? Da li često birate baze sa kojim imate najviše iskustva?

U NoSQL svetu, izbor baze je direktno vezan za vrstu problema koje pokušavamo da rešimo. Često se dešavaju situacije da se više problema može rešiti upotrebom jedne baze, ali na duge staze efekti su loši, imajući u vidu velike količine podataka, upiti postaju spori, a aplikacioni nivo postaje veoma kompleksan.

U ovoj prezentaciji predavač će objasniti podelu NoSQL baza sa osvrtom na probleme koje pojedine vrste ovih baza najbolje rešavaju. Nakon toga, preći će na probleme koje Cassandra rešava, i objasniće njenu arhitekturu i specifičnosti. Na kraju će ukazati na česte greške koje ljudi prave kada rade sa ovom bazom, i par saveta kako ih izbeći.

Meetup će biti održan u sredu, 6. aprila od 18 časova, u Startit Centru, Savska br. 5 u Beogradu. Svoje prisustvo možete potvrditi na zvaničnoj stranici događaja.

Predavač na meetup-u će biti Nenad Božić iz kompanije SmartCat. Nenad je software inžinjer sa preko 10 godina iskustva, najviše uživa u backend programiranju uglavnom koristeći Java programski jezik. Trenutni fokus su mu distribuirani sistemi i Big Data.