Osvrt na OptData Spring School u Novom Sadu

Fakultet tehničkih nauka u Novom Sadu je od 13. do 17. marta bio domaćin vrlo interesantnog događaja pod nazivom Spring School on Optimization and Data Science koji smo pre nekog vremena već najavili na našem sajtu. Lokalni organizator je bila grupa profesora sa FTN, uz pomoć nekoliko evropskih institucija i u okviru COST projekta.

Read more

Fakultet za Data Science u Srbiji (prvi deo – ETF)

Jedini cilj ovog teksta je odgovor na pitanja – da li u Srbiji postoji fakultet za data science i kakvo je formalno obrazovanje u ovoj oblasti? Istraživanje ove teme će obuhvatiti sve relevantne fakultete u Srbiji i analizirati nastavne programe na osnovnim i master studijama. Ako fakultet za data science ne postoji, kako odgovoriti na potrebe kompanija iz ove oblasti? Read more

Vizualizacija rezultata

Pored svog znanja koje je potrebno za uspešnu implementaciju Hadoop-a još nešto je jako bitno, a to je vizualizacija rezultata obrade podataka ili prikaz informacija na adekvatan način. Ovo je jako bitno kako bi donosioci odluka u firmama, koji ne poznaju detalje Hadoop-a, mogli valjano da pročitaju rezultate i u odnosu na njih donose odluke.

Iskren da budem nisam puno zalazio u ovaj deo problematike, ali mogu da opišem neka rešenja koja sam na kratko testirao i neke ideje koje još uvek realizujem. Razmišljao sam da li uopšte da pišem tekst na ovu temu, ali kako vreme odmiče shvatam da je jako bitno i prikazati rezultate, pogotovo onima koji su na pozicijama sa kojih se donose odluke. Njima je bitniji rezultat nego neki tamo Flume ili Hive kod, što je i logično.

Vizualizacija rezultataPostoje dva puta koja vode do valjane vizualizacije podataka koji su prethodno obrađeni Hadoop-om, odnosno nekim alatom iz Hadoop ekositema. Prvi je neko besplatno rešenje, a drugi, naravno, ono koje se plaća. Postoje razlike između ova dva rešenja, i jedno i drugo imaju mane i prednosti. Sigurno besplatno rešenje zvuči primamljivo jer ne moramo da izdvojimo novac za njega, ali druga strana medalje je da je obično teže održavati i koristiti takav alat. Nešto što sam lično probao bio je D3.js. Nisam puno koristio ovu Java Script biblioteku, ali je poslužila za nekoliko prezentacija. Prednost je što je potpuno besplatna i nudi gotovo sve što vam je potrebno za vizualizaciju. Mana korišćenja je, bar u mom slučaju, to što pored svega što sam radio morao sam malo da se udubim i u kod Java Scripta, što nije naivno, a nije ni baš ni srodno sa Hadoop alatima. Možda je u sistemima koji mogu da priušte i stručnjaka samo za ovu tehnologiju lakše, ali meni ne. Za test je sasvim u redu i ako imate vremena da se “igrate” sa D3. Drugi put kojim možete da krenete je da platite neko rešenje. Alati koji se ističu su Tableau, naravno Microsoft alati za vizualizaciju i BI. Možda je pogrešno reći ističu, to zavisi od sistema do sistema, iskreno, ja sam probao ova dva jer pružaju besplatan probni period. Najviše sam radio sa Microsoft alatima jer je Hortonworks partner sa Microsoftom i ima dobru podršku u vidu dodataka za integraciju HDP-a i Microsoft alata. Mogu da preporučim Office 365 uz koji dolazi Power BI koji je odličan izbor za testiranje, ali i integraciju sa Hadoop-om.

Lično ne mogu puno da pišem o ovoj temi, ali mi je bilo bitno da makar samo pomenem deo ove priče radi šire slike. Mogu da vam preporučim i dva bloga koji su odličan dodatak celoj priči. Jedan od njih je blog SQL user grupe Beograd koji možete naći ovde. Možete posetiti i neko od predavanja koja organizuju, a za koja smatrate da mogu da se povežu sa Hadoop-om. Na tom blogu sam napisao i jedan tekst pod nazivom “Hadoop i sveprisutno računarstvo” koji je kratak osvrt na predavanje koje sam tamo održao. Takođe, što se tiče vizualizacije podataka i BI preporučujem blog koji možete naći ovde. Tu su tekstovi o office 365 i još neki interesantni tekstovi.

Ovaj tekst nije bio puno vezan za Hadoop, ali sam morao i ovo makar da dotaknem. Sledeći tekstovi su nastavak o Hadoop-u, HBase-u i malo više o tome kako prikupiti podatke uz pomoć Flume-a i Sqoop-a. I moram da se izvinim zbog malo duže pauze između ovog i prethodnog teksta, ali sada nastavljamo da hadupujemo.

 

Šta je to Big Data?

Prvi tekstovi na mom blogu bili su vezani, kao što i ime bloga govori, za Hadoop. Počeo sam da nižem tekstove, dobio čitaoce i neke pozitivne komentare. Pisanje o Hadoop-u i njegovom ekosistemu ide po planu i dobijam povratne informacije da su dobri. Razmisljao sam da li će ovaj tekst biti nastavak o samom Hadoop-u, ali nije dovoljno dve rečenice napisatio o Big Data, pa smatram da sam ostao dužan. Da nije Big Data, ne bi bilo Hadoop-a, tako da će ovaj tekst biti posvećen velikoj količini podataka.

Šta je Big Data?

Big Data

Big Data

Big Data predstavlja podatake koji su one količine koja prevazilazi mogućnosti uobičajeno korišćenog softvera za  skladištenje, obradu i upravljanje podacima. Ovo bi bila neka gruba definicija. Gotovo istu ćete naći na Internetu, na svim stranicama. Big Data je kao termin nastao 2008. godine. Lično nisam pristalica ovakvih definicija, ali smatram da postojanje definicije stvara ozbiljnost i realnost samom pojmu. Na prezentacijama koje sam držao rado sam koristio ovu definiciju, ali i na Internetu sam našao jednu jako interesantnu, koja je po mom mišljenju odlična kada treba da objasnite nekom ko nije iz IT sveta šta je Big Data. Jednostavno se može reći da je Big Data sve ono što ne može da stane u Excel. Naravno ovo je nepotpuna definicija, ali za nekog ko se prvi put susreće sa ovim pojmom je razumljivija nego da se razveze čitava priča.

U poslednje vreme sve više se priča o Big Data, kako je to posao budućnosti i slično. Moje mišljenje je, mada možda i grešim, da je Big Data samo termin za mnogu širu oblast delovanja. Big Data nije nešto što obuhvata sve, nije skup svega, već je nešto novo što svaka ozbiljna firma razmatra u svom poslovanju ili treba što pre to da uradi. Big Data je novi deo slagalice koji treba uklopiti.

Dimenzije Big Data.

Big Data Dimenzije

Big Data Dimenzije

Često se spominju dimenzije Big Data. Kako tačno da znamo šta je, da li je relaciona baza od 10TB Big Data ili ne? Dimenzije daju odgovor na ovo pitanje.

Volume – velika brzina rasta količine novih podataka i čuvanje postojećih dovodi do toga da se sada skladište stotine terabajta, pa čak i mnogo više.

Variety – (raznolikost podataka) više nije dovoljno čuvati samo struktuirane podatke, već i slike, podatke sa društvenih mreža, logove, senzorske podatke…

Velocity – brzina kojom pristižu novi podaci je velika i veća je od brzine obrade podataka.

Ako neki podaci imaju ove karakteristike, onda možete reći da imate Big Data u svom sistemu. Sa razvojem inteligentnih uređaja raste i količina podataka koji oni generišu. Na primer, jedan Airbas avion za jedan prosečan let izgeneriše 1TB senzorskih podataka, koji analizom mogu da poboljšaju kvalitet samog leta ili da spreče kvarove pre nego se i dese. U principu, ako imate dovoljno resursa za skladištenje podataka, možete lako prikupiti podatke. Zamislite samo koliko podataka se izgeneriše na društvenim mrežama. Jedan test koji sam izveo je povlačenje podataka sa Twiterra. Za nekih pet sekundi rada skripte za definisane tri ključne reči dobio sam oko 10MB podataka (1min= 120MB 1h = 7GB). Ovo su nestruktuirani podaci iz kojih možete izvući dosta zaključaka, ali neću sada o tome, hteo sam samo da pokažem da je Big Data oko nas.

Često čujem da je to samo za velike firme, ali mislim da postaje realnost i za neke srednje, odnosno za one koje teže da rastu. Analizirajući stanje u našoj zemlji došao sam do zaključka da je čak i kod nas primenljivo. Neke firme su u mogućnosti da prikupe velike količine podatka, neke možda i imaju implementiran Big Data softver, a gotovo sam siguran da se prate zapadni trendovi ulaganja u nove tehnologije, da bi i neke firme već imale zavidna dostignuća.

Big Data je jako prisutna u telekomunikacijama, medicini, trgovini, proizvodnji… Takođe, mogu da potvrdim da se u Laboratoriji za elektronsko poslovanje na Fakultetu organizacionih nauka testiraju mogućnosti Big Data tehnologija. Nadam se da i ostali fakulteti bar koliko-toliko pokušavaju da spreme kadrove za ove nove izazove, kako bi bili konkurentni na tržištu.

Big Data softver.

Big Data Izvori Podataka

Big Data Izvori Podataka

Što se tiče softvera za skladištenje i obradu velikih količina podataka trenutno znam samo za Hadoop. Naravno, neke firme poput IBM-a i HP-a su uzele delove Hadoopa i stvorile svoje platforme, ali koliko sam upoznat Hadoop i neka Hadoop filozofija se provlače svuda. Ove godine su održane i dve velike Hadoop konferencije, tako da može da se kaže da je Hadoop postao de fakto standard kao softver za Big Data. Naravno, tu je Google od koga je sve krenulo, ali njihov softver nije za upotrebu od strane drugih kompanija.

Prednosti i nedostaci.

Šta su prednosti uvođenja Big Data u poslovanje? Smatram da mogućnost samog predviđanja i posedovanja vrednih informacija pre svih je nešto što je danas vrednije od novca. Kao što je to prednost, javlja se i nedostatak na strani običnih ljudi, čiji se podaci sakupljaju u Data centrima raznih firmi. Postoji primer u SAD-u, kompanija Target je stalno slala šesnaestogodišnjoj devojci ponude za opremu za bebe i slično, što je zasmetalo njenom ocu koji je tužioTarget. Ispostavilo se da je devojka stvarno trudna, da je Target sistem sa preporuku odradio svoj posao. Posle toga otac je morao javno da se izvini. Ovo je jedan pomalo zastrašujući primer korišćenja Big Data. Postavlja se i pitanje etike u ovim slučajevima. Lično mislim da je korišćenje Big Data u prodaji i marketingu interesantno sa aspekta etike – sa jedne strane da li želimo da sve znaju o nama, a sa druge bolje da me bombarduju reklamama za ono što me interesuje, nego svime (ako imate Facebook, posmatrajte šta vam nude reklame, uporedite u odnosu na ono što pretražujete dok koristite Facebook). Naravno nije Big Data zlo, možda avion sa stotinu putnika ne padne u okean baš zbog Big Data ili se spreči ekološka katastrofa na bušotini nafte. Mislim da Big Data i softver za Big Data pružaju ogromne mogućnosti i da je sve na onima koji ih koriste.

Big Data

Big Data

 

Kako je Hadoop vezan za Big Data, tako postoji još tema o tehnologijama koje nisu Big Data tehnologije, ali imaju vezu sa njom. S vremena na vreme biće tekstova i o tome, naravno primarni ostaju Hadoop i Hadoop ekosistem. Trudim se da stvorim širu sliku i da do trenutka kada počnem da pišem neke naprednije stvari stvorim uvod u Hadoop. Znam kako je teško početi baviti se ovim, zato pokušavam da pomognem svima koje to interesuje, pa za sve koji su zainteresovani Hadoop Srbija je mesto okupljanja. Sa znanjem koje trenutno posedujem pomoćiću koliko mogu. Nadam se da interesovanje za Hadoop-om u Srbiji i regionu raste i da će jednog dana nastati zajednica ljudi koji su zainteresovani ili se bave ovim. Ja sam tu da i dalje hadupujemo. Sledeći tekst je o primeni Hadoop-a.