Šta je to Big Data?

Prvi tekstovi na mom blogu bili su vezani, kao što i ime bloga govori, za Hadoop. Počeo sam da nižem tekstove, dobio čitaoce i neke pozitivne komentare. Pisanje o Hadoop-u i njegovom ekosistemu ide po planu i dobijam povratne informacije da su dobri. Razmisljao sam da li će ovaj tekst biti nastavak o samom Hadoop-u, ali nije dovoljno dve rečenice napisatio o Big Data, pa smatram da sam ostao dužan. Da nije Big Data, ne bi bilo Hadoop-a, tako da će ovaj tekst biti posvećen velikoj količini podataka.

Šta je Big Data?

Big Data

Big Data

Big Data predstavlja podatake koji su one količine koja prevazilazi mogućnosti uobičajeno korišćenog softvera za  skladištenje, obradu i upravljanje podacima. Ovo bi bila neka gruba definicija. Gotovo istu ćete naći na Internetu, na svim stranicama. Big Data je kao termin nastao 2008. godine. Lično nisam pristalica ovakvih definicija, ali smatram da postojanje definicije stvara ozbiljnost i realnost samom pojmu. Na prezentacijama koje sam držao rado sam koristio ovu definiciju, ali i na Internetu sam našao jednu jako interesantnu, koja je po mom mišljenju odlična kada treba da objasnite nekom ko nije iz IT sveta šta je Big Data. Jednostavno se može reći da je Big Data sve ono što ne može da stane u Excel. Naravno ovo je nepotpuna definicija, ali za nekog ko se prvi put susreće sa ovim pojmom je razumljivija nego da se razveze čitava priča.

U poslednje vreme sve više se priča o Big Data, kako je to posao budućnosti i slično. Moje mišljenje je, mada možda i grešim, da je Big Data samo termin za mnogu širu oblast delovanja. Big Data nije nešto što obuhvata sve, nije skup svega, već je nešto novo što svaka ozbiljna firma razmatra u svom poslovanju ili treba što pre to da uradi. Big Data je novi deo slagalice koji treba uklopiti.

Dimenzije Big Data.

Big Data Dimenzije

Big Data Dimenzije

Često se spominju dimenzije Big Data. Kako tačno da znamo šta je, da li je relaciona baza od 10TB Big Data ili ne? Dimenzije daju odgovor na ovo pitanje.

Volume – velika brzina rasta količine novih podataka i čuvanje postojećih dovodi do toga da se sada skladište stotine terabajta, pa čak i mnogo više.

Variety – (raznolikost podataka) više nije dovoljno čuvati samo struktuirane podatke, već i slike, podatke sa društvenih mreža, logove, senzorske podatke…

Velocity – brzina kojom pristižu novi podaci je velika i veća je od brzine obrade podataka.

Ako neki podaci imaju ove karakteristike, onda možete reći da imate Big Data u svom sistemu. Sa razvojem inteligentnih uređaja raste i količina podataka koji oni generišu. Na primer, jedan Airbas avion za jedan prosečan let izgeneriše 1TB senzorskih podataka, koji analizom mogu da poboljšaju kvalitet samog leta ili da spreče kvarove pre nego se i dese. U principu, ako imate dovoljno resursa za skladištenje podataka, možete lako prikupiti podatke. Zamislite samo koliko podataka se izgeneriše na društvenim mrežama. Jedan test koji sam izveo je povlačenje podataka sa Twiterra. Za nekih pet sekundi rada skripte za definisane tri ključne reči dobio sam oko 10MB podataka (1min= 120MB 1h = 7GB). Ovo su nestruktuirani podaci iz kojih možete izvući dosta zaključaka, ali neću sada o tome, hteo sam samo da pokažem da je Big Data oko nas.

Često čujem da je to samo za velike firme, ali mislim da postaje realnost i za neke srednje, odnosno za one koje teže da rastu. Analizirajući stanje u našoj zemlji došao sam do zaključka da je čak i kod nas primenljivo. Neke firme su u mogućnosti da prikupe velike količine podatka, neke možda i imaju implementiran Big Data softver, a gotovo sam siguran da se prate zapadni trendovi ulaganja u nove tehnologije, da bi i neke firme već imale zavidna dostignuća.

Big Data je jako prisutna u telekomunikacijama, medicini, trgovini, proizvodnji… Takođe, mogu da potvrdim da se u Laboratoriji za elektronsko poslovanje na Fakultetu organizacionih nauka testiraju mogućnosti Big Data tehnologija. Nadam se da i ostali fakulteti bar koliko-toliko pokušavaju da spreme kadrove za ove nove izazove, kako bi bili konkurentni na tržištu.

Big Data softver.

Big Data Izvori Podataka

Big Data Izvori Podataka

Što se tiče softvera za skladištenje i obradu velikih količina podataka trenutno znam samo za Hadoop. Naravno, neke firme poput IBM-a i HP-a su uzele delove Hadoopa i stvorile svoje platforme, ali koliko sam upoznat Hadoop i neka Hadoop filozofija se provlače svuda. Ove godine su održane i dve velike Hadoop konferencije, tako da može da se kaže da je Hadoop postao de fakto standard kao softver za Big Data. Naravno, tu je Google od koga je sve krenulo, ali njihov softver nije za upotrebu od strane drugih kompanija.

Prednosti i nedostaci.

Šta su prednosti uvođenja Big Data u poslovanje? Smatram da mogućnost samog predviđanja i posedovanja vrednih informacija pre svih je nešto što je danas vrednije od novca. Kao što je to prednost, javlja se i nedostatak na strani običnih ljudi, čiji se podaci sakupljaju u Data centrima raznih firmi. Postoji primer u SAD-u, kompanija Target je stalno slala šesnaestogodišnjoj devojci ponude za opremu za bebe i slično, što je zasmetalo njenom ocu koji je tužioTarget. Ispostavilo se da je devojka stvarno trudna, da je Target sistem sa preporuku odradio svoj posao. Posle toga otac je morao javno da se izvini. Ovo je jedan pomalo zastrašujući primer korišćenja Big Data. Postavlja se i pitanje etike u ovim slučajevima. Lično mislim da je korišćenje Big Data u prodaji i marketingu interesantno sa aspekta etike – sa jedne strane da li želimo da sve znaju o nama, a sa druge bolje da me bombarduju reklamama za ono što me interesuje, nego svime (ako imate Facebook, posmatrajte šta vam nude reklame, uporedite u odnosu na ono što pretražujete dok koristite Facebook). Naravno nije Big Data zlo, možda avion sa stotinu putnika ne padne u okean baš zbog Big Data ili se spreči ekološka katastrofa na bušotini nafte. Mislim da Big Data i softver za Big Data pružaju ogromne mogućnosti i da je sve na onima koji ih koriste.

Big Data

Big Data

 

Kako je Hadoop vezan za Big Data, tako postoji još tema o tehnologijama koje nisu Big Data tehnologije, ali imaju vezu sa njom. S vremena na vreme biće tekstova i o tome, naravno primarni ostaju Hadoop i Hadoop ekosistem. Trudim se da stvorim širu sliku i da do trenutka kada počnem da pišem neke naprednije stvari stvorim uvod u Hadoop. Znam kako je teško početi baviti se ovim, zato pokušavam da pomognem svima koje to interesuje, pa za sve koji su zainteresovani Hadoop Srbija je mesto okupljanja. Sa znanjem koje trenutno posedujem pomoćiću koliko mogu. Nadam se da interesovanje za Hadoop-om u Srbiji i regionu raste i da će jednog dana nastati zajednica ljudi koji su zainteresovani ili se bave ovim. Ja sam tu da i dalje hadupujemo. Sledeći tekst je o primeni Hadoop-a.

 

2 replies
  1. Marko Ćorić
    Marko Ćorić says:

    Poštovanje,
    Pronašao sam vašu stranicu pretražujući na Internetu pojmove vezane za Hadoop i Big Data. Na doktoratu sam i uzeo sam Big Data kao šire područje istraživanja. Htio bih pohvaliti vaše članke i podržati vas da i dalje pišete o zanimljivim povezanim temama.

    Pozdrav iz Zagreba.
    Marko

    • Darko
      Darko says:

      Hvala Marko, naravno bice jos zanimljivih tekstova. Javi mi se na mail ako mogu sta pomoci, a takodje da bih skupljao polako zajednicu oko ove teme.

Comments are closed.