Šta Hadoop nije

Pre nego što počnem da pišem, moram da se pohvalim. Razlog za to je nova kategorija na blogu – Big Data u organizaciji. Tekstove će pisati Jelena, pa bih iskoristio priliku da poželim dobrodošlicu. Nadam se da će podeliti dosta iskustava sa nama i da će vam njeni tekstovi biti zanimljivi i korisni. Ukoliko neko želi da podeli svoja iskustva na blogu ili ima problema vezanih za Hadoop i Big Data, neka se javi. Još jedna odlična stvar koja će uskoro “ugledati svetlost dana” je blog o IoT-u. Kolega koji se bavi ovom oblašću je rešio da podeli sa nama svoja iskustva. Pomažem mu u tom poslu i očekujem jednu dugu i uspešnu saradnju.

Sada da se vratim na Hadoop. Pre nego što sam napisao ovaj tekst, mislio sam da će na red doći teme o Hadoop-u u Srbiji ili planiranju Hadoop klastera. Međutim, istržujući, shvatio sam da treba još malo da pojasnim šta je Hadoop, odnosno u ovom slučaju šta nije.

Da li je Hadoop jedan kompletan proizvod?

Ne, Hadoop nije jedinstven proizvod. Kao što znate, na mom blogu postoji kategorija Hadoop i Apache projekti. Hadoop je ekosistem. Kada sam počinjao da pišem blog i proučavam Hadoop, nisam znao mnogo alata koji su sastavni deo Hadoop-a ili se dodaju na isti. Možda sam znao za nekoliko, a danas ne možete da zamislite Hadoop okruženje bez Pig-a, Flume-a, Hive-a i drugih. Hadoop se stalno razvija i menja. Većina vas koji me redovno pratite ovo već znate.

Hadoop je besplatan?

Hadoop jeste besplatan, ali da li firmu koja ga uvodi to oslobađa troškova koji prate ovu tehnologiju? Naravno da ne. Inicijalno gledano, nemate troškove za Hadoop i ostale alate, ali neki distributeri naplaćuju svoja Hadoop rešenja. Treba platiti ljude koji će raditi i implementirati Hadoop. Ovi poslovi su van naše zemlje dobro plaćeni i nadam se da će uskoro i kod nas to postati realnost, zato učite na vreme.

Da li treba da znam programiranje da bih se bavio/la Hadoop-om?

Ne morate biti programer. Većina alata ne zahteva znanje programiranja. Moje iskustvo i mišljenje je  da je makar konceptualno poznavanje programiranja potrebno. Gledano od strane firme, u zavisnosti od tipa projekta biće potreban programer u Hadoop, odnosno Big Data timu. Osim toga, većina standardnih alata ima odličan GUI koji menja kompleksno kodiranje Map Reduce poslova jednostavnim kodovima.

Big Data može bez Hadoop-a?

Oko ovoga postoje razna mišljenja. Smatram da je Hadoop postao standard za Big Data tehnologije i možda jedini odgovara zahtevima za KOLIČINOM PODATAKA, BRZINOM PODATAKA i RAZNOLIKOŠĆU PODATAKA (3V). Sve velike kompanije nude Hadoop kao deo Big Data rešenja. Smatram da, ako neko ponudi alat koji može samo jedno od ovog, ili dva, onda to nije u potpunosti Big Data rešenje. Često posećujem predavanja SQL user grupe u Beogradu i dosta ih je posvećeno tome kako SQL Server može da obradi velike količine podataka. Zbog toga sam razmišljao da li je i to Big Data alat. Ako pogledamo Big Data definiciju, ne izgleda da jeste. Smatram da je to alat koji može da obradi velike količine podataka veoma brzo. Šta je sa nestruktuiranim podacima? SQL Server je izuzetno moćan alat i Hadoop treba kombinovati sa ovom i sličnim tehnologijama. Prava moć nekog rešenja leži u skupu vama potrebnih alata. Siguran sam da, ako bismo prevodili Big Data na srpski jezik, prevod ne bi bio “velika količina podataka”. Neka me ispravi neko ako grešim, ali cenim da ako nemate Hadoop u sistemu, onda nemate pravi Big Data problem.

Hadoop je baza podataka?

Naravno da nije. Neću to ni da objašnjavam detaljnije, jednostavno Hadoop ne poseduje osobine baze podataka. Možete iskoristiti Hadoop da napravite sistem baze podataka, ako imate HBase, na primer. Hadoop nije ni predviđen da zameni baze podataka, pre služi da se kombinuje sa njima i da izvuče maksimum iz jedne i druge tehnologije.

Smatram da pored tehničkog znanja Hadoop-a, treba poznavati dobro i Big Data koncept. Svakim danom možete naučiti nešto novo. Dobar primer za to su Big Data dimenzije. Kada sam pisao prvi tekst o Big Data konceptu, opisao sam tri ključne dimenzije i čuo sam za još jednu. Skoro sam našao podatak o 13V, koji ću verovatno i opisati ovde. Sve u svemu, za sva pitanja šta je i šta nije Hadoop uvek možete da mi se obratite, pa da prodiskutujemo i pomognemo jedni drugima. Nastavljam i dalje da pišem, čekaju nas tekstovi o nekim novim i interesantnim alatima, o tome ko sve radi Hadoop u Srbiji… Još jednom da napomenem da svako koga zanima Hadoop i Big Data može slobodno da se javi kako bismo ojačali Hadoop priču u našoj zemlji. Hajde da hadupujemo zajedno!