Primena Hadoop-a

Gotovo svi prethodni tekstovi su bili o tome šta je Hadoop, kako radi i bilo je dosta reči o drugim alatima iz ekosistema. Ovaj tekst je posvećen primeni Hadoop-a u praksi, odnosno osvrnuću se na to gde možete da koristite ili ne koristite Hadoop i ostale alate.

Oblasti primene Hadoop-a.

Što se tiče primene Hadoop-a, veliki je spektar oblasti gde ova tehnologija može da unapredi poslovanje i poveća profit. Najčešće se koristi u sledećim oblastima: finansije, marketing, prodaja, proizvodnja, zdravstvo…

U finansijama, usled sve više podataka, Hadoop je logičan izbor. Koristi se za sprerčavanje prevara, to je samo jedan primer za koji sam ja lično čuo i koji razumem kako je implementiran, mada ima još primena, ali nisam puno ulazio u ovu oblast. Isto tako, na Internetu se sve više pojavljuju primeri u zdravstvu i genetici, ali trenutno nisam dovoljno potkovan znanjem kako i na koji način se koristi. Pod ovim mislim da ne znam konkretne primere. Jako zanimljiva oblast primene su marketing i prodaja, jer sa porastom aktivnosti na društvenim mrežama sve je više podataka koji mogu da se iskoriste. Skoro sam testirao prikupljanje podataka sa Twitter-a i veoma je interesantno koliko se podataka može pokupiti. Pametnom obradom ovakvih podataka i njihovim pretvaranjem u informacije generiše se jaka konkurentska prednost i mogućnost da se proda više.

MDA1

Meni jako interesantna oblast primene Hadoop-a jeste proizvodnja, mada se može reći i industrija. Sa automatizacijom proizvodnje javila se i veća količina podataka koja se može pametno iskoristiti. Na primer, ako imate postrojenje nalik na naftnoj bušotini, moguće je prikupljati podatke sa senzora koji generišu te mašine. Ti podaci, pravilnom obradom, mogu da se iskoriste da se predvide kvarovi mašina i možda tako spreči katastrofa, a sigurno i smanji rizik od zaustavljanja proizvodnje. Ako se svi ovi podaci ukombinuju sa geolokacijskim podacima i na kraju dodatno obrade u nekom BI alatu, dobija se odličan sistem.

Poslednjih par meseci baš i radim na primeni Hadoop-a u pametnim okruženjima, i uskoro možete očekivati tekst o tome.

Ovo su samo neki primeri gde Hadoop može da nađe svoje mesto. Naravno, ovo je samo vrh ledenog brega i kako vreme odmiče, Big Data sve više postaje aktuelna, a samim tim i Hadoop. U poslednje vreme se sve više govori o tome da ja Hadoop postao de fakto standard za Big Data, počeo je da raste i da se menja u skladu sa tržištem, tako da je mogućnost primene Hadoop-a svuda gde imate mnogo podataka koje ne možete da obradite tradicionalnim alatima.

Kada ne treba koristiti Hadoop?

Ovo pitanje je jako važno, čak je i po mom mišljenju interesantnije nego gde Hadoop može da se primeni. Pri implementaciji Hadoop-a mora se voditi računa da li je zaista potreban. Ako imate bazu podataka koja je veličine 1TB i podaci su struktuirani, onda vama ne treba Hadoop, čak i ako su podaci nestruktuirani može se naći brže rešenje od Hadoop-a. Smatram da je potrebno najviše voditi računa i planirati kakav će biti rast podataka u budućnosti. Na primer, ako neka firma ima bazu od oko 100GB i ne sakuplja podatke iz spoljne sredine, onda znači da joj Hadoop ne treba. Nije problem implementirati Hadoop i koristiti Hive za obradu podataka, ali to neće biti efikasno i biće verovatno skuplje od nekog drugog rešenja. Treba voditi računa o dimenzijama Big Data i na osnovu toga donositi odluke. Moj savet je da Hadoop nije za male količine podataka. Probao sam da radim i sa malim i sa većim količinama podataka, verujte mi, razlika je velika.

Hadoop i relacione baze.

Često čujem pitanja o tome da li je Hadoop zamena za relacione baze, čak i vidim dozu straha kod ljudi koji se duže vreme bave relacionim bazama i pravi su profesionalci u toj oblasti. Odgovor na ovo pitanje je definitivno – NE, HADOOP NIJE ZAMENA ZA RELACIONE BAZE. Mislim da se ovakva razmišljanja javljaju jer svi alati u Hadoop-u liče na tradicionalne alate za obradu podataka i da neko ko se ne bavi Hadoop-om ne može to da zaključi na prvi pogled. Moram da napomenem da je Hadoop sa relacionim bazama idealna kombinacija.

Modern data architecture.

Pomenuo sam da idelanu kombinaciju Hadoop-a i relacionih baza, prema Hortonworksu to je nešto što se zove “modern data architecture”. Šta to u stvari znači? Ako imate veliku firmu i do sada ste sakupljali podatke iz same firme i sve skladištili u relacione baze, a sada želite da sakupljate podatke iz spolje sredine (društvene mreže, senzori…) u sistem koji imate pored relacionih baza dodajete i Hadoop klaster. Sada imate odličnu kombinaciju, pokrivate sve tipove podataka koje sakupljate. Ako nemate dovoljno podataka, koristite tradicionalne metode obrade, ako imate Big Data, koristite Hadoop i u oba slučaja izlaz vam je povezan sa nekim BI alatom. Ovo je idealna kombinacija! Moje mišljenje je da u sistemu koji je ozbiljan treba podjednako da se ulaže i u Hadoop i u ostale alate. Primer sa slike mnogo bolje ilustruje ono što sam rekao.

MDA

Neki moj zaključak koji želim da podelim sa vama je da je upotreba Hadoop-a u stalnom rastu i da je sve više posla u ovoj oblasti. Pisao sam i u prošlim tekstovima, ali da ponovim – neki alat je onoliko moćan koliko ga vi pametno koristite. Upotrebite Hadoop za obradu 3MB i izgubiće te vreme ili upotrebite neki tradicionalni alat obrade za 3TB i opet ćete izgubiti vreme. Sve je na vama. Moj savet je da probate i što više da učite o Hadoop-u, jer samo tako možete da znate gde da ga upotrebite. Nadam se da sam vam još malo približio Hadoop i očekujem da nastavimo da hadupujemo zajedno!