Hortonworks, Cloudera, IBM …

Posle malo duže pauze nastavljamo sa novim tekstovima. Izvinjavam se zbog nepisanja, ali to je zbog nedostatka vremena, koje je delom utrošeno i na poboljšanje ovog bloga. Naime, u narednom periodu možete očekivati neke novitete, za koje se nadam da mogu da poboljšaju Big Data scenu u našem regionu. Ovaj tekst će biti posvećen tome kako da izaberete izvor instalacije Hadoop-a. Kao što ste do sada verovatno primetili iz mojih tekstova, moj izbor je Hortonworks i potrudiću se da objasnim zašto. Naravno, pomenuću i druge Hadoop platforme.

Apache

Prvo Apache, mesto gde se razvija Hadoop i većina alata iz njegovog ekosistema. Apache sajt je odličan izvor dokumentacije za Hadoop i ostale alate. Moja prva instalacija Hadoop-a je bila odrađena u skladu sa uputstvima Apache Hadoop sajta. Zašto je ovo dobro, a zašto možda ne? Očigledna prednost je da je Apache fondacija mesto gde se razvija Hadoop. Inače, Hadoop razvija zajednica, ali Apache je telo koje koordiniše svim poslovima u vezi razvoja. Zašto ja ne koristim Hadoop direktno od Apache-a? Kao prvo, može da bude zamorno ako želite da napravite ekosistem od više alata, što bi značilo da morate sve ručno. To i ne znači nužno loše, ali opet smatram da ako možete da uštedite vreme, onda to i treba da uradite. Sa druge strane, ostali, nazovimo ih “distributeri Hadoop-a”, obično grade skup alata koji se koriste u produkciji i postavili su neke standarde, zna se koji su neizbežni alati u jednom ozbiljnom poslovnom okruženju i obično to dobijete. Predlažem da koristite dokumentaciju sa Apache sajtova kao standard, tu ćete naći gotovo sve što vam treba veznao za tehnološki aspekt Hadoop-a i ostalih alata iz ekosistema.

Hortonworks

Prvi put sam se susreo sa Hortonworks-om februara 2014. godine i moram da priznam da mi je prvi izbor bila Clouder-a, ali to se promenilo. Razlozi za to su: cena, alati, mogućnosti, dokumentacija… Mislim da sam poslednjih nedelja imao nekoliko pitanja zašto radim sa HDP-om, odnosno Hortonworks Data Platfom-om. Na prvom mestu je cena. Enterprise verzija HDP-a je besplatna i open source je, što je velika prednost. Pomalo sam bio skeptičan, ali za ovih nepunih godinu dana nisam se pokajao što sam se fokusirao na HDP. Hortonworks je tvorac YARN-a, što je omogućilo razvoj nekih novih alata i poboljšanje postojećih. Samo jedan primer je Tez engine koji radi na YARN-u i omogućio je razvoj Hive-a na jedan sasvim novi nivo, ali to je opširnija priča koju ostavljam za kasnije. Za one koji se ne snalaze na Linux-u, Hortonworks nudi Hadoop za Windows server. Veliki broj firmi ima Windows servere, zašto bi to menjali? Sajt Hortonworks-a je prepun odlične dokumentacije i treninga sa kojma možete da počnete vaše Hadoop putovanje. Neke od ovih stvari nude i ostali distrubuteri, ali moje mišljenje je da Hortonworks jača zbog YARN-a. Možda grešim, ali brojke pokazuju da je Hortonworks najozbiljniji Hadoop igrač trenutno. Na njihovom sajtu možete naći HDP Sandbox i probati Hadoop na vašem računaru. Još jedna stvar zbog koje često posećujem Hortonworks sajt je to da nisu samo orjentisani na tehnološki aspekat Hadoop-a, već možete naći tekstove o tome kako da primenite Hadoop u nekoj industriji. ResearchLepo je znati kodirati, poznavati Hadoop do srži, ali na kraju treba to negde implementirati i nekome prodati. Verovatno se neko neće složiti sa ovim, ali moje dosadašnje iskustvo je pokazlo da na kraju svi pitaju da li može da se zaradi od toga. Takođe, tu je Modern Data Architecture koja odlično pokazuje kako uklopiti HDP sa ostatkom poslovnog sistema. Moram da vam preporučim i Hortonworks webinar-e koji su odlični i naravno njihov blog. Mogao bih još da vam pišem, ali posetite njihov sajt, probajte HDP i proverite sami da li vam Hortonworks odgovara.

IBM, Cloudera, MapR…

Osim Hortonworks-a, tu su i drugi igrači na tržištu. Prvo da pomenem Clouder-u. Ukoliko se ne varam, oni su prvi počeli. Tvorac Hadoop-a, Cutting, radi u ovoj kompaniji. Razlika u odnosu na HDP je u alatima i naravno ceni. Nisam detaljno testirao njihovo rešenje, ali koliko pratim Hadoop tržište, oni su jako ozbiljni učesnici. Ako neko radi sa Cloudera rešenjima, voleo bih da mi se javi da razmenimo iskustva.

IBM rešenje je ono koje planiram da istražim u narednom periodu. Razlog za to je što je IBM vlasnik SPSS alata, koji je onima koji se bave statistikom jako poznat. Isto tako, IBM ima još niz alata za koje smatram da u kombinaciji sa Hadoop-om mogu dosta da postignu. Iskreno se nadam da će biti tekstova i o tome jako brzo. Pored toga IBM je ozbiljan IT igrač na tržištu i verujem da njihova rešenja odlično rade, posebno na njihovim serverima, za koje su svi čuli.

Pored ovih Hadoop distributera, tu su MapR, Intel i naravno Microsoft i Amazon. Microsoft i Amazon nude Hadoop u Cloud-u, samo “caka” je da i HDP i Clouder-u možete da instalirate u Cloud okruženju, ali sa Microsoftom i Amazonom dobijate Hadoop kao servis. Ovo je jedna posebna priča i odlična je za neke slučajeve korišćenja, ali naravno ima i mana. Nadam se da ćete ubrzo čitati o tome na mom blogu.

Sada, kako vi da izaberete, može da bude dobro pitanje. Moj savet vam je da prvo probate Hadoop sa Apache sajta, pa sedeći korak može da vam bude HDP Sandbox i Cloudera ekvivalent. Probajte i jedno i drugo, to će vam olakšati izbor. Najiskrenije mislim da tako treba početi i da IBM i neko od Cloud rešenja ostavite za kasnije. Razlog je jednostavn – da biste radili sa Hadoop-om što bolje morate da “osetite“ tehnologiju. Na primer, MS HDInsigts (Microsoft Hadoop) je zatvoren, nećete imati šansu da vidite “ispod haube“, dok sa druge strane instalirajte Hadoop sa Apache sajta ili HDP i imaćete šansu da pogrešite i na taj način najbolje naučite. Nemojte se plašiti grešaka, testirajte do maksimuma, menjajte konfiguracije kako biste dobili optimalno rešenje, pa tek pređite na nešto “lakše”. Naravno, ne morate da me poslušate, ali to je moj savet. Nastavljamo dalje da hadupujemo sa novim tekstovima i očekujte nešto novo na blogu.