Upravljanje tokom obrade podataka koristeći Apache Airflow

Upravljanje radnim tokovima postalo je uobičajena potreba većine kompanija koje automatizuju svoje procese obrade podataka. Ovi procesi moraju se izvoditi prema rasporedu i obično imaju skup zavisnosti od drugih procesa. Uvek postoji jednostavni cron job za početak rada. Sledeći korak napred su skripte koje pokreću druge skripte i to može da funkcioniše na kratko vreme. Zatim se pojavljuju jednostavni alati za rešavanje problema poput skladištenja statusa ovih procesa i njihovih zavisnosti. Obično ova rešenja rastu reaktivno, ali ne omogućavaju jednostavno skaliranje.

Đorđe Marjanović – data engineer u kompaniji Content Insights, na Data Science Srbija Webinaru, održanom 23. aprila, govorio je o upravljanju tokom obrade podataka koristeći Apache Airflow.

Fokus ove prezentacije je Apache Airflow platforma za kreiranje, izvršavanje i monitoring tokovima radnih procesa. Ovaj open-source alat omogućava beskonačno skaliranje i koriste ga kompanije kao što su Airbnb, Google, Lyft, PayPal i dr. U januaru 2019. godine proglašen je za Top-Level projekat Apache Software Foundation. Cilj prezentacije je da se slušaoci upoznaju sa ovim alatom, njegovim mogućnostima i načinom funkcionisanja. Đorđe nam je pokazao i kako firma Content Insights koristi Airflow.