Big Data met Apache Spark

podcast

In deze aflevering spreken we Hua Zhang, Java consultant bij Eonics. Naar aanleiding van zijn Hack Night over Big Data met Apache Spark stelden we hem een aantal vragen. Luister de aflevering op Spotify, bekijk op YouTube, of lees het onderstaande artikel.

In zijn vorige rol als Data Engineer maakte Hua kennis met Apache Spark. Hua: “Er waren gigantische hoeveelheden data. Dan heb ik het echt over data sets in de terabytes. Om deze op een goede manier te kunnen verwerken en bruikbare informatie uit te halen gebruikten we Apache Spark.”

Als je SQL kent kun je direct aan de slag met Spark. Hua: “SQL wordt gewoon ondersteund maar om alles uit het framework te halen gebruikten we meestal Scala. Dit is ook de taal waarin het is geschreven. Overigens kun je Apache Spark vanuit iedere taal gebruiken middels de API. In ons geval gebruikten we Java, maar heel veel verschillende talen worden ondersteund.”

Gevraagd naar de toegankelijkheid van het framework hoeft Hua niet lang na te denken. Hua: “Iedere programmeur kan er zo mee aan de slag. Het is heel gebruiksvriendelijk. Als je enige interesse hebt in big data en data engineering is mijn advies: wees niet geïntimideerd en ga er gewoon mee aan de slag! Je zult zien dat je binnen de kortste keren je weg erin zult vinden.”

Om je op weg te helpen kun je hier de presentatie van Hua bekijken. De opdrachten kun je vinden op Github. Heb je naar aanleiding van dit interview nog vragen aan Hua? Vul het onderstaande formulier in, dan neemt hij zo snel mogelijk contact met je op.