Hvorfor vil jeg bruge tid på at Lære Spark

flying-kick-bruce-lee

Alle der er interesseret i data analytics, machine learning eller big data, har på et tidspunkt prøvet at kigge på et dataset som er så stort, at det bliver svært at arbejde med i R eller med SQL.

En løsning er at bruge Spark.

Spark er et af de hurtigst voksende big data Apache projekter, der har en memory-orienterede procceserings model, og er et af de førende distribuerede computerings frameworks til realtime analytics.
Og en af de mest attraktive ting ved det, er at det skulle være nemt at bruge. Lyder næsten som ”hitchers guide to the galaxy”

And it has the words DON’T PANIC inscribed in large friendly letters on its cover.

Det der gør Spark spændende for mit vedkommende er at man kan ”snakke” med den direkte i Python (eller Java, Scala, R og måske andre sprog også). Forstået på den måde at man kan arbejde med data i Spark som hvis det var i et list objekt, og kalde funktioner på det. det er selvfølgelig ikke epoke gørende, men normalt er distriburede computerings frameworks noget som er svært tilgængeligt.

Spark ser ud som om at det virker rigtigt godt i ”hello world” eksemplet, men i modsætning til mange “hello world” eksempler, så skalere Sparks “hello world” eksempel nemt til mange MB af data. Og hvis du arbejder videre og det bliver til GBs af data, kan Spark også blive distributede over flere maskiner.

Tænk på at hvis det skal køre hurtigt og sidder du et sted hvor der er kollegaer ikke bruger deres computers fuldt ud, så kan du lære at “Sparke”, og derved hjælpe disse maskiner udnytte deres fulde potentiale, ved at distribuere dine beregninger til også at blive udført på deres computere.

Jeg håber at lære mere om Spark i den workshoppen “intro to Apache Spark” som Artem Alievs holder.

Ses vi?

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *