Big Data

Go To Big Analytics with H2O

Når der er nogen som siger at de har løst alle de store udfordringer i et komplekst problemområde, så bliver jeg normalt lidt skeptisk, men alligevel nysgerrig (om ikke andet bare for at finde huller i det). Så da jeg læste om en ny machine learning open source platform, begyndte jeg straks at downloade. Den bliver præsenteret som skruetrækkeren der passer på alle bigdata-skruer,…

Bag om Elasticsearch: Skalering

featured

Noget der virkelig har givet NoSQL medvind er behovet for skalering; data mængder har det med at vokse. Uanset om der er tale om en lille opstartsvirksomhed med ambitioner om international succes eller blot almindelig tilvækst af data, så er der behov for at kunne skalere. Ydermere kan behovet opstå pludselig. Elasticsarch er fra starten forberedt på skalering med henholdsvis sharding og replikering; selv…

Hvad kan man egentlig bruge universitets kurser til?

Jeg har brugte nogle hektiske måneder på at prøve at balancere et arbejde og familie samtidig med at jeg har taget et kursus på KU ved navnet ”Statistical Method in Machine learning”. Kurset var fedt og jeg kan varmt anbefale det, specielt hvis du kan gå ned i arbejdstid mens det står på, for ellers er det noget af en mundfuld der kan blive…

Dmi fortæller om deres Data

IMG_2481

Inspireret af Biffen, som er en ivrig debattør på vores side, og blandt andet skrev en masse kommentar på Thereses post [Problemet med big data], skrev jeg til DMI for at høre hvordan de rent faktisk håndterede alle disse data. De var meget hjælpsomme og kom tilbage med følgende svar. Hvor meget vejr data opsamler DMI hver dag? DMI modtager dagligt i størrelsesordenen 120.000…

Problemet med Big Data

ball-of-data

Big data er hypet for tiden og selv om det dækker over noget meget nørdet, så er det et begreb som mange andre end data-nørderne interesserer sig for. Som det så ofte sker, når forskellige faggrupper interesserer sig for et begreb, så er begrebet Big Data blevet udvandet. Big Data kan betyde store serverfarme, kortlægning af et nyt stort datafelt, real-tids sensordata på mange…

Sølvpilen Big Data

gaussiandistproblem

Et tegn på at Big Data er Big kan findes i politikkens Økonomi sektion som i går brugte hele 6 sider på artikler om Big Data [blandt andet 1]. Her kan man læse at hungry.dk sammenkører deres restauratør liste med de offentlige smiley data til at sikre at ingen restauratører har en sur smiley[2]. Det beskrives som et af de få eksempler på at…

Elasticsearch – fordele og ulemper

Elasticsearch, eller?

Elasticsearch har på det seneste fået meget opmærksomhed; en del store websites som fx. SoundCloud og Foursqare bruger det, og firmaet bag modtog i februar 2013 $24 mio. i ekstra funding og lige pt. nærmer produktet sig version 1.0. Men handler Elasticsearch ikke kun om søgning? Jeg er ikke sikker på at Elasticsearch er et velvalgt navn. Det er rigtigt at produktet er eminent…

Min drøm om Big Data-forudsigelser

predict

“Det er svært at spå – især om fremtiden.” Det er min drøm engang at forudsige hændelser eller udviklinger ved hjælp af twitter. Siden vi startede vores egen virksomhed i start-2011 har det været mit fokus. Altså når fokus ikke var hverdag, kundeopgaver, overlevelse og mad på bordet. Inspirationen kommer af en videnskabelig artikel fra oktober 2010, hvor forskere mener de kan forudsige aktiemarkedet…

Alle snakker om det

balloons

Alle snakker om det, alle siger enten at de bruger det eller har en version klar, der vil udnytte de bunker af data som er konstant hober sig op i databaser omkring os. Men hvad kan det egentligt bruges til? Nogen siger ALT, andre er lidt mere skeptiske og mener at it’s being paraded around as a magic bullet, raising unrealistic expectations that will surely be…

Graphs are Sexy (and Bow-Ties are Cool)

James Chesters

Facebook’s controversial Graph Search feature has been two years in the making, and was announced live a couple of months ago. Facebook has on average one billion new posts added every day, with their posts index containing more than one trillion total posts, altogether comprising hundreds of terabytes of data. Graph Search indexes this data and returns real-time results to queries. I’m talking to…