Big Data

Anbefaling af videnskablige artikler

Jeg må krybe til korset og indrømme at jeg er ikke udvikler længere, og derfor er der rigtig mange af de emner som jeg engang syntes var enormt spændende ved Goto der ikke rigtig fanger længere. Derfor var jeg glad for at se der var et deep learning spor som handler om ting jeg bruger tid på nu, nemlig data science. Specielt syntes jeg…

En snak om RavenDb

Ayende Rahien aka Oren Eini er kommet for at fortælle om RavenDb her på Goto Konference. Han fortæller at grunden til at de gik igang med at udvikle RavenDb var fordi de var trætte løse de samme trivielle problemer hver gang de tog en ny kunde. Som database optimerings eksperter havde de en lille liste af ting som de gennemgik hver gang de startede,…

Hvorfor vil jeg bruge tid på at Lære Spark

Alle der er interesseret i data analytics, machine learning eller big data, har på et tidspunkt prøvet at kigge på et dataset som er så stort, at det bliver svært at arbejde med i R eller med SQL. En løsning er at bruge Spark. Spark er et af de hurtigst voksende big data Apache projekter, der har en memory-orienterede procceserings model, og er et…

Stor skala maskinelærings til forudsigelses opgaver

Ting lyder bedre når man siger dem på engelsk, der er ikke noget at gøre, men vi skriver jo på dansk. I sidste uge var der RecSys 2014 i Californien som er en af de største recommender systems konferencer, og er værd at kigge lidt på, hvis man laver systemer som skal lave forudsigelser (predictive analysis). I det følgende vil jeg fortælle lidt om…

Side-rankering

Google-søgemaskinen er, som de fleste ved, ret berømt, du har måske oven i købet brugt den til at ankomme her – forhåbentlig lå denne post højt på resultatlisten. Alt det startede med en algoritme ved navnet PageRank, som gjorde det muligt for computere at lave rankeringer af internet-sider og ved et slag lavede internet-søgemaskiner til relevans-maskiner i stedet for store leksikale opslagsværker. Ideen bag…

Uregerlig data

Big data er over det hele, og man skal gemme så meget data som man kan, og hele tiden prøve at indsamle mere. Men hvad gør man så når man har alt det data, som er så stort at ens database spørger efter mere kaffe, hver gang man prøver at køre en forespørgsel på data, hvis din maskine ikke bare dør, og skal genstartes.…

Mere Azure Machine Learning

Jeg fik adgang til Azure Machine Learning, og har leget lidt med det! Det er sjovt og virker rigtigt nemt at gå til. Azure ML studio Jeg har fundet ud af hvordan man læser en CSV fil ind i systemet, hvordan man konvertere de indlæste data til et dataset, hvordan man fortæller systemet hvilke kolonner som er input og hvilke er output. Mine data…

Facebook developer API

Jeg er i gang med at tage endnu et online kursus som hedder DATA ANALYTICS IN R. Som navnet antyder handler det om at lave data analyser i sproget R. Den seneste opgave vi blev stillet var at indsamle alle dine facebook venners fødselsdage og prøve at undersøge hvilken måned der er fleste der har fødselsdage og hvem der har fødselsdag samme dag som…

MS Azure ML: Endnu en spiller med nem machine learning

For ikke så længe siden skrev jeg om H2O (link) , der er et nyt open source machine learning platform, som skulle gøre machine learning tilgængelig for folket. Nu har en anden platform netop meldt sig på banen, måske på en lidt større skala, eller ihvertfald med et lidt større navn bag, men ikke særlig open source. Microsoft har netop annonceret Azure ML, som…

Go To Big Analytics with H2O

Når der er nogen som siger at de har løst alle de store udfordringer i et komplekst problemområde, så bliver jeg normalt lidt skeptisk, men alligevel nysgerrig (om ikke andet bare for at finde huller i det). Så da jeg læste om en ny machine learning open source platform, begyndte jeg straks at downloade. Den bliver præsenteret som skruetrækkeren der passer på alle bigdata-skruer,…