Min drøm om Big Data-forudsigelser

“Det er svært at spå – især om fremtiden.”

Det er min drøm engang at forudsige hændelser eller udviklinger ved hjælp af twitter. Siden vi startede vores egen virksomhed i start-2011 har det været mit fokus. Altså når fokus ikke var hverdag, kundeopgaver, overlevelse og mad på bordet.

Inspirationen kommer af en videnskabelig artikel fra oktober 2010, hvor forskere mener de kan forudsige aktiemarkedet ud fra “public mood” som analyseret i twitterbeskeder. Siden da er artiklens metoder blevet kritiseret, men samtidig er en eller flere investeringsfonde blevet til baseret på artiklens principper. Den første investeringsfond lukkede dog efter en måned (efter sigende fordi de hellere ville bruge disse kræfter på et større marked end deres oprindelige investorer) – men det var en måned, hvor de klarede sig bedre end forventet i deres forudsigelser. Det er ikke helt usandsynligt at twitter-analyser er en del af værktøjskassen hos diverse investeringsfonde i dag i en eller anden form.

Vi startede i vores lille firma med at lave et værktøj, som kunne give os større overblik over et emnes vigtighed på de sociale medier. Resultatet blev xiive.com – en søgemaskine, som kan vise dig hvor meget et emne fylder i forhold til et andet emne på de sociale medier. Twitterdata dominerer her, fordi vi på alle platforme kun har adgang til offentlige data, og twitter er den mindst lukkede platform af dem vi har kigget på. Xiive.com kan også vise dig trendkurven fra de sidste 30 dages aktivitet på et emne.

Historien om xiive er desværre ikke helt lige til. Måneden efter launch døde min far. Vores hverdag fungerede i høj grad på grund af ham – vores kontor (og officielle adresse) var på andensalen i hans hus, selv om vi som regel sad rundt om i verden og arbejdede. Da han døde var vi tilfældigvis hjemme i en måned og det var os der fandt ham. Den næste del af vores liv blev meget kaotisk og xiive.com gled i baggrunden.

Drømmen døde dog ikke selv om vores liv var blevet vendt på hovedet. Vores nye omstændigheder krævede en del mere kapital og vi brugte det næste års tid på at få styr på livet, familien og økonomien igen. Tankerne om twitterforudsigelser levede videre i baghovedet og i samtaler med venner.

Som et af vores sideprojekter kom rouqk.com (udtales rock) til og viste at man ind imellem kan skelne trends ud fra almindeligheden – signal ud fra støjen. Rouqk.com analyserer twitters firehose (en procentdel af alle tweets) hvert 20 minut og spytter en liste af potentielle trends ud. Desværre er det nemmere at lave stopord-lister på sprog man selv forstår, så der er en del støj fra ikke-engelske tweets. Spam skal man også være fremme i skoene for at undgå, fordi det typisk har en kortvarig men voldsom aktivitet – ligesom de trends jeg leder efter.

Tanken er på sigt at forbedre Rouqk til at genkende en trend. Ikke en trend hvert 20 minut, men trends der virkelig skiller sig ud. Gerne hurtigere end 20 minutter – 20 minutter er en evighed i twitter-tid, hvis det er Boston Marathon Bombings, man genkender (eksemplet valgt, fordi jeg hørte om det via twitter ca. 5 minutter før det dukkede op på Rouqk og ca. 20 minutter før danske medier havde noget).

Noget arbejdet med Rouqk har lært mig er at man kan analysere sig frem til trends man ikke vidste eksisterede (siger noget om bias i data eller mangel på samme). Om lørdagen lærer jeg fodboldudtryk og det er tydeligt i data, når der er Superbowl eller bare større sportsevents. Justin Bieber og diverse boybands er lidt sværere at se en trend om, fordi der er et konstant støjniveau af tweets om dem.

En mulig forbedring af Rouqk ville også være at “regne tilbage” til det tweet der startede eller var central i trenden, så man kan se lidt mere om hvad der ligger til grund for at Rouqk sætter den trend på listen.

Alt vores arbejde indtil nu har altså fokuseret på at få lidt styr på den datamængde der er og ikke forudsige, men sortere, søge i og fremhæve elementer.

Der er mange veje at gå nu. For at komme frem til et resultat, hvor man f.eks. kunne forudsige hvordan en trend ville udvikle sig, ville man umiddelbart skulle analysere trendkurver, spotte trends der ligner hinanden eller trends man har en historik på og lignende tiltag (og det er langt fra sikkert at der er et brugbart mønster man kan spotte, gribe fat i og bruge).

I dag ser man især forudsigelser som baserer sig på konkurrencer afgjort af offentlig meninger. Det er f.eks. Melodi Grand Prix, politiske valg, filmsucceser og talentkonkurrencer, hvor offentligheden stemmer. Andre forudsigelser analyserer mønstre af f.eks. sygdom (klager over hovedpine, influenza og forkølelse er åbenbart mere udbredt på sociale medier, end jeg havde troet) og forudsiger epidemier. Forudsigelser af aktiemarkeder er også en mulighed, men bestemt ikke et domæne, jeg umiddelbart har lyst til at kaste mig over.

Lige nu har jeg mest lyst til at pudse xiive op igen og hive den frem fra mølposen. Vi har købt et nyt domæne (socialmetr.com), som ville passe godt til en nyindpakning af xiive… vi gav ikke sitet en ordentlig chance tilbage i 2012, da vi launchede, og det tror jeg vi er ved at være klar til nu.

7 comments for “Min drøm om Big Data-forudsigelser

  1. Jeg tror ikke at twitter er det korrekte sted at spotte trends for aktiemarkedet. En eksplosion i antallet af tweets angående en given virksomhed er ikke nødvendigvis afspejlet i aktiemarkedet. Det vil måske være mere interessant at analysere nyhedsfeeds fra f.eks. Reuters og lave analyse på om nyheden er positv eller negativ ladet.

    Så vidt jeg har kunnet læse mig frem til, så arbejder de fleste handels-robotter udfra historisk viden om en aktie og aktuelle bevægelser i markedet evt. sammenholdt med nyhedsfeeds. Den historiske viden bliver brugt til at klassificere om aktien generelt er volatil og aktuelle hændelser (nyheder, handler) bliver brugt til at spotte den nuværende trend. Både positive og negative tendenser kan give anledning til handler.

    • Det er en måde at gøre det på.

      Den videnskabelige artikel kiggede ikke keywords om firmaer. Det de har kigget på er en sentiment-analyse, som går ud over den simple positiv-negativ-analyse. De har fundet ud af at især metrikken “Calmness” følger aktiemarkedet.

      Jeg må indrømme at lige aktie-marked-domænet interesserer mig alt for lidt – jeg er mere inspireret af metoden og tanken bag end resultatet.

  2. rouqk.com er en rigtig spændende idé.

    Hvilke teknikker/algoritmer ligger bag ved for at analysere og finde disse trendsættende ord/sætninger?

  3. Hej
    Jeg faldt lige over dit dette spændende blogindlæg, som omhandler sentiment analysis som jeg har arbejdet med det sidste halvandet år.

    Jeg har deltaget i nogen konkurrencer på CBS og KU, hvor mit system har vundet på nøjagtigheden. Efterfølgenden har jeg holdt oplæg på CBS og Columbia University omkring mit system.

    Jeg arbejder på at lave en form for API eller anden service for virksomheder som kan bruge dette. Der findes næsten intet der kan analyserer på dansk om dem jeg har hørt er ubruglige.

    Så hvis I kender nogen der kunne være interesseret er i meget velkommen til at sende mine kontaktoplysninger videre. Tak

    Med venlig hilsen
    Anders Boje Larsen
    Mobil: 60120132
    E-amil: [email protected]
    LinkedIn: dk.linkedin.com/in/andersboje/

Skriv et svar til Anders Boje Annuller svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *