Big Data: Pres viden ud af dine datalagre

Mængden af tilgængelige data er eksploderet i de seneste år. Ifølge IBM i en sådan grad, at 90 procent af alle data er genereret inden for de seneste to år og fordobles hvert andet år. Fænomenet kaldes »big data« og giver virksomheder nye muligheder.

I disse tider er mængden af data større end nogen sinde før. Faktisk så stor, at flere dataspecialister vurderer, at mængden af registrerede data i verden er tæt ved at fordobles hvert andet år. Fold sammen
Læs mere
Lyt til artiklen

Vil du lytte videre?

Få et Digital Plus-abonnement og lyt videre med det samme.

Skift abonnement

Med Digital Plus kan du lytte til artikler. Du får adgang med det samme.

Data danner grundlaget for beslutninger. Jo bedre data, desto mere informerede valg kan man træffe.

I disse tider er mængden af data større end nogen sinde før. Faktisk så stor, at flere dataspecialister vurderer, at mængden af registrerede data i verden er tæt ved at fordobles hvert andet år.

Tendensen kaldes »big data« og kan medføre den største omvæltning for beslutningsprocesser i virksomhederne og organisationer, siden Frederick W. Taylor introducerede »scientific management« for mere end 100 år siden.

Dengang skete det med stopur og registrering af arbejdernes bevægelser. Nu sker registreringerne i takt med, at elektronisk udstyr finder vej ind i flere og flere dele af vores liv. Computere i biler, der følger hvert eneste bump, man kører over, GPS i telefoner, der registrerer, hvor du befinder dig, og cookies, der sporer din gøren og laden på internettet.

Internetgiganter som Google og Facebook baserer hele deres forretning på forståelsen af data. Et andet eksempel er Amazon.com. I en traditionel boghandel ved man, hvilke bøger der sælger, og hvilke der ikke gør. Registrerer man kundernes køb, kan man også se en historik for hver kunde. Men herefter tørrer informationsmængden også hurtigt ud.

I en onlinebutik ved man, hvad kunderne køber, men også hvad de kigger på, inden dankortets oplysninger bliver tastet ind. Man ved også, om de kom til webshoppen via computer eller mobiltelefon, og hvilke sider de ellers besøger.

Algoritmer kan skræddersy forslag til andre bøger baseret på viden om individuelle kunder, og hver gang en kunde klikker eller ignorerer et forslag, styrkes algoritmen til næste gang. Jo flere data, desto mere skræddersyede løsninger.

Men der er også muligheder for virksomheder og institutioner langt fra Silicon Valley. Hos New Yorks politi benytter man data om anmeldelser, lønudbetalingsdage, vejrudsigter, trafikforhold og lokale begivenheder og arrangementer til at styre antallet og placeringen af betjente på gaderne.

Et andet eksempel er kurérvirksomheden UPS, der benytter informationer om trafik, vejrforhold, geografisk sporing af lastbiler og registrering af leveringstider til at optimere bilernes ruter rundt i verdens storbyer.

Et studie fra MIT Sloan School of Management blandt amerikanske virksomheder fra alle brancher viser, at de, der forstår at udnytte data til at optimere forretningen eller forudsige tendenser, gennemsnitligt set er fem procent mere produktive og seks procent mere profitable end deres konkurrenter.

Data skal bruges fremadrettet

»Tidligere blev virksomheder nødt til at være generalister, men big data giver virksomheder mulighed for at optimere forretningen og skræddersy løsninger til individuelle kunder. Revolutionen består i, at man tidligere analyserede data for at drage konklusioner af sin historik. Nu bruger man data aktivt til at optimere forretningen til fremtiden med det samme,« siger Cathy O’Neil, seniordataanalytiker hos Johnson Research Labs, der rådgiver virksomheder i dataanalyse og -strategi.

Datamodeller bruges allerede i stor stil i alt fra vejrudsigter til beregninger for forsikringssummer eller prisfastsættelsen for græske statsobligationer. Samfundet, som vi kender det, ville have mere end svært ved at fungere uden, selv om de fleste modeller og algoritmer regner løs i computerkabinetter langt fra vores hverdag. Historisk set har industrivirksomheder altid samlet på data, men den teknologiske udvikling betyder, at de nu er langt mere overskuelige, og at prisen på hardwaren til at behandle dem er til at komme i nærheden af. På kundesiden betyder registreringer fra internettet og smartphones med stærke processorer og højhastighedsforbindelser, der kan sende store datamængder på splitsekunder, at datamængden er eksploderet.

Hvert sekund sendes 2,9 millioner e-mails. Hvert minut registrerer Facebook 350 gigabyte data. Hver time registrerer Walmart over en million kundetrans­aktioner. Alene Walmarts registreringer fylder 2,5 millioner gigabyte, hvilket svarer til 50 millioner arkivskabe fyldt med registreringer. Samlede man hele verdens dataregistreringer fra 2012 og brændte dem på DVD-skiver, ville stablen nå til månen og retur fem gange, vurderer datahåndteringsselskabet AIS. Men inden man giver sig til at fiske efter informationer, er det dog vigtigt at gøre sig tanker om, hvad man vil bruge dem til. Jagten på optimering af forretningen gennem data er nemlig som at finde et mønster af nåle i en høstak.

Maersk Line og kunderne

En af dem, der kan finde de mønstre, er professor Rune Møller Jensen fra IT-Universitetet i København. Han har forsket i optimeringen af logistik via data og har blandt andet samarbejdet med Maersk Line om modeller, der optimerer rederiets containerhåndtering, og andre modeller, der ud fra tidligere kunders handlemønstre kan spotte, hvilke kunder man er i fare for at miste.

»Det handler om at forudsige, hvor meget last der sendes rundt i verden, og hvor meget man kan forvente at booke på en måned. Der er bjerge af data fra perioder, der spænder over årlige variationer. Vi kombinerer historiske data med aktuelle data. Det fusioneres i en model, der kan finde mønstre i, hvordan kunderne opfører sig, så vi kan estimere, hvad kunderne vil gøre om en måned på en bestemt rute. På samme måde kunne vi se, hvad der karakteriserer kunder, der har opsagt samarbejdet. Dermed kunne vi lave forudsigelser af, hvilke kunder man var i fare for at miste fremadrettet,« fortæller han.

»I dag registrerer virksomheder tonsvis af data i deres databaser. På et tidspunkt bliver man nødt til at slette noget igen af pladshensyn. Så det handler om at kondensere informationen i værdigivende retninger. Eksempelvis havde vi ti gigabyte data, men efter vi fandt de væsentlige datastrenge, så fyldte det kun 128 kb. Det går altså ud på at undersøge, hvad der karakteriserer forretningen, og få presset en viden ud af en forholdsvis stor mængde data.«

På den måde mødes matematikkens og forretningens verden, men det kræver de rigtige folk for at kunne se sammenhængen. For virksomhedslederne kan det tilmed være en udfordring i beslutningsprocessen, når dataanalysen pludselig peger i en anden retning, end den ledelsen har udstukket på baggrund af intuition og erfaring.

MITs undersøgelse viste, at mange virksomheder brugte data til at underbygge og retfærdiggøre beslutninger, der allerede var truffet. Gevinsten ved dataindsamlingen kom dog først for alvor, når pilen blev vendt om, således at lederskab, erfaring og intuition blev støttet af input fra dataanalyser, inden beslutningerne blev truffet.

Pas på sløjfen

Ikke alle falder dog i svime over »big data«. En ensidig fokus på data og analysemodeller kan nemlig risikere at skabe det, ingeniører kalder en negativ tilbagekoblingssløjfe. Analysemodeller og algoritmer, der eksempelvis tager udgangspunkt i tidligere gøren og laden på internettet, kan nemlig ende med at styre fremtidig handling og gøre den stadig mere ensporet.

Tag for eksempel Facebook, hvor de venner, du oftest interagerer med, optræder oftest i dit nyhedsfeed. Dermed ser du deres billeder og opdateringer oftere end andres. Sandsynligheden for, at du i fremtiden vil interagere mere med netop dem, øges, og dermed styrker det algoritmens konklusion, der bliver mere og mere smalsporet.

En anden problemstilling er dataanalytikere, der tror, at analysemodellerne er sikre som naturvidenskaben, advarer Emanuel Derman.

Han er professor i fysik og arbejdede i 12 år i investeringsbanken Goldman Sachs, hvor han lavede algoritmer og finansielle modeller for køb og salg af blandt andet aktier, obligationer og derivater. Han forlod banken i 2002 og underviser i dag på Columbia University.

»Modeller er ikke virkelighed, men et simplificeret gæt. Vi kan lave modeller og ligninger, der beskriver fysisk bevægelse, men ikke menneskelige handlemønstre. Algoritmer og datamodeller ligner måske noget fra fysikkens og kemiens verden, men det er ikke naturvidenskab. Det er et simplificeret gæt på, hvad fremtiden bringer, og usikkerheden er endnu større, fordi man forsøger at reducere menneskelige handlemønstre til et tal for enden af en formel,« siger han.

Som i Platons hulelignelse er modellerne som skygger på en væg, snarere end virkeligheden. En simplificering, der nok kan give et vink om, hvad virkeligheden byder på, men aldrig det fulde billede.

Emanuel Derman påpeger, at modeller for eksempelvis finansielle investeringer kun virker til et vist punkt og så længe, at forudsætningerne ikke går ud over normale handlemønstre. Når alt, hvad man tror, man ved, styrter sammen om ørerne på en, som under finanskrisen, er modellerne pludselig ikke meget værd.

»Jeg siger ikke, at algoritmer er skyld i finanskrisen, men det har været en medvirkende faktor. Hvis man laver algoritmer for for eksempel logistikhåndtering, så er der konstanter som for eksempel geografiske afstande. Men i finansverdenen er stort set intet konstant. De fleste finansielle modeller giver et estimat af, hvad et produkt skal koste i dag, hvis fremtiden bliver, som vi tror ud fra vores data. Problemet er, at mange børshandlere ikke forstår de modeller, de bruger. De vender modellerne på hovedet og tror, at de kan spå om fremtidens udvikling,« siger Emanuel Derman.

Behov for mennesker

Dertil kommer de etiske problemstillinger, der dukker op, når man lader computere træffe afgørelser om fremtiden eller estimere, hvem der har ret til hvad.

»Man kan ikke stole fuldstændigt på computeren. Det kræver en menneskes hjerne hele tiden at udvikle algoritmerne og gøre dem bedre for at undgå, at man går i ring. Vi kan godt lave algoritmer og computerprogrammer, der bliver »klogere« af sig selv, men kreativitet kræver et menneske,« siger Cathy O’Neil.

»Computere kan heller ikke tage stilling til etiske problemstillinger i forbindelse med dataindsamlingen og dens resultater. I det offentlige kan man for eksempel regne på, hvem det samfundsøkonomisk kan betale sig at give medicin, men det er en afgørelse, som kræver en menneskelighed og en etisk vurdering,« siger hun.

Den store fokus på big data betyder, at efterspørgslen på kvalificerede dataanalytikere i USA er så stor, at Harvard Business Review sidste år med et glimt i øjet kaldte jobtitlen årets mest sexede. Faktum er dog, at der er kamp om matematikere og fysikere med erfaring og fokus på datahåndtering og analysering.

En McKinsey-rapport fra 2011 anslog, at behovet for datakyndige ansatte er stigende, og at der netop nu mangler op til 190.000 kvalificerede dataanalytikere og 1,5 million dataorienterede ledere i USA, hvis potentialet skal udfyldes.

Herhjemme er billedet endnu ikke det samme. På IT-Universitetet i København vurderer professor Rune Møller Jensen:

»Der er mange forretningsfolk, der ved, at det er fornuftigt at indsamle data, men som ikke forstår at analysere og udnytte informationerne. Det er noget, der er meget fokus på i USA, men desværre ikke så meget herhjemme. Der er meget få eksperter i Danmark, der kan analysere data og se et mønster eller finde en faktor, der er vigtig, og som giver grobund for en forklaring.«