Big Data er svær at blive klog på, her får du en forklaring

Big Data kan defineres på mange måder, og næsten alle har en holdning til, hvad det er den rette. Her er fire retningslinjer, som måske kan hjælpe dig med at forstå, hvad Big Data er for en mærkværdig størrelse.

Big-Data

Man kan ikke sige Big Data uden at blive benovet over, hvor store data mængder, der egentlig er tale om. Foto: Colourbox.

Big Data: Som udgangspunkt er Big Data en vanskeligt begreb. Det er svært at sætte det ind i en fast rammedefinition, som man kan kigge på og derfra sige, hvorvidt noget er Big Data eller ej.

Men en tommelfingerregel er, at hvis du ikke er sikker på, om noget er Big Data, så er det formodentligt heller ikke.

Big Data bruges som løsningen, når traditionelle måder at indsamle og behandle data ikke længere er tilstrækkelig, på grund af den mængde data der findes.

Ifølge Angelo Alonso, Machine Learning Engineer hos Tradeshift, kan et eksempel på Big Data være, når værdierne ikke længere er numeriske, eller at antallet af forespørgsler overstiger et vist niveau. 

Helt lavpraktisk dækker udtrykket Big Data over de værktøjer og processer, der bruges for at håndtere enorme mængder af data.

Hvort stort er Big Data?

Når man snakker om Big Data, taler man også om byte, og her har udvikling skubbet kraftigt til opfattelsen og forståelsen af Big Data.

For 10 år siden talte man fx om, at datasæt af en vis gigabyte størrelse var stort, mens man i 2012 så datasæt på både petabyte og exabyte. 

Da Microsoft fx tog al den data, der fandtes på deres Hotmail tjeneste og flyttede det til deres nye Outlook, svarede datamængden til 150 petabyte.

For en god orden skyld, så er en petabyte 1015 byte = 1 000 000 000 000 000 byte. 

Big Data er altså for alvor nået op i en størrelse, hvor det kan være svært at overskue og forstå det reelle omfang af data.  

Fire karakteristika for Big Data

Overordnet set kan man pege på fire karakteristika, der kan beskrive Big Data: high volume, high variety, high variability og high veracity.

  • High volume beskriver volumen af det data, der skal håndteres. Som udtrykket Big Data antyder, er der meget data, og som oftest er det en udfordring for en almindelig computer at arbejde med så store datamængder.
  • High variety betyder, at der er så mange forskellige datatyper, at det kan være svært at kategorisere dem alle sammen. Dokumenter, videoer, billeder m.m. indgår ofte i et Big Data sæt, og alle har informationer, som kan være brugbare, men som kræver hver sin behandlingsmetode for at tyde.   
  • High variability forbindes ofte med variety nævnt ovenfor, variability er meget svært at få den fulde forståelse for, men generelt betyder det, at meningen ændres i takt med den kontekst, den sættes i.

Derfor kræver Big Data også meget analysearbejde for at bearbejde den indsamlede data.

Et godt eksempel, der viser forskellen mellem variety og variability er et besøg hos bageren. Bageren sælger ti forskellige brød. Det er variety. Forstil dig nu, at du går til den samme bager tre dage i træk og hver dag køber du det samme brød, men hver dag smager og dufter det anderledes, fordi der kan være små ændringer i mening og kontekst. Det er variability.

  • High veracity betyder, at meget data bliver indsamlet på meget kort tid. Det kan skabe usikkerhed om, hvorvidt det indsamlede datamateriale er rigtigt eller forkert. Er det forkert, er det ikke brugbart til at udføre analyser på. Derfor er det vigtigt, at virksomheder får skabt processer, som kan opsamle og frasortere ubrugelige data, der følger med, når der bliver indsamlet så meget data på kort tid.

En kort beskrivelse

Big Data kan derfor kort beskrives som:

  • Store mængder data
  • Mange forskellige datatyper
  • Den indsamlet data kommer i forskellige meninger og kontekster
  • Der bliver indsamlet meget på kort tid

Hvad kan Big Data bruges til?

Hvis få gode data er godt må Big Data være mægtig godt. I teorien er de fleste da også enige om, at evnen til at databehandle store mængde data giver os enorme muligheder. 

Ifølge Magasinet Finans kan Big Data fx bruges til en række lavpraktisk formål som:

• Kreditvurdering

• Afsløring af svig

• Målrettet marketing

• Konkursforudsigelser

• Kreditkortgodkendelse

Men anvendelsen af Big Data er tær knyttet til udviklingen af AI, Kunstig Intelligens, fordi vi har så mange forventninger til, at vi fx bliver i stand til at bruge AI og Big Data til at afsløre kræftknuder på scanningsbilleder, forudsige vejret, og udvikle avancerede styringssystemer til fremtidens transport- og energisystemer.

Den danske erhvervsstyrelse satte da også i 2013 spotlight for Big Data i rapporten "Big Data som vækstfaktor i dansk erhvervsliv – potentialer, barrierer og erhvervspolitiske konsekvenser":

- For erhvervslivet betyder udviklingen en masse nye muligheder for at transformere store mængder af data til fx nye services, bedre produkter og markedsføring målrettet forskellige kundesegmenter. 

Flere internationale analyser har estimeret store potentialer i big data og fastslået, at big data baserede virksomheder klarer sig bedre end andre virksomheder.

Derfor er det også vigtigt, at erhvervspolitikken forholder sig til udviklingen, og at der tages stilling til, hvad der eventuelt kan gøres for at fremme udbredelsen af Big Data i Danmark, hed det i rapportens indledning.

Data ind men…

Offentlige og private danske virksomheder samler, da også flere data ind om virksomhed, drift, borger og kunder end nogensinde før. Alligevel halter vi efter nabolandene i arbejdet med at anvende data systematisk.

For at gøre opmærksom på vækstmulighederne i de gemte og glemte data er Dansk Industri, CBS, Alexandra Instituttet og en række it-virksomheder, herunder IBM og EG, gået sammen i projektpartnerskabet. Projektet  ”DataForBusiness” går blandt andet ud på at stille virksomhederne en række spørgsmål om dataanvendelse.

Besvarelserne lægges ind i et værktøj, som giver virksomhederne indsigt i eget datapotentiale, benchmarker mere end 500 deltagervirksomheder anonymt mod hinanden og giver nem adgang til handleplaner og rådgivere, der kan hjælpe med næste trin.

Imens vokser mængden af data

Mens forskerne, it-virksomhederne og ikke mindst de offentlige og private virksomhedsejere på den måde forsøger at indkredse og udnytte fænomenet Big Data, bare vokser datamængden, sekund for sekund.

Hvert andet år fordobles den samlede mængde af data, og ifølge IT-giganten EMC vil det digitale univers være ti gange større end i dag i 2020, skrev Berlingske i 2014. 

Af rapporten fremgik det, at en gennemsnitlig husstand hvert år genererer data, der svarer til at fylde 65 iPhones med 32 gigabyte. Det vil i 2020 være 318 iPhones.

Samtidig vurderede Cisco i 2016, at verdens samlede datamængde ville være 6,2 zettabytes i  2020.

Størstedelen 84 pct. vil være opbevaret på enheder som pc’er og tablets, mens 16 pct. vil opbevares i datacentre som fx Dropbox.

Se en kort video om Big Data.