Hjerne og hjerte for Big Data

Big Data handler om veldig store datamengder og avanserte systemer, men egentlig like mye om mennesker. 


Av Andreas R. Graven

Mann halvfigur. Foto
Forskningsdirektør Klaus Johannsen leder det nye Center for Big Data Analysis i Uni Research. Johannsen har ekspertkunnskap innen blant annet datadrevet forskning og matematisk modellering. (Foto: Marit Hommedal)

Matematiker og fysiker Klaus Johannsen er definitivt en av dem. Han leder et helt nytt senter for Big Data i Uni Research. Uten mennesker med spesialisert kunnskap er de kjempestore mengdene data som finnes tilgjengelig i dag ganske verdiløse, mener Johannsen.

Han er forskningsdirektør i Uni Research Computing, og har ekspertkunnskap innen blant annet datadrevet forskning og matematisk modellering.

– Bedrifter og selskaper kan kjøpe inn nye systemer så mye de bare vil. De kan samle masse informasjon uten at det er noen trylleformel. Det som trengs er ekspertise som kan håndtere store mengder kompliserte forskningsdata. Her kommer vi inn i bildet. Vi har fagfolkene, vi har byd opp et unikt system som sørger for optimaliserte resultater, sier Johannsen.

Nye løsninger og muligheter

Han skjønte tidlig at evnen til å finne viktig informasjon i store datamengder ville bli etterspurt.

– Hjertet mitt har banket lenge for et senter for Big Data, nå har vi endelig fått det til. Big Data vil bli svært viktig i Norge i årene fremover. Det gjelder både for forskere og næringslivet, i jakten på nye løsninger, kunnskap og kommersielle muligheter, sier Johannsen.

Allerede tidlig på 1980-tallet var interessen for data godt etablert hos Johannsen, men den ambisiøse programmerer-spirens første møte med en datamaskin ble en skuffelse.

Som ung student testet han en Commodore VIC-20 med rundt 11 KB minne, en maskin som ville ha jobbet intenst for å lagre denne artikkelen. Mulighetene var svært begrensede. Tiden måtte jobbe for unge Johannsen, og det gjorde den til gangs.

Resultater og framskritt

De siste tiårene har verden opplevd den ene datarevolusjonen etter den andre. Nå drukner vi nærmest i data.

Hvordan de skal bearbeides - og hva kan de gi offentlig og privat sektor av nye, uventede resultater og framskritt - er blant de store spørsmålene på feltet. 

Klaus Johannsen og sju ansatte i nystartede Center for Big Data Analysis i Uni Research, skal finne ut av slike ting.

Da styret i selskapet vedtok etableringen av senteret høsten 2014 hadde Johannsen og kompani allerede undersøkt mulighetene for å satse på Big Data i to år.

Systemet forskerne benytter seg av, er rammeverket Apache Hadoop. For Johannsen og kollegene handler mye om å innstille dette verktøyet slik at det behandler forskningsdata på best mulig måte. 

Dette er en stor jobb, for selv om Hadoop er beregnet på lagring og håndtering av masse informasjon, er det ikke laget for data fra forskningens verden.

– Vi  utvikler strategier for hvordan Big Data kan anvendes innen både forskning og næringsliv og jobber vi for fullt med å tilpasse systemet til forskningsdata. sier Johannsen.

Han er blant dem som tror vi står foran et paradigmeskift for hvordan data kan behandles, og at vi vil se helt nye muligheter og innovasjoner med utgangpunkt i Big Data.

På rett plass til rett tid

Mens Johannsen på 1980-tallet lot seg frustrere over manglende datakraft, og ga opp programmering inntil begynnelsen av 1990-tallet, virker han nå å være på rett plass til rett tid.

I motsetning til hva man kanskje skulle tro, handler Big Data i mindre grad om å skaffe seg så mye datakraft som mulig.

– Vi bruker faktisk bare enn 10 prosent av pengene våre på hardware. Big Data handler mest om hva mennesker er i stand til å få ut av dataene, hvilke muligheter de oppdager, sier Johannsen.

Han har med sin bakgrunn både fra fysikk og anvendt matematikk en eksperimentell tilnærming der han er opptatt av å lære av det han ser.

Praktisk tilnærming

Johannsen tror Big Data vil forandre forskningen.

– Forsking vil ikke bare handle om teorier utledet fra små datamengder, men i økende grad om hvordan store datamengder kan utnyttes, sier han.

– Tilnærmingen med abstraksjon, deretter teori og så integrasjon vil selvsagt fortsette å eksistere, men vi vil få en Big data-tilnærming i tillegg. Den er mer praktisk, og man kan kjøre analyser med utgangpunkt i store datamengder som har basis i faktiske hendelser, sier Johannsen.   

Et eksempel: Man kan i teorien si at det er 1 million måter å karakterisere en utfordring på, slik at det kan være vanskelig å velge den riktige måten. Men så viser det seg, ved å bruke Big Data, at det kanskje bare er 40 måter.

– Dermed kan vi ende opp med at virkeligheten i en del tilfeller faktisk kan være mye enklere enn den kompleksiteten man gjerne arbeider utfra på et teoretisk nivå, sier Johannsen. 

Han trekker fram værvarslinger som et eksempel på utviklingen:

– På dette feltet har det først og fremst vært en stor forbedring i i implementeringen og analysene av store data i modellene som meteorologene bruker når de skal varsle været.

Gode, viktige klimadata

Nettopp på klimafeltet sitter Uni Research Computing med det Johannsen omtaler som det beste datasettet for vindforhold i Nordsjøen.

– Her har vi 25 terrabyte med data som kan fortelle vindkraftverkbransjen om hvor det vil være gunstig å etablere vindparker, hvor det er vindskygger og hvordan værforholdene kan utvikle seg over ti år. Vi kan hjelpe dem med å undersøke om det er god økonomi i investeringer i vindparker. Forskere vil gjerne ha teorier, industrien vil ha resultater, og trenger ikke være like opptatt av hvordan ting foregår på teoriplanet, sier Johannsen. 

I tillegg sitter han med 800 terrabyte med klimadata som kan kjøres ut i Hadoop.

– Dette er data som både vil være relevante for FNs klimapanel (IPCC), politiske beslutningstakere og privat næring. Vi jobber også med prosjekter innen humaniora og samfunnsfag, sier Johannsen.


Problem og løsning - samtidig

Framover vil han fokusere på utviklingen av tekniske løsninger, programmer, behandlingen av data og nye anvendelser for Big Data. Med store datamengder blir noe av jobben å finne nåla i høystakken, men hva om du ikke vet hva nålen er, hva gjør du da?

– En ting er at du vil finne relevant informasjon, men har så mye info at du ikke klarer det. Neste problem er hva som faktisk er relevant informasjon, selv om du ser den vet du ikke nødvendigvis om den er viktig.'

– Derfor må vi jobbe med Big Data slik at vi ser etter både problem og løsning samtidig – du vet bare ikke hva du finner først, sier Johannsen.


22. juni 2015 15:38

Lignende nyheter

Personer involvert

cp: 2017-08-23 17:18:09