AI & Teknologi

Vi gjorde 84 000 klimaobservasjoner søkbare ved hjelp av språkmodeller

Eivind Kjosbakken 3 min lesing

Hos Findable spesialiserer vi oss på å strukturere og forstå dokumentasjon relatert til bygninger. Dette krever dyp ekspertise innen kunstig intelligens, bildebehandling og håndtering av ustrukturerte data. Vår misjon innebærer å hjelpe klienter med å gå fra kaos til kontroll. Imidlertid anvendte vi våre ferdigheter på noe helt annet i dette sideprosjektet: et unikt, håndskrevet fenologidatasett fra tidlig på 1900-tallet.

Historisk og klimatisk relevans

Fenologi er studiet av sesongmessige naturfenomener—når snøen smelter, blomster blomstrer, eller trekkfugler returnerer. Fra 1928 til 1952 ledet professor Henrik Printz en landsdekkende innsats for å dokumentere disse endringene over hele Norge. Resultatet var nesten 84 000 håndskrevne registre av biologiske og klimatiske hendelser, manuelt ført inn i tabeller av lærere og frivillige over hele landet. Inntil nå var dette datasettet umulig å analysere digitalt.

“Vi har hatt stor nytte av open-source-verktøy i vårt eget arbeid,” sier Findable-medgründer og forskningssjef Lars Aurdal. “Derfor ønsket vi å gi noe tilbake.”

Sammen med Eivind Kjosbakken, dataviter i Findable, påtok Lars seg dette prosjektet for å demonstrere hvordan deres dokumentanalyseekspertise gjelder på tvers av domener.

“Vi valgte å digitalisere og analysere dette datasettet slik at forskere kan utforske hvordan klimaendringer har påvirket sesongmønstre det siste århundret,” forklarer Lars.

Uleselige tabeller og håndskrevne tall

De skannede sidene var i dobbeltsidet format—ofte skjeve og alltid håndskrevne. Håndskriften var liten, celler var tett pakket, og mange tegn var vanskelige å lese, selv for mennesker. Å gjøre disse observasjonene maskinlesbare krevde en grundig tilnærming som involverte bildeforbehandling og finjustering av store vision-språkmodeller (vLLMer).

“Vi startet med klassisk bildeforbehandling—splitting, rotering og korrigering av skannene—og brukte morfologiske filtre for å identifisere individuelle celler,” sier Lars.

Når hver celle var isolert som et bilde, overtok Eivind. Han matet de beskårne cellene inn i Qwen 2.5 VL, en spesialisert vision-språkmodell finjustert for å tolke håndskriften.

“Vi brukte Unsloth, et effektivt finjusteringsrammeverk for LLMer, for å trene modellen på dette spesifikke datasettet. Kun visse sifre og bokstaver var gyldige i spesifikke kolonner. Vi lærte modellen at ‘1’ alltid hadde en diagonal strek, og ‘7’ hadde en tverrstreke—detaljer avgjørende for nøyaktig tolkning,” forklarer han.

Forstå modellens feilpunkter

Før finjustering ble datasettet manuelt gjennomgått for å forstå vanlige feilkilder.

“‘1’ og ‘7’ ble ofte forvekslet, men vi fant også problemer som støyende skanninger, svak håndskrift og tabelgrenser som ble feilaktig tolket som tegn. Vi brukte denne kunnskapen til å forberede treningsdataene og hjelpe modellen med å lære hva den skulle forvente—og hva ikke,” sier Eivind.

Høypresisjon digitalisering av nesten 84 000 observasjoner

Gjennom en kombinasjon av bildeanalyse, annotering, finjustering og validering lyktes teamet med å gjøre et nesten uleselig datasett maskinlesbart med høy presisjon.

“Vi gjør datasettet åpent tilgjengelig, slik at hvem som helst kan utforske hvordan naturens rytmer har endret seg over tid,” sier Lars.

Prosjektet illustrerer hvordan vision-språkmodeller kan løse komplekse dokumentutfordringer—samme type som løses daglig i eiendoms- og byggesektoren.

For samfunnet åpner prosjektet tilgang til en tidligere uutnyttet kilde til historiske klimadata.

“Hva kan vi lære av endringer i blomstringsdatoer eller tregrenser over tid?” spør Lars. “Det store bildet er at vi nå kan låse opp informasjon som har samlet støv i kjellere i tiår—og lære av den på måter som aldri var mulig før.”