Datahantering - Sveriges Dataportal

Det i sin tur ställer höga krav på styrning och kontroll i termer av tillgänglighet, spårbarhet, användbarhet, integritet och säkerhet. För att fånga detta talar vi ofta om informationsstyrning (eng. Information governance) och datastyrning (eng. Data governance).

Datastyrning och informationsstyrning

Direkt översatt till svenska blir data governance datastyrning eller styrning och kontroll av data. Datastyrning är ett vitt begrepp och omfattar utförande och upprätthållande av kontroller över hanteringen av data. Detta baserar sig ofta på datastandarder och policies. Datastyrning innefattar allt från datakvalitet, masterdata, dataintegration och datahärkomst (eng. data lineage) till att upptäcka synergier som leder till ökad effektivitet.

Datastyrning är definitionsmässigt en del av informationsstyrning. Informationsstyrning innefattar inte bara en organisations digitala information (data) utan hela organisationens samlade information.

Att skapa förutsättningar för en god hantering av data och information är en klok investering för att kunna utveckla välfungerande, tolkningsbara och pålitliga lösningar. En väl utformad datastyrning innebär flera positiva effekter, såsom bättre datakvalitet och minskad tid för förberedelse av data inför användning i AI-drivna tjänster. Att arbeta med datastyrning brukar också leda till ökad förståelse och intresse för data som en viktig tillgång inom organisationen. DIGG har publicerat vägledningar som kan användas vid upphandling och tillgängliggörande av data.

Viktigt att komma ihåg!

En skillnad från traditionell systemutveckling är att en AI-modell alltid behöver betraktas tillsammans med de data som modellen tränats på. Detta innebär att det inte bara är själva modellen som behöver dokumenteras och versionhanteras utan även de data som modellen tränats på. Här kan det uppstå konflikter mellan offentliga aktörers gallringsregler och att spara träningsdata.

När man använder data från flera olika datakällor i AI-modeller kan det vara svårt att i efterhand reda ut ansvarsfrågan. Vi den här typen av utveckling råder principen att om en sak ändras så ändras allt. En till synes liten förändring i ett källsystem kan alltså få stor påverkan på AI-modellen och dess resultat. Att övervaka både dataflöde och modellens resultat i produktion är viktigt för att upptäcka sådana fenomen.

Olika typer av data

Data kan kategoriseras på olika sätt. Två övergripande kategorier är: strukturerad data och ostrukturerad data.

Strukturerade data

Strukturerad data har ett standardiserat format, och en väldefinierad struktur. Den följer organisationens eller systemets datamodeller, är beständig och lättillänglig för människor och system. Exempelvis kan det regleras vilken data som ska kopplas till ett specifikt fält, om det är numeriskt eller textbaserat och om det ska vara i ett specifikt format såsom exempelvis personnummer eller postnummer.

Ostrukturerade data

Ostrukturerade data är all annan data. Exempel på ostrukturerade data är bilder, ljud, filmer och data från fritextfält i system. Det är data som ofta lämnas outnyttjad men som kan vara av värde när man utvecklar AI.

Hur man kan mäta datakvalitet

Data av hög kvalitet är nyckeln till att bygga förtroende och transparens samt tolkningsbara och pålitliga insikter som en organisation kan agera utifrån.

Olika mindre punktinsatser, som att rensa bort dåliga data, upptäcka partiskhet, kan krävas för de specifika AI-tillämpningarna. Det är viktigt att ha en plan som beskriver det långsiktiga arbetet med att öka organisationens databeredskap.

För att säkra god datakvalitet behöver den både kvantifieras och mätas. En process för mätning av datakvalitet kan beskrivas i följande steg:

Starta med att bekanta dig med datakvalitetsmåtten, se Datakvalitetsdimensioner nedan.
Välj ett fåtal datakvalitetsmått utifrån vad som anses relevant och mest kritiskt för verksamheten.
Genomför en datakvalitetsmätning (s.k. dataprofilering) utifrån valda kvalitetsmått.
Analysera resultaten av mätningen.

”Det är lätt att frestas att ta en genväg för att det redan finns en stor mängd träningsdata”

Tre frågor till Andreas Voxberg, Chief data scientist på Skatteverket, om viktiga frågor att ställa om data.

Vad är era viktigaste erfarenheter och lärdomar kring att analysera data?

Jag arbetar tillsammans med ett team på 16 personer med operativ utveckling av AI och maskininlärning på Skatteverket. När vi möter ledning och handläggare ute i verksamheten, möts vi ofta av perspektivet ”vi på Skatteverket har ju jättemycket data, vi borde ju kunna ta fram massor av AI-tillämpningar”. Men man ställer sig inte alltid frågan om det är data som är lämplig för träning eller om den samlats in för helt andra syften.

Det är lätt att frestas att använda data som redan existerar och ta en genväg för att det råkar finnas en stor mängd träningsdata. Ett arbete med att sätta upp processer för, och samla in data kan försena ett arbete med flera månader.

I det läget kan det bli så att man tittar på vad man har, istället för på vad man behöver. Det är då man ska man ställa sig frågan om det är relevant data, för det problem som vi ska lösa. Det är en fråga som borde vi ställa oss i större utsträckning, det har vi lärt oss av egen erfarenhet.

Hur stora mängder data behöver man?

När vi började arbeta med AI-utveckling diskuterades data av många som att det handlade om stora datamängder. Eventuella kvalitetsproblem kunde lösas med större mängder data i många fall. Det vi ser i många av våra tillämpningar är att vi går åt ett annat håll. Vi jobbar med mindre datamängder, med högre kvalitet och det ger oftast ett bättre utfall. I några fall t.ex. när det handlar om analys av text har vi kunnat dra nytta av generella språkmodeller utvecklade av bland andra Kungliga Biblioteket.

Har du något exempel på den här trenden?

Ja, vi hade fått signaler från verksamheten om att AI-systemet för klassificering av e-post fördelade e-post till fel inkorg. För den specifika inkorgen fanns ett stort antal e-post som modellen tränats på. Efter att ha lagt ned ett större arbete med kvaliteten på träningsdata så påverkades träffsäkerheten ändå bara på marginalen.

Genom att använda en generell språkmodell i kombination med en mindre datamängd för att anpassa modellen till syftet med klassificering av Skatteverkets e-post, ändrades förutsättningarna för att förbättra och vidareutveckla modellen.

Dataarkitektur

Det är svårt, om inte omöjligt, att generellt beskriva vilken eller vilka dataarkitekturer som är optimala för en organisation. Det viktiga är att arkitekturen är modulär och tillräckligt flexibel för att stödja olika användningsfall och möjliggöra för en effektivare styrning. Det är också ett område som är under konstant utveckling, där det senaste arkitekturella ramverket kan anses vara gårdagens innan det ens hunnits implementeras. Under 2010-talet populariserades data lakes som ett sätt att centralisera data i en verksamhet, vilket var en motpol till en traditionell data warehouse-arkitektur med data marts som påstods vara för silobaserade. Men innan decenniet var slut började pendeln svänga mot decentralisering igen, den här gången via så kallade data meshes.

Exakt var pendeln kommer att stanna går inte att förutspå. Det man som verksamhet kan göra är att noggrant utvärdera de alternativ som finns och anpassa dem till verksamhetens förutsättningar och behov. Speciellt i fall där det redan finns en fungerande dataarkitektur på plats så behöver potentiellt nya lösningar ses i den kontexten. Ibland behöver inte allt bytas ut, utan det går att modifiera existerande lösningar. Framgångsrik AI-utveckling har skett med data både från data warehouses och data lakes. Det viktiga är att se olika datalagringsteknologier som kompletterande lösningar som tillgodoser en mängd olika datakällor och tjänar flera verksamhetsbehov, inte som konkurrerande koncept.

Viktig att komma ihåg!

Oavsett vilken eller vilka dataarkitekturer som används bör konsumenternas behov tillgodoses utifrån ett tillgänglighetsperspektiv. Datamängder som man inte vet om att de finns eller som är svåra att komma åt har en begränsad nytta.

Datainsamling

I många fall har en organisation data som kan användas för att utveckla en AI-tjänst, i andra fall är denna data bristfällig eller på annat sätt otillräcklig och i ytterligare fall saknas den data som skulle behövas för att bygga en eftertraktad tjänst. Även i de fall där det finns data tillgänglig är det inte ovanligt att man inser att ny, eller kompletterande, data behöver samlas in för att uppnå den kvalitetsnivå som eftersträvas.

För att skapa goda förutsättningar för att använda AI behöver man som organisation ha en välfungerade datainsamlingsstrategi så att tjänster och applikationer samlar på sig interaktionsdata över tid. Denna data kan användas både för att analysera hur tjänsten faktiskt används men också för att bygga prediktiva modeller.

Det kan också vara nödvändigt att medvetet tillföra mänsklig kunskap, dvs annotera data. De individer, verktyg och processer som bidrar till att ny data tillkommer eller berikas blir då en del av AI-systemet i betydelsen att tjänstens slutgiltiga förmåga kan härledas till annoteringsprocessen.

Datahistorik

En av de viktigaste förutsättningarna för att kunna skala upp användning av AI i en organisation är tillgången till data. Det ska vara möjligt att återskapa hur data förändrats över tid, vilket kan vara ett problem och hamna i konflikt med andra regleringar, som exempelvis bestämmelser om gallring eller registerlagstiftningar.

Datakällor som används i verksamheten behåller vanligen inte historik, utan skriver i stället över data med den senaste uppdateringen. Det händer ofta att en idé för en ny AI-applikation inte kan genomföras eftersom historiken inte finns och även om insamling av historik implementeras, kan det ta år innan det finns tillräckligt med data för att träna en modell. Om en lösning baserad på AI ska utvecklas är det därför viktigt att bygga organisationens datakällor med historik i åtanke, så att information kan tas fram i efterhand. Detta bör vara en insikt som genomsyrar organisationer inför framtiden.

Här är det viktigt att tänka på att AI ofta ställer högre krav på historiseringen. Träning av AI-modeller kräver dessutom att datakvaliteten är konsekvent över tid, vilket ställer krav på verksamhetens datastyrning så att historiska förändringar i denna data är dokumenterade.

Om historiken inte är komplett behöver det ändå inte utesluta att man kan börja utveckla nya lösningar baserade på AI. Ibland är det möjligt att återskapa eller i alla fall beräkna historiken tillräckligt för en första modell. Detta bör undersökas i de fall historiken verkar otillräcklig.

Viktig att komma ihåg!

Historiskt data är ofta viktigt för att kunna träna AI-modeller och det är därför viktigt att bygga organisationens datalager med historik i åtanke.

Tillgänglighet till data (inom och utanför organisationen)

Alla verksamheter som ska, eller redan använder lösningar baserade på AI, behöver hitta en väg att tillgängliggöra data för utveckling av AI-förmågor samtidigt som man följer etiska och juridiska riktlinjer. Särskilt inom offentlig verksamhet är det kritiskt att all behandling av data kan knytas till verksamhetens uppdrag, och att all behandling av data vilar på en laglig grund med ett relevant syfte. Det är också viktigt att skilja på tillgång till mycket data och tillgång till rätt och relevant data.

”Helt avgörande att vi känner att vi lär oss av att använda data”

Två frågor till Karolina Jedrzejewska, AI Product Manager på Arbetsförmedlingen, om demokratiserad data.

Vad är demokratiserad data?

Demokratisering av data innebär att rätt och relevant data finns tillgängligt för individer vid rätt tillfälle. Det är en grundförutsättning för en resa mot en lärande organisation. Men för att komma dit behöver vi bygga förståelse, kunskap och transparens kring data. Att skapa medvetenhet om att data är viktigt för oss, eftersom den ger oss möjligheter att utvinna kunskap och insikter och bli bättre på att fatta beslut. Vi kan också med data som stöd, få svar på frågor som vi inte ställer idag men som kan vara viktiga för oss i framtiden.

I grund och botten handlar det om en kulturell förändring, ett experimenterande och lärande arbetssätt. En transformation från en processdriven organisation, där fokus främst ligger på att utföra uppgifter efter förutbestämda steg i processen, till att gå över till en organisation som styrs av data och sammanhang. Det betyder att var och en kan bidra med att skapa data och förbättra datakvaliteten, genom att kvalitetssäkra de uppgifter vi samlar in.

Hur går det till att gå över till en datadriven organisation?

Man kan se det som en trappa, som en organisation behöver ta sig igenom steg för steg för att åstadkomma förändring, och börja dela lärdomar för att bli en lärande organisation.

Inledningsvis utforskar vi vilka data som är relevanta för den specifika kontexten. Vi börjar med att ställa frågorna: Vad är det för värde som vi vill skapa? Finns det förutsättningar för att skapa det värdet? Vad är det vi behöver förstå och veta för att ta oss framåt? Finns det möjlighet att ta fram relevanta förslag till en rekommendation exempelvis för en kund? Eller en människa som ska fatta ett beslut eller göra en bedömning?
I nästa steg har vi samlat in relevant data och investerat i verktyg och kompetenser som exempelvis data scientists. Vi har testat olika hypoteser och kommit fram till att vi kan skapa affärs- och användarvärden. Då är det dags att leverera och här kan vi nyttja AI för att generera datadrivna insikter som människor kan agera på. Det är viktigt att komma ihåg att det endast är de insikter som människor agerar på som skapar värde! Därför måste de vara tolkningsbara, handlingsbara och levererade vid rätt tidpunkt.
Det är först härifrån som vi kan börja bygga förtroende, kunskap och ett nytt arbetssätt hos medarbetarna, och det är först här som vi kan se och mäta hur vi faktiskt skapar värde. Ett ökat värde av data åstadkoms genom att börja mäta och kontinuerligt förbättra datakvaliteten, med hjälp av människor som har domänkunskap. Vi vill bygga upp en känsla av meningsskapande och mervärde för domänexperterna: ”Det här hjälper mig i min vardag och jag bidrar gärna med att kvalitetssäkra informationen, eftersom det kan vara av stort värde för någon annan i organisationen”.
Nu kan vi gå till nästa steg och titta på hur kan vi effektivisera vårt arbete, vilka synergier kan vi hitta gemensamt och hur ska vi samarbeta kring det? Hur tillgodoser vi fler behov och får till sammanhängande data? Vi tittar på konceptet ”data as a product” (data som produkt) och hur vi kan skapa återkommande värde över tid. Hur kan det paketeras och livscykelhanteras på ett bra sätt?
När man kommer hit, då kan man tro att vi är framme vid målet. Fler har börjat experimentera med ett datadrivet arbetssätt. Vi satsar på data och gör något konkret av det. Vi utvecklar processer och använder oss av metoder som hjälper oss skapa nya produkter under extrem osäkerhet. Men vi är inte framme vid målet, utan bara i början på en spännande resa mot en datadriven och lärande organisation!