Noen utfordringer ved konvertering av dokumenter

Betraktninger og erfaringer av Pål Mjørlund

Bakgrunn

Det stilles krav om at dokumenter fra offentlig sektor skal benytte spesielle filformater når de skal publiseres på Internett og når de skal plasseres i arkiv. Dette skal sikre at dokumentene forblir lesbare og at de holder seg over tid. Veldig ofte fungerer dette svært bra, men det er ikke alle dokumenter som lar seg konvertere til godkjente formater uten at det oppstår store utfordringer.

Vi vil her vise noen av utfordringene

Hvem stiller krav?

De fleste er enig om at standardisering er bra. Det er flott å kunne åpne dokumenter på forskjellige skjermer. Gjerne på både nettbrett, telefon og på datamaskiner av forskjellig type. Dokumentformatet bør ikke gjøre at du må velge en maskin med Windows - eller med Linux eller med OS X for å få åpnet det. Vi anser dette som en selvfølge i dag at dette lar seg gjøre, og mye skyldes programvare- og dokumentstandarder.

De to viktigste kravstillerne for oss i det offentlige er Arkivverket og Standardiseringsrådet som er etablert av DIFI. Arkivverket vedlikeholder "Forskrift om utfyllende tekniske og arkivfaglige bestemmelser om behandling av offentlige arkiver" - som i hovedsak påvirker materiale som skal bevares over tid. De sitter også i standardiseringsrådet  - som i større grad påvirker utvekslingsformater; bl.a. for dokumenter som skal publiseres på Internett.

Hovedprinsippene er at standardene skal være åpne og tilgjengelig slik at vi kan få flere verktøy som kan lese og skrive dokumentformatet. Formatene skal være så utbredt som mulig, og den skal dekke de behovene vi har for funksjonalitet i dokumentene.

Gjeldende standarder

Jeg kommer ikke til å ta for meg alle standarder i dette dokumentet, men de viktigste standardene for vår del dekker tekstdokumenter, kartdata, bilde, lyd og video. Jeg kommer også til å si litt om regneark, siden dette har en del ekstra utfordringer.

Her er en oversikt over standarder for de forskjellige dokumenttypene:

Dokumenttype

Arkivering

Publisering

Lydopptak

PCM basert Wave (.WAV)

MP3

Ogg/vorbis

Ogg/flac

Flac/flac

MP3

Foto

JPEG

TIFF

Jpeg

Png

Video

Mpeg-2

MP4/H.264+AAC

OGG/Theora+Vorbis

Dokumenter

PDF/A-1

Ren tekst (ISO 8859-1, ISO 8859-4 eller UTF-8)

TIFF

XML (med tilhørende DTD, XML Schema og malfiler)

Hovedregel:

HTML

Ved formatkrav:

PDF/A-1, 1.4, 1.5, 1.6 eller 1.7

For videre bearbeiding:

ODF eller OOXML

Kartdata

SOSI

TIFF

 

Utfordringer med dokumentformatet

Komprimering

Alle formater har sine begrensninger, fordeler og ulemper. Dersom vi begynner med lyd, video og bildeformater så kan en generelt si at kvalitet og filstørrelse henger sammen. Desto bedre kvalitet du ønsker, jo mer lagringsplass og lengre overføringstid vil du trenge for å flytte et eksemplar. Med unntak av TIFF, benytter alle formatene seg av komprimering for å redusere filstørrelsen. MP-3, mpeg4, jpeg og ogg/vorbis benytter "destruktiv komprimering" - som fjerner innhold permanent, og dette innholdet vil være borte om en senere skal konvertere til et annet format. PNG, Flac benytter tapsfri komprimering slik måte at data ikke blir borte. Det samme kan TIFF gjøre. En kan også raskt miste data ved å endre oppløsning ved konvertering -> bilder kan gjøres mindre og lyd kan få redusert lydkvalitet ved at de lagres i et nytt format. Ved å bruke konverteringsprogrammet riktig, kan den siste formen for tap unngås.

Når det gjelder tekstdokumenter, så benyttes ofte tekstbehandlingsprogrammer, regneark og presentasjonsprogrammer for å lage dokumenter i offentlig sektor. Tekstbehandlingsprogrammene lagrer vanligvis i DOC, RTF, DOCX eller ODT format. Det første (DOC) er et lukket format og frarådes i alle bruksområder. DOCX og ODT kommer under henholdsvis OOXML og ODF, og kan distribueres til andre når de skal ha mulighet til å redigere dokumentet. RTF (rikt tekstformat) var et generisk tekstbehandlingsformat som ble mye brukt tidligere, men de siste årene har dette mer eller mindre forsvunnet. På samme måte fungerer xls, xlsx og odc for regneark og ppt, pptx og odp for presentasjoner. Her mangler det gamle generiske formatet. Det finnes også mange andre formater som kan regnes som tekstformater, men dette er de vanligste.

Manglende funksjoner i formatet

PDF/A er på mange måter et enklere dokumentformat enn DOCX og ODT. Det er først og fremst et format for å lage stabile visningsversjoner av dokumentene. Ved konvertering fra et digitalt dokument beholdes ofte tekstlaget slik at det forblir søkbart. I tillegg slås alle synlige lag sammen til ett - slik som ved utskrift. PDF/A-1 støtter ikke gjennomsiktighet, og vil gjøre gjennomsiktige områder i et bilde hvitt når det legger lagene sammen. Dermed kan bilder som ligger over teksten plutselig dekke mye mer av teksten enn det som først var tenkt.

Det er gjerne de flinkeste og mest avanserte brukerne som mister data ved konvertering av dokumenter. Vi har mottatt dokumenter som har blitt helt uleselig ved konvertering til PDF/A.

Når det gjelder regneark er det ofte et spørsmål om hva som er relevant når dokumentet skal langtidsbevares. Er det formler, grafer, registrerte data eller resultat av beregninger som er viktigst? Gjelder dette alle regnearkene i arbeidsboken, og de komplette regnearkene? Dette er spørsmål en må ta stilling til ved konvertering til PDF/A. Dette må en gjøre fordi PDF/A ikke inneholder funksjoner for å håndtere beregninger. De konverterer også vanligvis data til noe som kan skrives ut - og det er ikke alltid tilfelle med regneark.

En annen utfordring er kart og tegninger. Nå begynner vi å få en del tegninger i flere dimensjoner. Så lenge det ikke er aksepterte arkivformater for slike tegninger, vil vi få datatap. Enten ved at tegningene ikke arkiveres eller ved at de konverteres til et format som fjerner informasjon.

Manglende identifisering av dokumentformat

De fleste sak/arkivsystemene tester ikke annet enn oppgitt filendelse på dokumentet, og antar at alle PDF-dokumenter som sendes til arkivering er i PDF/A-format. Dette er ofte feil, og dokumentene forblir i en annen PDF-variant enn PDF/A. Det må nevnes at det ikke er gitt at konvertering ville vært mulig for alle disse variantene uansett. Vi kommer til det snart.

Utfordringer med konverteringsprosessen

Når og hvordan konverteringen foretas vil også være av betydning. For foto sier det seg selv at en kan redusere kvaliteten ved å fjerne farger eller å redusere antall punkter i bildet. På samme måten kan en redusere kvaliteten på lyd ved å redusere "bitdybde" og "samplingfrekvens". Bitdybden sier noe om hvor godt vi beskriver lyden på et bestemt tidspunkt mens samplingfrekvensen sier hvor ofte vi lager lydbeskrivelser. Video omfatter også et antall bilder pr. sekund, og det kan også reduseres. Alt dette fører til kvalitetstap - og styres av konverteringsprosessen.

Produksjon av PDF/A skjer gjerne på to måter. Enten ved å skanne dokumentet inn og lagre det som PDF/A eller ved å konvertere dokumentet til arkivformat på et eller annet tidspunkt.

Innskanning skjer ofte på dokumenter der håndskrevet signatur er ansett som viktig. Det er også brukt på dokumenter som kommer inn til organisasjonen i papirform. Når dokumentet har vært håndtert på papir, vil det mangle den elektroniske informasjonen. For å gjøre dokumentet lesbart for maskiner, må det gjennomføres en tekstgjenkjenning - noe som fortsatt har en viss feilrate. Spesielt på håndskrevet tekst. Disse dokumentene vil dermed være mindre tilgjengelig for blinde og svaksynte og for andre som er avhengig av at teksten leses opp for dem.

Ved konvertering av elektroniske dokumenter må originaldokumentet åpnes i et verktøy og tolkes. Deretter lagres det som PDF/A. For at tolkningen skal bli riktig, må skrifttyper og bilder som er brukt i det elektroniske dokumentet være tilgjengelig på den maskinen som foretar tolkningen. Derfor er det en fordel at konverteringen skjer så tidlig som mulig på en maskin som ligner på den dokumentet ble produsert på.

Hvordan kan vi løse utfordringene?

Nyere standarder

PDF/A-2 støtter gjennomsiktighet og lag. Dette er pr. i dag ikke tillatt etter regelverket, men det har blitt gitt dispensasjon for å bruke dette formatet for å slippe informasjonstap. I tillegg støtter PDF/A-2 jpeg2000 som bildeformat, noe som gir tapsfri og bedre komprimering enn det vi kunne få i PDF/A-1.

Det samme gjelder for video. MP4 med H.264/acc er formatet som vanligvis blir brukt for videoopptak av møter. Det er et utbredt format og en vil spare materialet ved å ikke konvertere det til det gamle mpeg-2 formatet. Det er rykter om at dette formatet også har blitt godkjent brukt av Riksarkivet.

Det er også diskusjoner om hvilke formater som skal godkjennes som arkivformater. Både OOXML og ODF har vært diskutert som mulig godkjente formater

Vi har dessverre ikke noen gode forslag til hvordan 3d tegninger kan håndteres i et standardisert format. Det er noen muligheter med PDF/A-3, men vi er foreløpig usikre på om dette er en fornuftig løsning.

Konvertering så tidlig som mulig

Det er bedre at avsender konverterer og kvalitetssikrer et elektronisk dokument enn at det gjøres hos mottaker. Det er avsender som vet hvordan dokumentet skal se ut og kan gjøre korrigeringer om noe endrer seg i konverteringen. Det er også større sannsynlighet for at konverteringen går bra hos avsender enn hos mottaker siden maskinen som konverterer dokumentet ofte har samme versjon av programvaren som det ble produsert i.

Kvalitetskontroll

Testing av konvertering bør skje så tidlig som mulig. Dersom det oppstår feil under konverteringen, er det lettere å gå tilbake til originalen med en gang enn å vente til den som lagde dokumentet er ferdig i organisasjonen og i alle fall ikke vet hva som må til for å korrigere dokumentet.

 

Se alle Arkivarens hjørne