Inläsning/OCR

Majoriteten av det inlästa materialet har lästs in med hjälp av en skanner och ett OCR-program. OCR står för Optical character recognition och innebär att datorn automatiskt läser och tolkar text i ett dokument. Visst material är digitaliserat av andra aktörer såsom Google och Project Runeberg. Några enstaka böcker har jag läst in med en skannerpenna, vilket är en pennliknande liten handskanner som kan läsa in kortare textsnuttar.

En nästan avgörande faktor ifall en bok har varit lämplig eller inte för inläsning är ifall de har haft ett personregister. Det är stor skillnad på att processa några få registersidor jämfört med att extrahera ut uppgifter på ett flertal ställen på var och en av alla bokens sidor.

När man digitaliserar text med OCR blir det alltid feltolkningar. Mängden fel är beroende av ett flertal faktorer, såsom typsnitt, tryckkvalité, skador, smuts med mera. Allt material har genomgått en enklare tvätt och korrekturläsning samt strukturering med hjälp av Word och Excel.


Några exempel på feltolkningar är:

i tolkas som l
rn tolkas som m
ü som ii
h som li

För många av dessa återkommande fel är det lätt att hitta sätt för att åtgärda dem. Värre är det med de slumpartade felen som ibland kan vara svåra att upptäcka. Jag vill därmed påpeka att ni sannolikt kommer att stöta på felaktigheter, men förhoppningsvis färre och färre med tiden.

En slags feltolkning är särskilt besvärlig att rätta till. Det hänger ihop med att flera av de digitaliserade böckernas register inte innehåller personernas fullständiga förnamn utan bara initialer. Till exempel kan en person som heter Karl Erik Persson stå som Persson, K. E.. Om nu bokstaven K i Karl av någon anledning har tolkats som ett N och gett resultatet Persson, N. E. är det felet betydligt svårare att upptäcka än ifall det stått Persson, Narl Erik!

En brasklapp utfärdas därför för tillförlitligheten hos initialer i denna databas.

Korrektur

Om man upptäcker felaktigheter i databasen är man välkommen att ta kontakt så kan jag rätta det.