Ljóslestur

Úr Wikipediu, frjálsa alfræðiritinu

Ljóslestur (eða ljóskennsl) er tækni sem notuð er til að færa ritað mál af pappír yfir á stafrænt form (e. Optical Character Recognition, OCR).

Fyrst er blaðið skannað og fæst þá stafræn útgáfa af því. Að því loknu er hægt að ljóslesa textann, sérútbúið forrit skoðar myndina og greinir mynstur sem það telur vera bókstafi. Forritið skrifar textann svo í skrá eftir óskum notandans.

Gæði[breyta | breyta frumkóða]

Ljóslestur hefur náð góðum árangri með prentaðan texta en á talsvert í land með að geta gert handskrifuðum texta góð skil.

Góður árangur er talinn vera 99% nákvæmni. Það þýðir að einungis einn af hverjum hundrað bókstöfum sé rangur. Þetta þýðir þó að talsvert af villum er í stafræna textanum. Íslenskir textar sem eru ljóslesnir lenda oft í því að forritin rugli stundum saman ö og ð, þ og p skiptast á sætum og fleira.

Oft eru búnar til þjálfunarskrár fyrir forritin. Þá er farið handvirkt í gegnum nokkrar blaðsíður og forritið tilgreinir hvaða stafir það er ekki 100% öruggt á og biður notandann að staðfesta réttan staf. Þrátt fyrir þjálfunarskrárnar næst aldrei meira en 99% öryggi nema textinn sé þeim mun einfaldari og geysivel varðveittur á pappírnum.

Gæði ljóslesturs fara jafnt eftir gæðum ritsins sem skannað er, gæðum skönnuðu myndarinnar, forriti sem notað er og þjálfunarskrám.

Forrit[breyta | breyta frumkóða]

Eitt forrit hefur yfirburðastöðu á markaðnum, ABBYY FineReader sem er ættað frá Rússlandi.

Tesseract er helsta fría forritið sem er notað til að ljóslesa íslenskan texta, en gæði þess eru þó minni en með Abby FineReader.

Ljóslestur á Íslandi[breyta | breyta frumkóða]

Íslandspóstur notar ljóslestur til að flokka bréfapóst sem er með prentaða utanáskrift eftir póstnúmerum. Vélin sem notuð er við flokkunina getur þó ekki lesið allar leturgerðir eða feitletur svo eitthvað sé nefnt.

Landsbókasafn Íslands-Háskólabókasafn er einnig einn stærsti íslenski aðilinn sem notar ljóslestur. Það notar hann einkum til að gera blöð og tímarit leitarhæf á Tímarit.is.

2012 voru gömlu Alþingisskjölin færð á stafrænt form með ljóslestri og stafsetningarleiðréttingarforriti til að reyna að laga villurnar í ljóslestrinum.

Ljóslestur erlendis[breyta | breyta frumkóða]

Ljóslestur á rætur sínar að rekja aftur til 1950 þegar David Shepard hóf smíði á vél til þess að breyta prentuðum boðum yfir í tölvutæk gögn.

Í dag er ljóslestur í gríðarlegri notkun um allan heim, einkum í fjármáladeildum fyrirtækja þar sem reikningar eru ljóslesnir og geymdir í stafrænu formi.

Tengt efni[breyta | breyta frumkóða]

Distributed Proofreaders nýtir sér ljóslestur í vinnu sinni við að koma bókum og ritum á stafrænt form fyrir Project Gutenberg. Þar sem nákvæmnin verður sjaldnast meiri en 99% sjá notendur Distributed Proofreaders um prófarkalestur á textanum svo hann verði boðlegur til birtingar.

Tenglar[breyta | breyta frumkóða]