Morzsák

Oldal címe

OCR-hibák kvantitatív elemzése több szövegváltozat összehasonlításával

Címlapos tartalom

Az optikai karakterfelismeréssel (OCR) feldolgozott digitalizált dokumentumokba különböző okokból(szokatlan betűtípus, szennyezett oldal, nem tökéletes nyomtatás stb.) hibák kerülnek, amelyek rontják a dokumentum olvashatóságát és további használhatóságát például korpusz építése vagy nyelvmodell tanítása tekintetében. Ahhoz, hogy ezeket javítani tudjuk, hasznos ismernünk, hogy az OCR-alkalmazások milyen betűket és betűkombinációkat milyen gyakran mire szoktak rontani. Az általunk bemutatott eljárással nagy mennyiségű magyar nyelvű szkennelt oldalkép több OCR-programmal felismert szövegváltozatát összehasonlítva nyertünk adatokat az OCR-hibák gyakoriságáról és az alkalmazások relatív pontosságáról. Annak eldöntését, hogy az eltérő változatok közül melyik a helyes, illetve rontott, karakterszintű nyelvmodellre bíztuk. Cikkünkben közöljük a módszerünk leírását, a magyar OCR hibák statisztikáját, valamint az egyes alkalmazások hibaarányait.