Morzsák

Oldal címe

Középkori nyelvek feldolgozása ingyenes és kereskedelmi generatív nyelvmodellekkel

Címlapos tartalom

A középkori szövegek számítógépes feldolgozása hagyományosan számos nehézségbe ütközik, amelyek főleg két okra vezethetők vissza. Az egyik a szükséges erőforrások hiánya akár szoftvertermékek (morfológiai és szintaktikai elemzők), akár adatok (elektronikus szótárak, kézzel annotált tanítóadatok) tekintetében. A másik a nyelvi sztenderd hiánya, ami kiterjed mind a szabályozott és következetes helyesírás hiányára, mind pedig „egy” adott nyelv számottevő szinkrón és diakrón változatosságára. Kutatásunkban azt vizsgáltuk, hogy a napjainkban divatos „kis” és „közepes” méretű ingyenes, saját hardveren futtatható generatív nyelvmodellek, amelyeket többnyelvű modern nyelvi adatokon tanítottak elő, mennyire alkalmasak történelmi nyelvek feldolgozására a nagy kereskedelmi modellekkel összevetve. Ehhez Albucasis sebészetről szóló tankönyvének arab eredetije, valamint annak latin, ófrancia és óokcitán nyelvű középkori változatai alapján e modellekkel készített gépi fordításokat értékeltünk ki a mű filológiai igényű angol fordítását referenciaként használva. Az eredmények segítenek annak megítélésében, hogy középkori nyelvek feldolgozásakor milyen generatív nyelvmodellek használatával érdemes próbálkozni a számítási erőforrásokat és a költségeket is figyelembe véve.