Állami anyakönyvek adatainak feldolgozása gépi tanulás segítségével

A mezők összetett szerkezetűek, például a „túltöltött mezők” esetében egy cellában több információ is szerepelhet. A 12 mezőtípus adatinak elkülönítése eddig nem volt sikeres szabályalapú vagy modellalapú megközelítéssel. Jelenleg LLM-el kísérletezünk, amelyek a szövegkörnyezet alapján címkéket rendelnek az információkhoz. A promptalapú megközelítést különböző modellek (pl. Qwen2.5, DeepSeek, Llama3.3) tesztelésével vizsgáljuk, és hibrid, gyorsabb modellek fejlesztésén is dolgozunk.

Morzsák

Oldal címe

Állami anyakönyvek adatainak feldolgozása gépi tanulás segítségével

Címlapos tartalom