Az NYTK-NerKor több szempontú kiértékelése
Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékel...
Elmentve itt :
| Szerzők: | |
|---|---|
| Testületi szerző: | |
| Dokumentumtípus: | Könyv része |
| Megjelent: |
2022
|
| Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
18 |
| Kulcsszavak: | Nyelvészet - számítógép alkalmazása, Korpusz - nyelvészet |
| Tárgyszavak: | |
| Online Access: | http://acta.bibl.u-szeged.hu/75889 |
| Tartalmi kivonat: | Cikkünkben az NYTK-NerKor korpusz kiértékelését mutatjuk be több rendszer segítségével. Azt vizsgáljuk, hogy az egymillió tokent tartalmazó, műfajilag heterogén, szabadon elérhető gold standard adathalmaz mennyire használható magyar nyelvű tulajdonnév-felismerő rendszerek fejlesztéséhez. A kiértékeléshez négy különböző rendszert használtunk: a CRFsuite-ot, a magyar spaCy-t, a Stanzát és az emBERT-et. Cikkünkben ismertetjük az egyes rendszerek által elért eredményeket, melyeket össze is hasonlítunk. Az eredmények azt mutatják, hogy az NYTK-NerKor és a Szeged NER korpusz együttes használata még stabilabb modelleket eredményezhet, valamint hogy az NYTK-NerKoron tanítva a rendszerek nagyobb általánosító képességgel rendelkeznek, ami ahhoz kell, hogy egy azelőtt nem látott szövegben jól azonosítsák a neveket. |
|---|---|
| Terjedelem/Fizikai jellemzők: | 403-416 |
| ISBN: | 978-963-306-848-9 |