Magyar nyelvű beszédleiratozó tanítása sok (tíz)ezer óra beszéddel
Jelen tanulmány célja a magyar nyelvű beszédfelismerés pontosságának növelése nagy mennyiségű tanítóanyag és önfelügyelt tanulás (Self-Supervised Learning, SSL) módszerének alkalmazásával. Kísérleteink során kisebb, nyilvános és nagyobb, nem publikus adathalmazokon is teszteltük a önfelügyelt előtan...
Elmentve itt :
| Szerzők: | |
|---|---|
| Testületi szerző: | |
| Dokumentumtípus: | Könyv része |
| Megjelent: |
Szegedi Tudományegyetem TTIK, Informatikai Intézet
Szeged
2025
|
| Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
21 |
| Kulcsszavak: | Nyelvészet - számítógép alkalmazása, Beszédkutatás, Mélytanulás, Akusztikus modellezés |
| Tárgyszavak: | |
| Online Access: | http://acta.bibl.u-szeged.hu/88774 |
| Tartalmi kivonat: | Jelen tanulmány célja a magyar nyelvű beszédfelismerés pontosságának növelése nagy mennyiségű tanítóanyag és önfelügyelt tanulás (Self-Supervised Learning, SSL) módszerének alkalmazásával. Kísérleteink során kisebb, nyilvános és nagyobb, nem publikus adathalmazokon is teszteltük a önfelügyelt előtanítás hatékonyságát. Az SSL technika alkalmazása kis méretű, magyar nyelvű tanító adathalmazok esetén látványos teljesítményjavulást eredményezett a beszédfelismerő modellek pontosságában. A nagy, több ezer órás adathalmazon történő finomhangolás esetén is felgyorsította a tanulási konvergenciát, azonban a jelenlegi eredmények alapján nem múlja felül az angol nyelvű felügyelt előtanítással elért pontosságot. Mindemellett a minden korábbinál nagyobb, tisztán magyar nyelvű halmazzal felügyelten finomhangolt modellek több független kiértékelő halmazon is minden korábbit megelőző pontosságot értek el. |
|---|---|
| Terjedelem/Fizikai jellemzők: | 87-96 |
| ISBN: | 978-963-688-034-7 |