MTBA - magyar nyelvû telefonbeszéd-adatbázis

TitleMTBA - magyar nyelvû telefonbeszéd-adatbázis
Publication TypeJournal Article
Year of Publication2002
AuthorsVicsi K, Tóth L, Kocsor A, Gordos G, Csirik J
JournalHíradástechnika
VolumeLVII
Pagination35-39
Abstract

Magyar nyelvu, telefonon keresztül rögzített beszéd-adatbázist hoz létre a Budapesti Muszaki Egyetem Távközlési és Telematikai Tanszék (Beszédakusztikai Laboratóriuma) a Szegedi Tudományegyetem Számítástudományi Tanszékével együttmuködve. A magyar telefonbeszéd-adatbázis (MTBA) a statisztikai feldolgozási módszereken alapuló, telefonon keresztül muködo beszédfelismero rendszerek betanítására és tesztelésére ad lehetoséget. Ilyen lehetséges alkalmazások az izolált szavas rendszerek, szókereso és azonosító rendszerek, dialógusrendszerek, valamint az ún. szótárfüggetlen felismerok, amelyeknél a felismerés a szónál kisebb felismerési egységek modellezésén alapul. Az adatbázis szabályrendszerét európai szakértoi bizottsági ajánlások alapján [1, 2] szerkesztettük meg. Az EU adatbázis-specifikációban nem szerepel a beszéd fonéma szintu szegmentációja és címkézése. Mivel a specifikáció összeállítása óta a beszédkutatás folyamatosan fejlodik, egy most létrehozandó adatbázisnál fontos az adatbázis egy részének fonémaszintu szegmentálása és címkézése, hiszen ez teszi lehetové a szótárfüggetlen rendszerek betanítását, és így ilyen típusú felismerok létrehozását. A készülo új adatbázis fonémaszintu szegmentálást és címkézést is tartalmaz. Az adatbázis hanganyaga 500 beszélo által telefonon bemondott szövegbol (300 vezetékes, 200 mobil hívás) áll. Az összeállított szöveganyag a sokfeladatos elvárásoknak megfeleloen igen sokrétu, változatos. Tartalmazza például a magyar településneveket, a Magyarországon muködo legjelentosebb intézmények neveit, valuták neveit, dátumokat, család és keresztneveket, speciálisan a magyar nyelv sajátosságait tükrözo mondatokat stb.