Képzelje el, hogy nyugodtan ül a kanapén, és csak parancsot ad számítógépének, laptopjának vagy mobiltelefonjának olyan egyszerű feladatok végrehajtására, mint például egy levél beírása vagy néhány parancs végrehajtása. Lehetséges?
Természetesen ez az, ahol a hangfelismerés képbe kerül.
A definíció szerint ez az emberi beszéd felismerésének folyamata és dekódolta szöveges formába.
Elv
Az alapelv hangfelismerés magában foglalja azt a tényt, hogy bármely ember által mondott beszéd vagy szavak rezgéseket okoznak a levegőben, amelyeket hanghullámoknak neveznek. Ezeket a folytonos vagy analóg hullámokat digitalizálják és feldolgozzák, majd megfelelő szavakra, majd megfelelő mondatokra dekódolják.
A beszédfelismerő rendszer elemei
Tehát miből áll egy alapvető beszédfelismerő rendszer?
- Beszédrögzítő eszköz : Ez egy mikrofonból áll, amely a hanghullám-jeleket elektromos jelekké alakítja, és egy analóg-digitális átalakítóból, amely az analóg jeleket mintavételezve és digitalizálva megszerzi a számítógép számára érthető diszkrét adatokat.
- Digitális jelmodul vagy processzor : Feldolgoz a nyers beszédjelen, például frekvenciatartomány átalakítással, csak a szükséges információk visszaállításával stb.
- Előfeldolgozott jel tárolása : Az előfeldolgozott beszédet a memóriában tároljuk a beszédfelismerés további feladatainak elvégzéséhez.
- Referencia beszédminták : A számítógép vagy a rendszer előre definiált beszédmintákból vagy sablonokból áll, amelyeket már a memóriában tároltak, és amelyek az egyeztetés referenciaként szolgálnak.
- Mintaillesztési algoritmus : Az ismeretlen beszédjelet összehasonlítjuk a referencia beszédmintával, hogy meghatározzuk a tényleges szavakat vagy a szavak mintázatát.
A rendszer működése
Most nézzük meg, hogyan is működik az egész rendszer.
- A beszéd akusztikus hullámformának tekinthető, vagyis az üzenetet hordozó jelnek. Egy normális ember, artikulátorainak (beszédszervei) korlátozott mozgási sebességével, átlagosan 10 hang / másodperc sebességgel képes beszédet produkálni. Az átlagos információsebesség körülbelül 50-60 bit / másodperc. Ez azt jelenti, hogy a beszédjelben valójában csak 50 bit / másodperc információra van szükség. Ezt az akusztikus hullámformát a mikrofon analóg elektromos jelekké alakítja. Az analóg-digitális átalakító ezt az analóg jelet digitális mintává alakítja, precíz időközönkénti pontos hullámméréssel.
- A digitalizált jel periódusos jeláramból áll, amelyet másodpercenként 16000 alkalommal vettek mintát, és nem alkalmas tényleges végrehajtására beszédfelismerés folyamat, mivel a minta nem könnyen megtalálható. A tényleges információ kinyerése érdekében a jelet az időtartományban frekvenciatartományban lévő jellé alakítjuk át. Ezt a digitális jelfeldolgozó végzi FFT technikával. A digitális jelben az alkatrész minden 1/100 utánthmásodpercig elemezzük, és kiszámítjuk az egyes ilyen komponensek frekvenciaspektrumát. Más szavakkal, a digitalizált jel a frekvencia amplitúdóinak kis részeire van felosztva.
- Minden szegmens vagy a frekvenciagráf az emberi lények által adott különböző hangokat ábrázolja. A számítógép elvégzi az ismeretlen szegmensek illesztését az adott nyelv tárolt fonetikájával. Ez a mintaillesztés 3 módon történik:
Akusztikus fonetikai megközelítés alkalmazása : Az akusztikus fonetikai megközelítésben általában a Rejtett Markov modellt alkalmazzák. Ez a modell egy nem determinisztikus valószínűségi modellt fejleszt ki a beszédfelismeréshez. Ez a modell két változóból áll - a számítógép memóriájában tárolt fonémák rejtett állapotaiból és a digitális jel látható frekvencia szegmenséből. Minden fonémának megvan a maga valószínűsége, és a szegmens a valószínűségnek megfelelően illeszkedik a fonémához, majd az egyeztetett fonémákat összegyűjtve a megfelelő szavakat alkotják a nyelv tárolt nyelvtani szabályai szerint.
Mintamegismerési megközelítés alkalmazása : A mintafelismerési megközelítés során a rendszert egy adott nyelvű beszédmintával képezik ki, és az ismeretlen beszédmintát összehasonlítják a referencia beszédmintával a jelek közötti távolság idővetemítési technikával történő meghatározásával.
A mesterséges intelligencia használata : A Mesterséges Intelligencia megközelítés olyan alapvető tudásforrások hasznosításán alapul, mint például a spektrális mérések alapján elhangzott hangok ismerete, a megfelelő értelmes és szintaktikai szavak ismerete.
A beszédfelismerési rendszer függvényei
A beszédfelismerési rendszer a következő tényezőktől függ:
- Elszigetelt szavak : Szünetnek kell lennie az egymást követő kimondott szavak között, mert a folyamatos szavak átfedhetik egymást, ami megnehezíti a rendszer megértését, amikor egy szó elkezdődik vagy végződik. Így csendnek kell lennie az egymást követő szavak között.
- Egyetlen hangszóró : Sok beszélő, akik beszédbevitelt próbálnak megadni egyszerre, a jelek átfedését és megszakadásokat okozhatnak. Az alkalmazott beszédfelismerő rendszerek többsége beszélőtől függő rendszerek.
- Szókincs mérete : A nagy szókincsű nyelveket nehéz figyelembe venni a mintaillesztéshez, mint a kis szókincsűeket, mivel az utóbbiaknál kisebb az esély a kétértelmű szavakra.
Beszédfelismerő rendszer Windows 7 rendszeren
A következő lépéseket szeretném ajánlani minden olyan személy számára, aki a Windows 7 rendszert használja a beszédfelismerő rendszerhez
- Nyissa meg a Vezérlőpultot a Start menüből, vagy kattintson az ikonra.
- Válassza a Könnyű hozzáférés lehetőséget, majd kattintson a Beszédfelismerés gombra.
- Ezután kattintson a mikrofon beállítása elemre, és válassza ki az asztali mikrofont a rendelkezésre álló lehetőségek közül.
- Ezután végezze el a beszéd oktatóanyagot, és kövesse a megadott utasításokat.
- Ezt követően oktassa ki a számítógépet a jobb lehetőségek érdekében, hogy a számítógép a beszédjelének meghatározott mintáját tárolja. Ehhez kattintson a „Oktassa a számítógépet, hogy jobban megértsen” lehetőségre, majd kövesse az utasításokat.
- Most indítsa el a beszédfelismerés ikont, és kezdje el diktálni a beszédet a számítógépre. Saját szavait hozzáadhatja a számítógépes szótárhoz is.
Gyakorlati beszédfelismerő rendszerek: A HM2007 használata
Egy gyakorlati beszédfelismerő rendszer felépíthető a Speech Recognition IC használatával HM2007 . A HM2007 egy 48 tűs IC, amely beszédfelismerési funkciót biztosít. Két módban működik: Kézi vagy CPU módban. Mindkét módban az IC-t először arra tanítja a szavak felismerésére, hogy a felhasználó minden egyes szót kimond a megfelelő számra, amelyet megnyomnak a gombon. Az IC minden szójelet a szónak megfelelő memóriahelyen tárol. Az IC-ből származó adatok a mikrovezérlőhöz kapcsolódnak, ahonnan az LCD-n megjelennek.
Általában kézi módot használunk a HM2007 működéséhez.
- A HM2007 egy RDY tűből áll, amely egy aktív alacsony tű, jelezve, hogy az IC készen áll az edzés céljára.
- A Voice bemenet egy mikrofonon keresztül történik, amely az IC MICIN csatlakozójához van csatlakoztatva.
- Az IC összekapcsolódik egy kezelővel, amelyet az egyes szavaknak megfelelő számbevitel biztosítására használnak. Az IC két funkcióban működik - Clear és Train. Amikor a Train billentyűt megnyomja a billentyűzeten, az IC megkezdi az edzés folyamatát.
- A felhasználó megnyom egy számgombot, mielőtt megnyomja a „Vonat” funkciógombot, és kimondja a szükséges szót a mikrofonhoz.
- Az IC magas jelet küld az ME (Memory Enable) tűhöz, amely az SRAM megfelelő ME tűjéhez csatlakozik. A megnyomott számnak megfelelő 8 bites adatjelet a külső buszon keresztül az SRAM (külső RAM) tárolja.
- A hangbemenet észlelése után az RDY tű logikai magasságban van, és az IC a felismerési állapotba kerül, ahol megkezdi a felismerési folyamatot.
- A folyamat eredményét az adat buszon keresztül, a DEN (Data Enable) tűvel magasan adják meg.
- A 8 bites adatokat ezután egy soros interfész processzoron keresztül el lehet juttatni a mikrovezérlőhöz, vagy először reteszelni lehet az IC 74HC573 retesz segítségével.
- A mikrovezérlő kapcsolódik az LCD-hez, és úgy van beprogramozva, hogy a megfelelő szó megjelenjen a kijelzőn.
Az egyetlen óvintézkedés, amelyet meg kell tenni, az, hogy ne használjon homonimákat (hasonló hangú szavakat), és gondoskodjon a hang gerjesztéséről is.
Szóval, ez az, ahogy a alapvető beszédfelismerési rendszer művek. Bármely további inputot hozzáadhatunk.
Kép jóváírása
A beszédfelismerő rendszer elemei a beszéd és a hangszóró felismerésének bevezetésével - Richard D. Peacocke és Daryl H. Graf