Képzelje el, hogy nyugodtan ül a kanapén, és csak parancsot ad számítógépének, laptopjának vagy mobiltelefonjának olyan egyszerű feladatok végrehajtására, mint például egy levél beírása vagy néhány parancs végrehajtása. Lehetséges?

Természetesen ez az, ahol a hangfelismerés képbe kerül.

A definíció szerint ez az emberi beszéd felismerésének folyamata és dekódolta szöveges formába.

Elv

Az alapelv hangfelismerés magában foglalja azt a tényt, hogy bármely ember által mondott beszéd vagy szavak rezgéseket okoznak a levegőben, amelyeket hanghullámoknak neveznek. Ezeket a folytonos vagy analóg hullámokat digitalizálják és feldolgozzák, majd megfelelő szavakra, majd megfelelő mondatokra dekódolják.

hangfelismerés

A beszédfelismerő rendszer elemei

Tehát miből áll egy alapvető beszédfelismerő rendszer?

A beszédfelismerő rendszer elemei

Beszédrögzítő eszköz : Ez egy mikrofonból áll, amely a hanghullám-jeleket elektromos jelekké alakítja, és egy analóg-digitális átalakítóból, amely az analóg jeleket mintavételezve és digitalizálva megszerzi a számítógép számára érthető diszkrét adatokat.
Digitális jelmodul vagy processzor : Feldolgoz a nyers beszédjelen, például frekvenciatartomány átalakítással, csak a szükséges információk visszaállításával stb.
Előfeldolgozott jel tárolása : Az előfeldolgozott beszédet a memóriában tároljuk a beszédfelismerés további feladatainak elvégzéséhez.
Referencia beszédminták : A számítógép vagy a rendszer előre definiált beszédmintákból vagy sablonokból áll, amelyeket már a memóriában tároltak, és amelyek az egyeztetés referenciaként szolgálnak.
Mintaillesztési algoritmus : Az ismeretlen beszédjelet összehasonlítjuk a referencia beszédmintával, hogy meghatározzuk a tényleges szavakat vagy a szavak mintázatát.

A rendszer működése

Most nézzük meg, hogyan is működik az egész rendszer.

A rendszer működése

A beszéd akusztikus hullámformának tekinthető, vagyis az üzenetet hordozó jelnek. Egy normális ember, artikulátorainak (beszédszervei) korlátozott mozgási sebességével, átlagosan 10 hang / másodperc sebességgel képes beszédet produkálni. Az átlagos információsebesség körülbelül 50-60 bit / másodperc. Ez azt jelenti, hogy a beszédjelben valójában csak 50 bit / másodperc információra van szükség. Ezt az akusztikus hullámformát a mikrofon analóg elektromos jelekké alakítja. Az analóg-digitális átalakító ezt az analóg jelet digitális mintává alakítja, precíz időközönkénti pontos hullámméréssel.
A digitalizált jel periódusos jeláramból áll, amelyet másodpercenként 16000 alkalommal vettek mintát, és nem alkalmas tényleges végrehajtására beszédfelismerés folyamat, mivel a minta nem könnyen megtalálható. A tényleges információ kinyerése érdekében a jelet az időtartományban frekvenciatartományban lévő jellé alakítjuk át. Ezt a digitális jelfeldolgozó végzi FFT technikával. A digitális jelben az alkatrész minden 1/100 után^thmásodpercig elemezzük, és kiszámítjuk az egyes ilyen komponensek frekvenciaspektrumát. Más szavakkal, a digitalizált jel a frekvencia amplitúdóinak kis részeire van felosztva.
Minden szegmens vagy a frekvenciagráf az emberi lények által adott különböző hangokat ábrázolja. A számítógép elvégzi az ismeretlen szegmensek illesztését az adott nyelv tárolt fonetikájával. Ez a mintaillesztés 3 módon történik:

Akusztikus fonetikai megközelítés alkalmazása : Az akusztikus fonetikai megközelítésben általában a Rejtett Markov modellt alkalmazzák. Ez a modell egy nem determinisztikus valószínűségi modellt fejleszt ki a beszédfelismeréshez. Ez a modell két változóból áll - a számítógép memóriájában tárolt fonémák rejtett állapotaiból és a digitális jel látható frekvencia szegmenséből. Minden fonémának megvan a maga valószínűsége, és a szegmens a valószínűségnek megfelelően illeszkedik a fonémához, majd az egyeztetett fonémákat összegyűjtve a megfelelő szavakat alkotják a nyelv tárolt nyelvtani szabályai szerint.

Mintamegismerési megközelítés alkalmazása : A mintafelismerési megközelítés során a rendszert egy adott nyelvű beszédmintával képezik ki, és az ismeretlen beszédmintát összehasonlítják a referencia beszédmintával a jelek közötti távolság idővetemítési technikával történő meghatározásával.

A mesterséges intelligencia használata : A Mesterséges Intelligencia megközelítés olyan alapvető tudásforrások hasznosításán alapul, mint például a spektrális mérések alapján elhangzott hangok ismerete, a megfelelő értelmes és szintaktikai szavak ismerete.

A beszédfelismerési rendszer függvényei

A beszédfelismerési rendszer a következő tényezőktől függ:

Elszigetelt szavak : Szünetnek kell lennie az egymást követő kimondott szavak között, mert a folyamatos szavak átfedhetik egymást, ami megnehezíti a rendszer megértését, amikor egy szó elkezdődik vagy végződik. Így csendnek kell lennie az egymást követő szavak között.
Egyetlen hangszóró : Sok beszélő, akik beszédbevitelt próbálnak megadni egyszerre, a jelek átfedését és megszakadásokat okozhatnak. Az alkalmazott beszédfelismerő rendszerek többsége beszélőtől függő rendszerek.
Szókincs mérete : A nagy szókincsű nyelveket nehéz figyelembe venni a mintaillesztéshez, mint a kis szókincsűeket, mivel az utóbbiaknál kisebb az esély a kétértelmű szavakra.

Beszédfelismerő rendszer Windows 7 rendszeren

A következő lépéseket szeretném ajánlani minden olyan személy számára, aki a Windows 7 rendszert használja a beszédfelismerő rendszerhez

Nyissa meg a Vezérlőpultot a Start menüből, vagy kattintson az ikonra.
Válassza a Könnyű hozzáférés lehetőséget, majd kattintson a Beszédfelismerés gombra.
Ezután kattintson a mikrofon beállítása elemre, és válassza ki az asztali mikrofont a rendelkezésre álló lehetőségek közül.
Ezután végezze el a beszéd oktatóanyagot, és kövesse a megadott utasításokat.
Ezt követően oktassa ki a számítógépet a jobb lehetőségek érdekében, hogy a számítógép a beszédjelének meghatározott mintáját tárolja. Ehhez kattintson a „Oktassa a számítógépet, hogy jobban megértsen” lehetőségre, majd kövesse az utasításokat.
Most indítsa el a beszédfelismerés ikont, és kezdje el diktálni a beszédet a számítógépre. Saját szavait hozzáadhatja a számítógépes szótárhoz is.

Gyakorlati beszédfelismerő rendszerek: A HM2007 használata

Egy gyakorlati beszédfelismerő rendszer felépíthető a Speech Recognition IC használatával HM2007 . A HM2007 egy 48 tűs IC, amely beszédfelismerési funkciót biztosít. Két módban működik: Kézi vagy CPU módban. Mindkét módban az IC-t először arra tanítja a szavak felismerésére, hogy a felhasználó minden egyes szót kimond a megfelelő számra, amelyet megnyomnak a gombon. Az IC minden szójelet a szónak megfelelő memóriahelyen tárol. Az IC-ből származó adatok a mikrovezérlőhöz kapcsolódnak, ahonnan az LCD-n megjelennek.

Gyakorlati beszédfelismerő rendszerek

Általában kézi módot használunk a HM2007 működéséhez.

A HM2007 egy RDY tűből áll, amely egy aktív alacsony tű, jelezve, hogy az IC készen áll az edzés céljára.
A Voice bemenet egy mikrofonon keresztül történik, amely az IC MICIN csatlakozójához van csatlakoztatva.
Az IC összekapcsolódik egy kezelővel, amelyet az egyes szavaknak megfelelő számbevitel biztosítására használnak. Az IC két funkcióban működik - Clear és Train. Amikor a Train billentyűt megnyomja a billentyűzeten, az IC megkezdi az edzés folyamatát.
A felhasználó megnyom egy számgombot, mielőtt megnyomja a „Vonat” funkciógombot, és kimondja a szükséges szót a mikrofonhoz.
Az IC magas jelet küld az ME (Memory Enable) tűhöz, amely az SRAM megfelelő ME tűjéhez csatlakozik. A megnyomott számnak megfelelő 8 bites adatjelet a külső buszon keresztül az SRAM (külső RAM) tárolja.
A hangbemenet észlelése után az RDY tű logikai magasságban van, és az IC a felismerési állapotba kerül, ahol megkezdi a felismerési folyamatot.
A folyamat eredményét az adat buszon keresztül, a DEN (Data Enable) tűvel magasan adják meg.
A 8 bites adatokat ezután egy soros interfész processzoron keresztül el lehet juttatni a mikrovezérlőhöz, vagy először reteszelni lehet az IC 74HC573 retesz segítségével.
A mikrovezérlő kapcsolódik az LCD-hez, és úgy van beprogramozva, hogy a megfelelő szó megjelenjen a kijelzőn.

Az egyetlen óvintézkedés, amelyet meg kell tenni, az, hogy ne használjon homonimákat (hasonló hangú szavakat), és gondoskodjon a hang gerjesztéséről is.

Szóval, ez az, ahogy a alapvető beszédfelismerési rendszer művek. Bármely további inputot hozzáadhatunk.