A hangfelismerés megértése

Próbálja Ki A Műszerünket A Problémák Kiküszöbölésére





Képzelje el, hogy nyugodtan ül a kanapén, és csak parancsot ad számítógépének, laptopjának vagy mobiltelefonjának olyan egyszerű feladatok végrehajtására, mint például egy levél beírása vagy néhány parancs végrehajtása. Lehetséges?

Természetesen ez az, ahol a hangfelismerés képbe kerül.




A definíció szerint ez az emberi beszéd felismerésének folyamata és dekódolta szöveges formába.

Elv

Az alapelv hangfelismerés magában foglalja azt a tényt, hogy bármely ember által mondott beszéd vagy szavak rezgéseket okoznak a levegőben, amelyeket hanghullámoknak neveznek. Ezeket a folytonos vagy analóg hullámokat digitalizálják és feldolgozzák, majd megfelelő szavakra, majd megfelelő mondatokra dekódolják.



hangfelismerés

A beszédfelismerő rendszer elemei

Tehát miből áll egy alapvető beszédfelismerő rendszer?

A beszédfelismerő rendszer elemei

  • Beszédrögzítő eszköz : Ez egy mikrofonból áll, amely a hanghullám-jeleket elektromos jelekké alakítja, és egy analóg-digitális átalakítóból, amely az analóg jeleket mintavételezve és digitalizálva megszerzi a számítógép számára érthető diszkrét adatokat.
  • Digitális jelmodul vagy processzor : Feldolgoz a nyers beszédjelen, például frekvenciatartomány átalakítással, csak a szükséges információk visszaállításával stb.
  • Előfeldolgozott jel tárolása : Az előfeldolgozott beszédet a memóriában tároljuk a beszédfelismerés további feladatainak elvégzéséhez.
  • Referencia beszédminták : A számítógép vagy a rendszer előre definiált beszédmintákból vagy sablonokból áll, amelyeket már a memóriában tároltak, és amelyek az egyeztetés referenciaként szolgálnak.
  • Mintaillesztési algoritmus : Az ismeretlen beszédjelet összehasonlítjuk a referencia beszédmintával, hogy meghatározzuk a tényleges szavakat vagy a szavak mintázatát.
A rendszer működése

Most nézzük meg, hogyan is működik az egész rendszer.


A rendszer működése

  • A beszéd akusztikus hullámformának tekinthető, vagyis az üzenetet hordozó jelnek. Egy normális ember, artikulátorainak (beszédszervei) korlátozott mozgási sebességével, átlagosan 10 hang / másodperc sebességgel képes beszédet produkálni. Az átlagos információsebesség körülbelül 50-60 bit / másodperc. Ez azt jelenti, hogy a beszédjelben valójában csak 50 bit / másodperc információra van szükség. Ezt az akusztikus hullámformát a mikrofon analóg elektromos jelekké alakítja. Az analóg-digitális átalakító ezt az analóg jelet digitális mintává alakítja, precíz időközönkénti pontos hullámméréssel.
  • A digitalizált jel periódusos jeláramból áll, amelyet másodpercenként 16000 alkalommal vettek mintát, és nem alkalmas tényleges végrehajtására beszédfelismerés folyamat, mivel a minta nem könnyen megtalálható. A tényleges információ kinyerése érdekében a jelet az időtartományban frekvenciatartományban lévő jellé alakítjuk át. Ezt a digitális jelfeldolgozó végzi FFT technikával. A digitális jelben az alkatrész minden 1/100 utánthmásodpercig elemezzük, és kiszámítjuk az egyes ilyen komponensek frekvenciaspektrumát. Más szavakkal, a digitalizált jel a frekvencia amplitúdóinak kis részeire van felosztva.
  • Minden szegmens vagy a frekvenciagráf az emberi lények által adott különböző hangokat ábrázolja. A számítógép elvégzi az ismeretlen szegmensek illesztését az adott nyelv tárolt fonetikájával. Ez a mintaillesztés 3 módon történik:

Akusztikus fonetikai megközelítés alkalmazása : Az akusztikus fonetikai megközelítésben általában a Rejtett Markov modellt alkalmazzák. Ez a modell egy nem determinisztikus valószínűségi modellt fejleszt ki a beszédfelismeréshez. Ez a modell két változóból áll - a számítógép memóriájában tárolt fonémák rejtett állapotaiból és a digitális jel látható frekvencia szegmenséből. Minden fonémának megvan a maga valószínűsége, és a szegmens a valószínűségnek megfelelően illeszkedik a fonémához, majd az egyeztetett fonémákat összegyűjtve a megfelelő szavakat alkotják a nyelv tárolt nyelvtani szabályai szerint.

Mintamegismerési megközelítés alkalmazása : A mintafelismerési megközelítés során a rendszert egy adott nyelvű beszédmintával képezik ki, és az ismeretlen beszédmintát összehasonlítják a referencia beszédmintával a jelek közötti távolság idővetemítési technikával történő meghatározásával.

A mesterséges intelligencia használata : A Mesterséges Intelligencia megközelítés olyan alapvető tudásforrások hasznosításán alapul, mint például a spektrális mérések alapján elhangzott hangok ismerete, a megfelelő értelmes és szintaktikai szavak ismerete.

A beszédfelismerési rendszer függvényei

A beszédfelismerési rendszer a következő tényezőktől függ:

  • Elszigetelt szavak : Szünetnek kell lennie az egymást követő kimondott szavak között, mert a folyamatos szavak átfedhetik egymást, ami megnehezíti a rendszer megértését, amikor egy szó elkezdődik vagy végződik. Így csendnek kell lennie az egymást követő szavak között.
  • Egyetlen hangszóró : Sok beszélő, akik beszédbevitelt próbálnak megadni egyszerre, a jelek átfedését és megszakadásokat okozhatnak. Az alkalmazott beszédfelismerő rendszerek többsége beszélőtől függő rendszerek.
  • Szókincs mérete : A nagy szókincsű nyelveket nehéz figyelembe venni a mintaillesztéshez, mint a kis szókincsűeket, mivel az utóbbiaknál kisebb az esély a kétértelmű szavakra.
Beszédfelismerő rendszer Windows 7 rendszeren

A következő lépéseket szeretném ajánlani minden olyan személy számára, aki a Windows 7 rendszert használja a beszédfelismerő rendszerhez

  • Nyissa meg a Vezérlőpultot a Start menüből, vagy kattintson az ikonra.
  • Válassza a Könnyű hozzáférés lehetőséget, majd kattintson a Beszédfelismerés gombra.
  • Ezután kattintson a mikrofon beállítása elemre, és válassza ki az asztali mikrofont a rendelkezésre álló lehetőségek közül.
  • Ezután végezze el a beszéd oktatóanyagot, és kövesse a megadott utasításokat.
  • Ezt követően oktassa ki a számítógépet a jobb lehetőségek érdekében, hogy a számítógép a beszédjelének meghatározott mintáját tárolja. Ehhez kattintson a „Oktassa a számítógépet, hogy jobban megértsen” lehetőségre, majd kövesse az utasításokat.
  • Most indítsa el a beszédfelismerés ikont, és kezdje el diktálni a beszédet a számítógépre. Saját szavait hozzáadhatja a számítógépes szótárhoz is.
Gyakorlati beszédfelismerő rendszerek: A HM2007 használata

Egy gyakorlati beszédfelismerő rendszer felépíthető a Speech Recognition IC használatával HM2007 . A HM2007 egy 48 tűs IC, amely beszédfelismerési funkciót biztosít. Két módban működik: Kézi vagy CPU módban. Mindkét módban az IC-t először arra tanítja a szavak felismerésére, hogy a felhasználó minden egyes szót kimond a megfelelő számra, amelyet megnyomnak a gombon. Az IC minden szójelet a szónak megfelelő memóriahelyen tárol. Az IC-ből származó adatok a mikrovezérlőhöz kapcsolódnak, ahonnan az LCD-n megjelennek.

Gyakorlati beszédfelismerő rendszerek

Általában kézi módot használunk a HM2007 működéséhez.

  • A HM2007 egy RDY tűből áll, amely egy aktív alacsony tű, jelezve, hogy az IC készen áll az edzés céljára.
  • A Voice bemenet egy mikrofonon keresztül történik, amely az IC MICIN csatlakozójához van csatlakoztatva.
  • Az IC összekapcsolódik egy kezelővel, amelyet az egyes szavaknak megfelelő számbevitel biztosítására használnak. Az IC két funkcióban működik - Clear és Train. Amikor a Train billentyűt megnyomja a billentyűzeten, az IC megkezdi az edzés folyamatát.
  • A felhasználó megnyom egy számgombot, mielőtt megnyomja a „Vonat” funkciógombot, és kimondja a szükséges szót a mikrofonhoz.
  • Az IC magas jelet küld az ME (Memory Enable) tűhöz, amely az SRAM megfelelő ME tűjéhez csatlakozik. A megnyomott számnak megfelelő 8 bites adatjelet a külső buszon keresztül az SRAM (külső RAM) tárolja.
  • A hangbemenet észlelése után az RDY tű logikai magasságban van, és az IC a felismerési állapotba kerül, ahol megkezdi a felismerési folyamatot.
  • A folyamat eredményét az adat buszon keresztül, a DEN (Data Enable) tűvel magasan adják meg.
  • A 8 bites adatokat ezután egy soros interfész processzoron keresztül el lehet juttatni a mikrovezérlőhöz, vagy először reteszelni lehet az IC 74HC573 retesz segítségével.
  • A mikrovezérlő kapcsolódik az LCD-hez, és úgy van beprogramozva, hogy a megfelelő szó megjelenjen a kijelzőn.

Az egyetlen óvintézkedés, amelyet meg kell tenni, az, hogy ne használjon homonimákat (hasonló hangú szavakat), és gondoskodjon a hang gerjesztéséről is.

Szóval, ez az, ahogy a alapvető beszédfelismerési rendszer művek. Bármely további inputot hozzáadhatunk.

Kép jóváírása

A beszédfelismerő rendszer elemei a beszéd és a hangszóró felismerésének bevezetésével - Richard D. Peacocke és Daryl H. Graf