Technologie

Co je rozpoznávání hlasu?

Rozpoznávání hlasu se může vztahovat na jeden ze dvou typů informatiky: forenzní identifikace hlasu nebo schopnost řeči k textu.Tento článek se zabývá posledně uvedenou definicí.

Rozpoznání hlasu nebo rozpoznávání řeči v tomto případě je počítačovou technologií, která využívá zvukový vstup pro zadávání dat spíše než klávesnici.Například v rozhovoru do mikrofonu vytváří stejný výsledek jako psaní slov ručně s klávesnicí.Jednoduše řečeno, software pro rozpoznávání hlasu je navržen s interní databází rozpoznatelných slov nebo frází.Program odpovídá zvukovému podpisu řeči s odpovídajícími položkami v databázi.Problém spočívá v prakticky nekonečném škálu jednotlivých řečových vzorců a akcentů, které se skládá přirozenou lidskou tendencí provozovat slova dohromady.Košile čte, pomohl jsem Apple zničit pěknou pláž.Když se nahlas mluví, zní to jako:

Pomohl jsem Apple rozpoznat řeč.Tvrzení.Každý model se chová odlišně a má své vlastní schopnosti a hranice.

Programy rozpoznávání hlasu, které vyžadují, aby uživatel trénoval software, aby rozpoznal své konkrétní stylizované vzory řeči, se nazývají

systémy závislé na reproduktoru.Jednotlivci běžně používají tyto typy programů doma nebo v kanceláři.E -mail, poznámky, dopisy, dopisy, data a text mohou být vstup do mikrofonu. Některé systémy rozpoznávání hlasu, nazývané

diskrétní řeč

systémy, vyžadují, aby uživatel mluvil jasně a pomalu a oddělil slova.

Kontinuální řeč

Systémy jsou navrženy tak, aby porozuměly přirozenějšímu způsobu mluvení.Systém je reproduktory nezávislý , ale chápe pouze malou skupinu slov nebo frází.Volající má možnost odpovědět na otázku, obvykle s ano nebo ne.Po obdržení odpovědi systém eskaluje volajícího na další úroveň.Pokud volající odpoví s jedinečnou odpovědí, automatizovaná odpověď je obvykle, omlouvám se, nerozuměl jsem ti;Zkuste to prosím znovu, s opakováním otázky a dostupných odpovědí.Tento typ rozpoznávání hlasu je také označován jako

Gramatické rozpoznávání.Tento program je navržen tak, aby vybíral klíčová slova nebo fráze a vytvořil statistickou nejlepší dohled o tom, co zákazník chce.Mluvení jasně pomáhá rozpoznávání hlasu při identifikaci potřeby.Tento typ systému má mnohem intenzivnější databázi než diskrétní řečové systémy a je také označován jako

Rozpoznání přirozeného jazyka.Tento software se liší od předchozích modelů v tom, že se nesnaží porozumět tomu, co se říká, pouze identifikovat mluvená slova.Protože mnoho slov v anglickém jazyce zvuk zní, chyby se snadno dělají.Hlavní společnosti, jako je Microsoft, však investují do rozpoznávání hlasu a Bill Gates Vlastní předpověď má ASR porozumění nepřetržité řeči do roku 2011. ASR software se často nachází na digitálních hlasových zákonech., s bývalou společností, která ji získá.Mezi menšími hráči patří mimo jiné řeč Fonix, Aculab a VerbioStejně jako IBM a výše uvedený Microsoft také investují do technologie.Ačkoli mnozí stále mají pocit, že je to větší potíže s trénováním softwaru a opravy chyb, než jednoduše používat klávesnici, čas, kdy software pro rozpoznávání hlasu pravděpodobně tuto mezeru pravděpodobně uzavře.Rozšíření klávesnic s diskriminující schopností používat řeč se pravděpodobně stane samozřejmostí.

Software pro rozpoznávání hlasu získává popularitu, protože se stává sofistikovanějším.Je to zvláště užitečné v podnikání, kde může nahradit živého operátora, aby volala na volání, šíření informací, přijímání objednávek a provádění dalších vysoce užitečných funkcí.Získává však také laskavost jako desktopová aplikace, která pomáhá renomovaným softwarem, jako jsou skansofty, dragonnaturalyspeaking a IBMS Viavoice .