Замислите себе како опуштено седите на софи и само наређујете рачунару, преносном рачунару или мобилном телефону да извршавају једноставне задатке попут куцања слова или извршавања неколико команди. Да ли је могуће?

Наравно да јесте, ту препознавање гласа долази на сцену.

Према дефиницији, то је процес препознавања људског говора и његовог декодирања у текстуалну форму.

Принцип

Основни принцип препознавање гласа укључује чињеницу да говор или речи које изговара било које људско биће изазивају вибрације у ваздуху, познате као звучни таласи. Ови континуирани или аналогни таласи се дигитализују и обрађују, а затим декодирају у одговарајуће речи, а затим у одговарајуће реченице.

препознавање гласа

Компоненте система за препознавање говора

Дакле, од чега се састоји основни систем за препознавање говора?

Компоненте система за препознавање говора

Уређај за хватање говора : Састоји се од микрофона који претвара сигнале звучног таласа у електричне и претварача аналогног у дигитални који узоркује и дигитализује аналогне сигнале да би добио дискретне податке које рачунар може да разуме.
Модул дигиталног сигнала или процесор : Изводи обраду сировог говорног сигнала попут претворбе фреквенцијског домена, обнављајући само потребне информације итд.
Претходно обрађено складиштење сигнала : Претпроцесирани говор се чува у меморији за обављање даљег задатка препознавања говора.
Референтни обрасци говора : Рачунар или систем се састоји од унапред дефинисаних образаца говора или шаблона који су већ ускладиштени у меморији и који ће се користити као референца за подударање.
Алгоритам подударања образаца : Непознати говорни сигнал упоређује се са референтним говорним обрасцем да би се утврдиле стварне речи или образац речи.

Рад система

Сада да видимо како заправо функционише читав систем.

Рад система

Говор се може посматрати као акустични таласни облик, тј. Информације које преносе сигнал. Нормално људско биће са ограниченом брзином кретања својих артикулатора (говорних органа) може да производи говор са просечном брзином од 10 звукова у секунди. Просечна брзина информисања је око 50-60 бита / секунду. То значи да је заправо потребно само 50 бита у секунди за говорни сигнал. Овај звучни таласни облик микрофон претвара у аналогне електричне сигнале. Аналогно-дигитални претварач претвара овај аналогни сигнал у дигиталне узорке вршећи прецизна мерења таласа у дискретним интервалима.
Дигитализовани сигнал се састоји од низа периодичних сигнала узоркованих брзином од 16000 пута у секунди и није погодан за спровођење стварних препознавање говора процес јер се образац не може лако лоцирати. Да би се извукле стварне информације, сигнал у временском домену претвара се у сигнал у фреквенцијском домену. То ради процесор дигиталних сигнала помоћу ФФТ технике. У дигиталном сигналу компонента након сваких 1/100^тхсекунде се анализира и израчунава фреквенцијски спектар за сваку такву компоненту. Другим речима, дигитализовани сигнал се сегментира на мале делове амплитуда фреквенције.
Сваки сегмент или графикон фреквенције представљају различите звукове које производе људи. Рачунар врши подударање непознатих сегмената са ускладиштеном фонетиком одређеног језика. Ово подударање обрасца врши се на 3 начина:

Коришћење акустичког фонетског приступа : У акустичком фонетском приступу, генерално се користи модел скривеног Маркова. Овај модел развија недетерминистички модел вероватноће за препознавање говора. Овај модел се састоји од две променљиве - скривених стања фонема ускладиштених у меморији рачунара и видљивог сегмента фреквенције дигиталног сигнала. Свака фонема има своју вероватноћу и сегмент се подудара са фонемом у складу са вероватноћом, а усклађени фонеми се затим сакупљају да би формирали тачне речи у складу са ускладиштеним граматичким правилима језика.

Коришћење приступа препознавања образаца : У приступу препознавања образаца, систем се обучава са одређеним говорним узорком за било који језик, а непознати образац говора упоређује се са референтним говорним узорком одређивањем удаљености између сигнала помоћу технике савијања времена.

Коришћење вештачке интелигенције : Приступ вештачке интелигенције заснован је на коришћењу основних извора знања као што су познавање звукова изговорених на основу спектралних мерења, познавање правилних значењских и синтаксичких речи.

Фактори од којих зависи систем за препознавање говора

Систем препознавања говора зависи од следећих фактора:

Изоловане речи : Између узастопних изговорених речи мора да се направи пауза, јер се непрекидне речи могу преклапати, што отежава систему да разуме када реч започиње или завршава. Стога између узастопних речи треба да постоји тишина.
Појединачни звучник : Многи звучници који истовремено покушавају да дају говорни унос могу проузроковати преклапање сигнала и прекиде. Већина система за препознавање говора који се користе су системи који зависе од говорника.
Величина речника : Језике са великим речником тешко је узети у обзир за подударање образаца од оних са малим речником, јер су шансе за двосмислене речи у овом последњем мање.

Систем за препознавање говора на Виндовс 7

Желео бих да препоручим следеће кораке било којој особи која користи Виндовс 7 за систем препознавања говора

Отворите Контролну таблу из менија Старт или кликом на икону.
Изаберите Једноставност приступа, а затим кликните Препознавање говора.
Следећи клик поставите микрофон и одаберите микрофон за радну површину из доступних опција.
Затим узмите лекцију за говор и следите дата упутства.
После тога, оспособите рачунар за боље опције, тако да рачунар чува одређени образац вашег говорног сигнала. То се постиже кликом на опцију „обучи рачунар да те боље разуме“, а затим следи упутства.
Сада покрените икону за препознавање говора и почните да диктирате свој говор рачунару. Такође можете да додате своје речи у рачунарски речник.

Практични системи за препознавање говора: Коришћење ХМ2007

Практични систем за препознавање говора може се направити помоћу ИЦ-а за препознавање говора ХМ2007 . ХМ2007 је 48-пинска ИЦ која пружа функцију препознавања говора. Ради у два режима: ручном или ЦПУ режиму. У оба начина, ИЦ је прво обучен да препознаје речи по кориснику који изговара сваку реч за одговарајући број притиснут на тастер. ИЦ чува сваки сигнал речи на меморијском месту које одговара речи. Излазни подаци из ИЦ повезују се са микроконтролером одакле се приказују на ЛЦД-у.

Практични системи за препознавање говора

Обично користимо ручни режим рада ХМ2007.

ХМ2007 се састоји од РДИ пина који је активни доњи пин који показује да је ИЦ спреман за тренинг.
Гласовни улаз даје се преко микрофона повезаног на МИЦИН пин ИЦ-а.
ИЦ је повезан са тастатуром која се користи за унос броја који одговара свакој речи. ИЦ ради у две функције - Цлеар и Траин. Када се на тастатури притисне тастер Траин, ИЦ започиње свој процес обуке.
Корисник притисне нумерички тастер пре него што притисне функцијски тастер „Обучи“ и изговори потребну реч у микрофон.
ИЦ шаље високи сигнал на МЕ (Мемори Енабле) пин који је повезан на одговарајући МЕ пин СРАМ-а. 8-битни сигнал података који одговара притиснутом броју чува се у СРАМ-у (спољна РАМ) преко спољне магистрале.
Након откривања гласовног уноса, РДИ пин је на логичкој висини и ИЦ долази у стање препознавања, где започиње процес препознавања.
Резултат процеса даје се кроз сабирницу података са високим пином ДЕН (Дата Енабле).
Осмобитни подаци се затим могу предати микроконтролеру кроз серијски процесор интерфејса или прво закључати помоћу резе ИЦ 74ХЦ573.
Микроконтролер је повезан са ЛЦД-ом и програмиран је тако да се на екрану прикаже одговарајућа реч.

Једина мера предострожности коју треба предузети је да се не користе хомоними (речи са сличним звуком), а такође и да се брине о побуди у гласу.

Дакле, ово је све како а основни систем препознавања говора Извођење радова. Сви даљи уноси су добродошли да се додају.