Препознавање говора: накнадне мисли о његовим снагама и слабостима

Морам да признам да дуго нисам користио никакву врсту препознавања говора када су ме замолили да урадим туторијале. Последњи пут када сам пробао препознавање говора, било је то са Драгон Дицтате(Dragon Dictate) , што је било ново када је Виндовс 98 такође био нов. Много давно у компјутерским годинама!

Био сам срећан што сам се позабавио овом темом јер сам био веома заинтересован да видим како се побољшало препознавање говора. И дечко, да ли се побољшало! Чак је и основна, уграђена апликација попут ове урадила невероватно добар посао „из кутије“. У овом последњем чланку о препознавању говора(Speech Recognition) , желео бих да говорим о томе шта сам научио док сам се поново упознавао са чудима препознавања говора и куда ћу даље ићи.

Још увек нисам спреман за Звездане стазе

Сигуран сам да су многи од нас гледали посаду Старсхип Ентерпрајза(Starship Enterprise) како говори "Computer!"и добијање моменталног одговора. Још увек немамо рачунаре Звездане флоте(Starfleet) , али почевши од оперативног система Виндовс Виста(Windows Vista) и настављајући са оперативним системом Виндовс 7(Windows 7) , имамо рачунаре који ће нас саслушати и одговорити на оно што им кажемо—и одговорити нам ако „Шта је то било?“ ("What was that?")сматра се одговором.

Препознавање говора

Имао сам проблема када сам први пут покушао да користим препознавање говора(Speech Recognition) , а решавање проблема није било нарочито једноставно. Фајлови помоћи нису увек довољно корисни. Успео сам да пронађем одговоре на Мицрософт(Microsoft) -овој веб локацији и у низу онлајн форума без превише посла. Тако сам сазнао да сам заборавио да моја веб камера (која седи тачно испред мене на врху мог монитора и директно у складу са начином на који сам говорио) такође има активан микрофон и ствара конфузију. Када сам то поправио, од тада је било прилично глатко.

Чак сам покушао да говорим са разним акцентима ( ББЦ британски(BBC British) и амерички(American) сељак, на пример) и успео сам да добијем прилично добро признање, дозвољавајући разлике у стандардном америчком(American) изговору. Наравно, говорећи "Friends, Romans, countrymen, lend me your ears!"док сам остављао најбоље утиске о Хелен Мирен(Helen Mirren) и Џефу Фоксвортију(Jeff Foxworthy) насмејао ме је превише да бих добио потпуно тачне резултате.

Препознавање језика

Препознавање говора(Speech Recognition) може да се користи са различитим језицима и мислио сам да бих могао да га испробам са својим ограниченим, са америчким(American) акцентом, шпанским(Spanish) , немачким(German) и француским(French) , али нажалост не можете да користите друге језике осим ако ваш оперативни систем такође није на том језику. Можете да промените језик свог оперативног система инсталирањем другог језичког пакета од Мицрософт(Microsoft) - а, али то можете учинити само ако користите Виндовс 7 (Windows 7) Ултимате(Ultimate) или Виндовс 7(Windows 7) Ентерприсе.

Препознавање говора

Препознавање говора(Speech Recognition) је доступно за амерички енглески(US English) , британски енглески(UK English) , француски(French) , шпански(Spanish) , немачки(German) , јапански(Japanese) , традиционални кинески(Traditional Chinese) и поједностављени кинески , и наћи ће се у верзијама оперативног система (Simplified Chinese)Виндовс 7(Windows 7) за те језике (све верзије). Било ми је жао што то нисам могао да испробам. Немам појма шта ће се догодити са Виндовсом 8(Windows 8) , али мислим да би могућност инсталирања других језичких пакета била добар додатак Виндовс 8(Windows 8) еквивалентима Виндовс 7 (Windows 7) Профессионал(Professional) и новијим.

Оно што добро функционише

Као што сам поменуо, препознавање говора(Speech Recognition) је дизајнирано да најбоље ради са другим Мицрософт(Microsoft) софтвером. Све док сам експериментисао са Мицрософт(Microsoft) производима био сам веома успешан (иако је, као што се могло очекивати, коришћење Мицрософт Оффице Екцел-(Microsoft Office Excel) а било ограничено и компликовано). Са другим софтвером је било погођено или промашено. Могао сам прилично добро да користим претраживач Гоогле Цхроме(Google Chrome) (дефинитивно не тако добро као Интернет Екплорер(Internet Explorer) ) и свој Еудора(Eudora) програм за е-пошту, који је до сада прилично старински софтвер. Вреди експериментисати са сопственим омиљеним софтвером да бисте видели шта можете да урадите. Команда „прикажи бројеве“ била је посебно корисна у одабиру ставки и команди.

Такође сам открио да није требало много времена да се тачност препознавања значајно побољша. Два пута сам прошао вежбе и након тога је препознавање било скоро 100% тачно. Могао сам да говорим мало брже и да правим мање пауза да би софтвер могао да држи корак. Заиста сам уживао гледајући свој глас преведен у речи на екрану. Моја рана искуства са софтвером за препознавање говора нису била ни близу овако пријатна.

Препознавање говора

Шта не ради добро

Као што сам поменуо, неки софтвер је једноставно некомпатибилан са препознавањем говора(Speech Recognition) . Нисам могао чак ни да отворим Адобе Реадер(Adobe Reader) или Адобе АИР(Adobe AIR) верзију ТвеетДецк(TweetDeck) -а . Открио сам да не могу да се пријавим на свој Гоогле(Google) налог са Интернет Екплорер(Internet Explorer) -ом да бих испробао Гоогле документе(Google Docs) — чинило се да не постоји начин да изговорим или спелујем своју лозинку. Претпостављам да је ово безбедносни проблем, не дозвољавајући да се лозинке изговарају наглас где би неко други могао да чује, али било је досадно.

Могао сам да отворим иТунес(iTunes) и изаберем песму за репродукцију, али нисам могао да је пустим. Могао сам да отворим Сцривенер(Scrivener) (мој програм за обраду текста по избору), али „Прикажи бројеве“("Show numbers") није прекривао бројеве на било чему што сам желео да користим. Нисам правио никакве опсежне експерименте са својим омиљеним софтвером — то су само неки које сам испробао. Било би вредно труда за свакога ко жели да користи препознавање говора(Speech Recognition) да тестира програме са којима жели да га користи, како би се уверио да ће бити компатибилан.

Више веза и ресурса

Ако већ нисте видели претходне чланке, можете их пронаћи овде:

Чудно, скоро је немогуће пронаћи било коју информацију о препознавању говора(Speech Recognition) на веб локацији Мицрософт Ансверс(Microsoft Answers) без клика на везу из Гоогле(Google) или Бинг(Bing) претраге. Нисам успео да добијем било какве одговоре тако што сам ставио „Препознавање говора“("Speech Recognition") у поље за претрагу, иако има неколико питања о томе на форумима. Користите ову везу да бисте добили помоћ за препознавање говора(Speech Recognition) са Виндовс веб локације: Резултати претраге за препознавање говора(Speech Recognition search results) .

Ево кратког чланка на Википедији(Wikipedia) који говори о историји препознавања говора у Мицрософт(Microsoft) -у : Виндовс препознавање говора(Windows Speech Recognition) .

Ево уноса на блогу који даје ауторова размишљања о поређењу препознавања говора(Speech Recognition) са змајем који природно говори(Dragon Naturally Speaking) : Драгон НатураллиСпеакинг наспрам Виндовс 7 препознавања гласа(Dragon NaturallySpeaking Versus Windows 7 Voice Recognition) .

Замотавање

Заиста сам уживао у раду са препознавањем говора(Speech Recognition) и дивећи се побољшањима која су направљена током времена. Свакако би био довољно добар за лежерну свакодневну употребу, посебно са Мицрософт(Microsoft) производима.

Да ли ћу наставити да користим препознавање говора(Speech Recognition) ? Да, кад могу. У овом тренутку ми не треба ништа софистицираније. Било је вредно времена које је било потребно да га обучем и да се обучим да га правилно користим.



About the author

Ја сам информатичар са преко 10 година искуства у раду у области претраживача, Мицрософт оффице-а и онедриве-а. Специјализовао сам се за веб развој, истраживање корисничког искуства и развој апликација великих размера. Моје вештине користе неке од водећих светских компанија, укључујући Гоогле, Фацебоок и Аппле.



Related posts