История на системите за разпознаване на реч
През 90-те години на миналия век филмът "Завръщане в бъдещето" беше много популярен, така че във втората част имаше сцена, в която Мартин Макфлай влиза в стая, включва телевизора и превключва каналите, използвайки само гласа си и нищо друго. Едно време подобни манипулации изглеждаха на хората като нещо фантастично и невъзможно. В днешно време обаче това са съвсем обикновени неща. Но развитието на тази индустрия беше доста трудно. Отне десетки години и стотици хиляди долари инвестиции. Тази статия е посветена на историята на развитието на системите за разпознаване на реч.
1952може официално да се счита за година на раждане на системите за разпознаване на реч. Причината за това е американската компания Bell Laboratories, основен изследовател в областта на компютърните и електронни системи. Тази година тази организация представи своето дете на въображението, наречено системата Одри. Честно казано, Одри дори нямаше речник в обичайния смисъл, тя оперираше само с числа. Но това не е всичко. Системата имаше редица ограничения, неспазването на които намаляваше точността на Одри до 60-70 процента. Ако всичко е направено според изискванията, точността е около 90%.
Основните ограничения върху работата на Одри:
- Човекът, който диктува, трябваше да бъде мъж
- Този човек трябва да е работил със системата преди
- Паузата между думите трябва да бъде около 350 милисекунди
В съвременните реалности това изобщо не е показател. Въпреки това е направена голяма крачка към машинното разбиране на човешкия глас.
През 1962 г.се състоя друга важна дата в развитието на системите за разпознаване на реч. Това се случи в Сиатъл на Световното изложение. Компютърът Shoebox беше представен от IBM. Тази машина можеше да разпознае шестнадесет думи на английски език. Не е трудно да се забележи, че преходътминаха цели десет години от броя до нещото.
Работа на компютър IBM Shoebox
През втората половина на шейсетте годинив лабораториите на САЩ, Великобритания, Япония и СССР бяха проведени експерименти за разработване на системи за разпознаване на реч, способни да разпознават отделно произнесени звуци. Бавно, но сигурно, технологиите постепенно се подобряват.
През 1971 г.обещаваща технология привлече вниманието на американската армия. Министерството на отбраната отпусна средства за изследване и разработване на системи за разпознаване на реч. В крайна сметка крайният продукт трябваше да разпознава поне хиляда думи и да разбира свързана реч, тоест реч без добре дефинирани паузи между думите.
През 1972 г.се появява първият софтуер за системи за разпознаване на реч и той е пуснат на търговска основа. Това беше програма Vip-100, разпознаваше няколкостотин думи, но нямаше поддръжка за свързана реч. И същите проблеми като в предишни подобни продукти, предварително обучение на системата", т.е. диктовка на думи.
До 1976 г.бяха разработени шест системи, които в една или друга степен отговаряха на необходимите критерии. Най-успешният, може би, беше "харпията", разработена от изследователския център в университета Карнеги Мелън. Четири секунди предложения, разработени за пет минути, плюс същото „обучение“, не могат да се нарекат добър резултат. Но тя имаше речник от 1011 думи, разбираше свързана реч и имаше ефективен алгоритъм за намиране на правилните конструкции. Всички тези качества оставиха далеч зад себе си всички свои предшественици и направиха тази програма една от най-добрите за времето си.
През 80-те годиниимаше бързо развитие на системите за разпознаване на реч. Американските компании Bell Laboratories и IBM действат като флагмани. Представяне на новиподходи и технологии при разработването на тези системи, беше възможно техният речник да се увеличи до няколко хиляди думи. IBM съсредоточи изследванията си върху N-грами (непрекъснати последователности от N елемента на даден текст или език) и зависими от говорител, с други думи, обучени системи. Докато Bell Laboratories се занимаваше с разработването на системи, способни да работят с акустична дисперсия, акценти и не изискват предварително обучение.
Една от основните роли в развитието на тези системи през 80-те години изигра т.нар. статистически метод. Същността на този метод беше разпознаването на неизвестни параметри въз основа на дадените. Просто казано, системите за разпознаване на реч се научават да разпознават контекста на най-примитивно ниво и да разпознават думи въз основа на непълни данни, причинени от шум, акцент и т.н.
През този период опитът да се използват изкуствени невронни мрежи за разпознаване на реч завърши с огромен провал. Излизат търговски предложения като Kurzweil text-to-speech. Но всички те бяха много неудобни за работа и поддържаха само диктовка.
През 1987 г.беше пуснат първият комерсиален продукт за широката публика с функция за разпознаване на реч. Това беше кукла с функция за разпознаване на речта на децата въз основа на обучение. В допълнение, тя можеше да реагира на прости събития, които й се случват, било то излагане на светлина или тъмнина, и дори да "чете" специални книги от комплекта, използвайки сензори на пръстите си.
Първият търговски продукт, способен да разпознава реч, е говорещата кукла Джули
През 1990 г.е пусната програмата Dragon Dictate - първата комерсиална програма от този вид за обикновени потребители. За много скромни качества, все още налична диктовка и не най-добрите удобстваработа, обикновен потребител трябваше да плати девет хиляди долара, честно казано, доста значителна сума не само за онова време, но и за нашето.
През 1996 г.се появява VAL от BellSouth - първият гласов портал. Тази система е предназначена за обработка на телефонни запитвания, информационни щандове в големи търговски центрове и др. Тя търси информация за купувачи и абонати въз основа на конкретни заявки, услуги и търговски марки.
През 1997 г.беше пусната нова, подобрена версия на програмата Dragon - NaturallySpeaking. Тази програма вече успя да разпознае нормалната реч. Около сто думи в минута. И това е ценно, падна до $695, което нямаше как да не ви хареса!
Логото на програмата Dragon е NaturallySpeaking
През 2001 г.Microsoft пуска своята система за разпознаване на реч. Тя работи с Office XP, по това време най-модерната версия на офис пакета. Въпреки недостатъците (наличието на "обучение", преконфигуриране с променлива на работното пространство или неясно произношение), тази програма стана наистина популярна.
През 2002 г.Google стартира, макар и в тестов режим, гласово търсене, предназначено за гласово търсене в интернет. Но това развитие трябваше да бъде отменено незабавно. Факт е, че за да извършите това търсене, трябва да се обадите на специален номер, което беше много неудобно. Но Google не се отказа и продължи развитието в тази посока.
През 2005 г.излиза първата операционна система с функция за разпознаване на реч. Пионерът беше Mac OS X Tiger. Все пак трябва да се спомене, че подобни разработки бяха и в Windows 95, но имаше повече тестова версия, отколкото пълноценен продукт. VoiceOver не беше способен само на разпознаване на реч, това беше тясинтезатор Тази програма може да чете съдържанието на текстови документи, поща и уеб страници. Голям плюс беше, че беше независим от високоговорителите и дори работеше с няколко потребители едновременно.
VoiceOver интерфейс
През 2006без да иска да изостава от вечния си конкурент Apple, Microsoft пуска операционна система с пълна поддръжка на функцията за разпознаване на реч на Windows Vista.
През 2009 г.е пуснато приложението за гласово търсене от Google за iPhone. Работата на това приложение разчита на високите изчисления на неговите суперкомпютри. Тези изчисления направиха възможно извършването на широкомащабен анализ на данни за търсенето на съвпадения между огромен брой гласови заявки на потребители и техните думи. Тази процедура допринесе за бързия растеж и подобряване на системата.
Гласовото търсене постепенно се налага като най-популярното приложение на Google за мобилни устройства. Предстои версия за Android.
Гласово търсене в смартфони iPhone
През 2011Google взе предвид грешките от последните години, които доведоха до функцията за гласово разпознаване в браузъра Chrome. Ненужните обаждания и други неудобства бяха елиминирани. Днес базата данни съдържа около 230 милиарда думи на много езици по света.
Siri се появи за първи път на смартфони iPhone 4S
И накрая, без да подценяваме ключовата и епохална дата в историята на развитието на системите за разпознаване на реч. 14 октомври 2011 г.Apple започва масови продажби на своя iPhone 4S с инсталиран Siri. Тази програма не само разпознава реч, тя действа като личен виртуален асистент, способен да обработва естествен език, да отговаря на въпроси и да предоставя препоръки. Забележителното при нея е, че не еизползва стандартни програми и има оживена комуникация между потребителя и устройството. Тя дори може да отговаря на любопитни или глупави въпроси с шеги. Към днешна дата тази програма поддържа английски, френски и немски език.