Euromedia24.info | Распознавание речи — задача не из легких

Распознавание речи — задача не из легких

Лента новостей

21:36 04/02/2026

Уряд РФ готується до падіння експорту нафти до Індії на 30% та дефіциту бюджету 11:35 22/08/2025

Саміт на Алясці став "великою аферою" Путіна, - WSJ 15:27 05/08/2025

Моді відмовився зупинити імпорт російської нафти, - Bloomberg 14:31 05/08/2025

Індія зухвало відмовила Трампу, нагадавши про торгівлю США і РФ 12:20 05/08/2025

"Дедлайн" Трампа для Кремля може пройти тихо і без наслідків, - AP 11:19 05/08/2025

Збільшення видобутку ОПЕК+ та нові погрози Трампа тиснуть на ціни на нафту 10:48 05/08/2025

На лінії фронту в Україні зона ураження стає дедалі глибшою: в The Economist назвали причини 17:10 06/06/2025

У російському Брянську пролунали потужні вибухи в районі аеропорту 16:13 06/06/2025

Трампу імпічмент, Венсу – посаду: Маск продовжує підливати масла у вогонь 15:11 06/06/2025

Росія масовано атакувала Україну дронами і ракетами: є руйнування і постраждалі 14:22 06/06/2025

Нічний удар Росії по Україні: жителі деяких міст залишилися без світла 13:06 06/06/2025

Росія планує у 2026 році захопити дві області та відрізати Україну від Чорного моря, - ОП 12:24 06/06/2025

У США закликали видворити Маска з країни після сварки з Трампом, - The Hill 11:19 06/06/2025

Низка поїздів спізнюється через наслідки атаки на Київ 10:16 06/06/2025

Під час нічного удару росіян у Києві загинули рятувальники 22:03 03/06/2025

Порошенко залишив собі слона і причіп, а всі дохідні активи намагався переписати на дружину, - ЗМІ 20:27 03/06/2025

В Україні з'явиться військовий омбудсмен: Рада зробила перший крок 19:36 03/06/2025

Унікальна спецоперація: СБУ втретє вразила Кримський міст 18:30 03/06/2025

Британія готова судитися з Абрамовичем, щоб передати Україні гроші із продажу "Челсі" 17:32 03/06/2025

Ключовий союзник Трампа підтримав законопроект про пекельні санкції проти РФ 16:24 03/06/2025

Росіяни зберігають можливості для масованих авіаударів, але тепер вони обмежені, - експерт 15:18 03/06/2025

Олена Тополя відверто зізналася, що робила пластику грудей 14:41 03/06/2025

Як рясні дощі вплинуть на врожай картоплі в Україні: відповідь фермера 13:31 03/06/2025

"Це не просто епізод": Шмигаль заявив, що "Павутина" може повторитись 12:20 03/06/2025

Генштаб відзвітував про знищення 12 російських літаків

За последние несколько лет цифровая обработка голоса сделала большой шаг вперед — но трудностей не становится меньше. Перед вами несколько причин, почему сложилась такая ситуация, и как наука пытается найти из нее выход

Перевод осуществлен проектом Newочём

«О'кей, Google, сделай свет голубым», — говорю я в пространство комнаты. Однако ничего не происходит. Вместо этого из динамика доносится извинение: «К сожалению, я вас не понял». Пытаюсь снова: «О'кей, Google, пожалуйста, установи голубой свет в комнате». Опять неудача. Третья попытка с остатками оптимизма: «О'кей, Google, свет, комната, голубой». Только теперь Google Home делает то, о чем его просили — лампа у дивана наконец светится голубым.

Несмотря на технологические прорывы последних лет, распознавание речи остается своеобразным камнем преткновения. Нет, дело не только в том, что автору статьи пришлось говорить четко и отрывисто, чтобы добиться желаемого результата. Сейчас это лишь испортило удовольствие от забавы, но в будущем нас ожидают куда более серьезные проблемы.

В конце концов, голосовых помощников все чаще встраивают не только в смартфоны и колонки, но и в автомобили. А что, если водитель в дождь едет по автостраде со скоростью 160 км/ч и в третий раз пытается объяснить приложению, что надо включить дворники? Такая ситуация грозит реальной опасностью. Именно поэтому крупные IT-корпорации и исследовательские институты пытаются представить, как системы распознавания речи будут работать в будущем и с какими проблемами им предстоит столкнуться.

Мы говорим по-разному

Доротея Колосса из института коммуникационной акустики Рурского университета в Бохуме видит в распознавании речи две принципиальных проблемы: «Во-первых, одно и то же слово никогда не произносится одинаково. Во-вторых, меняется скорость речи. Образец, который должен обрабатывать компьютер, всегда разный».

Особенно заметны эти различия между говорящими, ведь артикуляционный аппарат одного человека не совсем такой же, как у другого. Отчасти это можно сравнить с почерком — у каждого он уникален. Как и подпись, произношение слова от раза к разу слегка меняется. И несмотря на все различия, компьютер должен понимать, что имеет дело с одним и тем же словом.

Не все владеют безупречным литературным языком

Особую сложность для речевых систем представляют региональные диалекты и акцент. С английским языком это не так заметно, потому что программа располагает внушительной базой данных, позволяющей распознавать слова даже в трудных условиях. Для других языков информационная база не такая обширная, что затрудняет процесс. Amazon, например, подключил к решению этой проблемы своих же пользователей. Перед началом продаж «умной колонки» компания отправила образцы тем, кто вероятнее всего говорит на местном диалекте. Таким образом удалось проверить, насколько хорошо система справляется с разными вариантами немецкого языка.

Внутри языков существуют едва заметные различия

В большинстве языков слова произносятся за счет колебания языковых связок. В немецком, например, качество звука зависит от положения языка и степени открытия рта, — складываясь, различные звуки обретают значение. А скажем, в мандаринском китайском, первостепенное значение имеют частота колебания связок и высота звука. То есть при одинаковой последовательности звуков значение все равно будет разным, и столь тонкие различия компьютеру воспринимать очень сложно.

Компьютеры должны научиться понимать контекст

Ко всему прочему проблему для компьютера представляют омонимы, слова с одинаковым звучанием, но с разным значением. Чтобы выбрать подходящий смысл, программа должна проанализировать контекст — согласитесь, что лучше хранить деньги в швейцарском банке, а не в банке под кроватью.

Работа в реальных условияхЗадачу компьютеру усложняет не только язык сам по себе. Трудность представляют и обстоятельства, сопровождающие запрос. Редко когда распознавание речи требуется в лабораторных условиях. В реальном мире речь окружена звуковым фоном, например, работающим телевизором или шумом на улице. Система должна отделять команду человека от фоновых помех. «„Умные колонки" вроде той, что выпускает Amazon, оснащены несколькими микрофонами, они понимают, откуда доносится активирующее слово, — объясняет Колосса. — Следующий шаг — соединить микрофоны таким образом, чтобы голосовой сигнал усиливался, а шумы подавлялись».

Улучшенный ИИ против языковой путаницы

IT-специалисты довольно давно поняли, что существующими методами справиться с различным произношением не получится. Проблема скорости речи также не решена.

Однако в последние годы появились разработки, призванные справиться с этими трудностями. Ученые добились значительных успехов в области машинного обучения (т. е. в системах, которые самостоятельно обрабатывают задачи и затем находят их решение); намного более эффективными стали искусственные нейронные сети, копирующие человеческий мозг. Такие технологии вполне способны, когда это необходимо, анализировать язык.

Больше данных для лучшего понимания

Кроме того, день за днем появляется все больше данных, на которых нейронные сети могут учиться распознавать звучание естественных языков. «Теперь, благодаря развитию технологий, распознавание речи используется во многих сферах человеческой деятельности, — поясняет Колосса. — Сегодня пользоваться голосовыми помощниками проще, чем когда-либо».

Машинное обучение и обширные базы данных могут помочь и в распознавании речи «с помехами». Ведь чем лучше система умеет понимать слова среди фонового шума, тем точнее она будет его отфильтровывать.

Чего нам ожидать от систем распознавания речи в ближайшем будущем

Принимая во внимание все недавние технологические успехи, Доротея Колосса считает, что через несколько лет будет вполне возможно вести естественный диалог с устройством — по крайней мере, если контекст будет не очень велик. Она добавляет: «Совсем скоро мы перестанем замечать, что общаемся не с человеком, если речь пойдет, скажем, о том, чтобы настроить радиопередатчик или навигатор».

Тем не менее она скептически относится к тому, что компьютеры должны уметь оценивать поведение собеседника при разговоре, например, его понимание или непонимание сказанного. «Для таких ситуаций необходимо осознавать, как работает человеческое мышление. То, что благодаря имеющемуся опыту кажется нам простым, компьютеру едва ли понятно», — заключает Колосса.

Если качество распознавания речи в ближайшие годы улучшится, то возрастет и количество устройств со встроенными голосовыми помощниками. Тогда все больше людей будет взаимодействовать с Siri и другими системами. Приложения будут лучше нас понимать, — и включать свет.

Следите за нами в Telegram.

Оставьте комментарий