Получи случайную криптовалюту за регистрацию!

Подкаст «Вы находитесь здесь» Мы вас услышали. Как машина науч | Давай перескажу

Подкаст «Вы находитесь здесь»
Мы вас услышали. Как машина научилась понимать нашу речь

Знакомо состояние, когда в голову засела песня, но вы никак не можете вспомнить ни название, ни исполнителя, ни слова? В этом случае можно набрать в Google «ту-ту-ту-рум-ту-ту-рум» и надеяться, что есть на свете другие люди с похожей проблемой. Можно пойти к друзьям и коллегам в надежде, что они знают исполнителя. А ещё можно воспользоваться функцией Hum to Search в приложении Google: нажать на микрофон в поисковой строке и произнести «what’s the song ту-ту-ту-рум-ту-ту-рум». Вуаля, проблема решена.

Как так получилось, что вы напели песню своим голосом, и за 10 секунд приложение распознало песню из миллионов композиций?

Немного о музыке

У всех программ распознавания музыки похожий принцип. Сперва они переводят песню на язык цифр. В сложном звуке много частот, у каждой — своя амплитуда и продолжительность. Если перевести их на график, получится спектрограмма — детальная схема звука на временной шкале. Остается только сравнить спектрограмму вашего исполнения в динамик телефона со спектрограммами всех песен на свете. Тут есть хитрость: не нужно учитывать все нюансы сравнения. Достаточно взять частоты и расстояние между ними — ноты и ритм.

Немного об истории

Первая машина, распознававшая речь, называлась Odry. Ее создали в 1952 году, она занимала всю комнату и понимала ровно десять слов: цифры от 0 до 10. В 70-х новая машина распознавала уже 1000 слов. Еще через 10 лет — 20000 слов. В 90-е ученые столкнулись с проблемой. Чтобы программа работала, пользователю надо было делать паузу. После. Каждого. Слова. Но разговариваем-то мы предложениями, а не отдельными словами. А заранее надиктовать все возможные предложения просто нереально. Поэтому машина должна понимать все на лету.

Самый большой прорыв в этой области дало машинное обучение. В 2019-м году Google выпустил приложение Live Transcribe, которое преобразует речь в текст в реальном времени на 70 языках.

Индивидуальный подход

Как быть людям с дефектами речи? Но ведь они хоть и произносят звуки неправильно, но всегда одинаково. Значит, этому можно обучить и машину. Главное — создать правильный корпус. Например, надиктовать в приложение Live Transcribe часы своей речи и загрузить расшифровки. Приложение научится понимать особенности речи в реальном времени и выводить на экран верные субтитры. Сейчас Google развивает отдельный проект, который в будущем поможет людям с самыми разными речевыми особенностями делать кастомизированные распознаватели.

А за нами следят?

У многих шотландцев одна и та же проблема: им сложно общаться с голосовыми помощниками, потому что их акцента нет в базе распознавателя. Голосовым помощникам жить сложнее: им нужно не только расшифровать слова, но и понять их значение, чтобы проделать действия, которые от них требуют. Тут подключается отдельный алгоритм, который в буквальном смысле изучает нашу жизнь.

Помощнику нужно знать вашу историю поиска, плейлисты, список контактов и адресов только для того, чтобы понять, какому «Серому» вы хотите позвонить. Кажется логичным, что помощник может все время нас подслушивать, чтобы собирать информацию. Многие этого опасаются. Но на деле это не совсем так.

Большую часть времени помощник находится в спящем режиме и ищет во всех звуках только одно — момент, когда обращаются именно к нему: «Окей, Google», «Привет, Siri», «Скажи, Алиса». Чтобы их засечь, машина использует модель key word spotting, которая реагирует на свой позывной. А еще нейросеть учится узнавать голос своего хозяина, а не звук телевизора или рекламы. Помощники запоминают ваши интонации, особенности речи, тональность и кодирует в небольшой набор кодовой информации.

А чтобы голосовой помощник мог поддержать с вами разговор, ему нужна личность. Тут работа даже не программистов, а сценаристов. Но это уже совсем другая история. Ее, кстати, можно послушать в другом выпуске подкаста