Закрыть

История

Новые IT-разработки: учёные из Оксфорда написали программу для чтения по губам

 

Учёные из Оксфорда совместно с DeepMind разработали уникальную программу, которая может считывать слова по губам. Этот программный продукт явился  новым шагом в науке, который приблизил всё научное сообщество к созданию полноценного искусственного интеллекта.

Компьютерные специалисты из Оксфордского университета и компании DeepMind разработали программу, способную распознавать речь «с губ» лучше, чем люди-профессионалы. Подробности о ней можно узнать на сайте университета.

Watch, Attend and Spell (WAS) — это новая система программного обеспечения с искусственным интеллектом, разработанная на основе нейросетей учеными из Оксфорда в сотрудничестве с компанией DeepMind, Google.

Система WAS учится читать по губам, используя компьютерное зрение и методы машинного обучения при просмотре телевизионных передач длительностью более 5 000 часов. Исследовательская группа сравнивала способности машины и человека-эксперта разбираться в том, что говорилось в видео, сосредоточившись лишь на движениях губ людей в кадре. В результате ученые обнаружили, что новое программное обеспечение было более точным по сравнению с профессионалом.

Человек правильно распознавал лишь 12 процентов слов, в то время как искусственный интеллект WAS был способен распознать более 50 процентов слов. Ошибки машины заключались только в потере буквы «с» на концах слов.

Новое программное обеспечение может повлиять на ряд новейших разработок, в том числе в помощи слабослышащим в ориентации в пространстве. Кроме того, подобные технологии могут повысить точность и скорость преобразования речи в текст, особенно в шумных местах, где микрофоны просто не слышат пользователя.

«Чтение с губ – это впечатляющий и сложный в освоении навык, и WAS создана, чтобы помочь переводчикам, например, предлагая им варианты на утверждение. Есть и другие применения: диктовать указания смартфону в шумной обстановке, озвучивать немые фильмы, различать речь нескольких человек, говорящих одновременно, и улучшать работу систем распознавания речи в целом», – отметил один из авторов разработки, аспирант Оксфордского университета Джун Сон Чанг.

 


Выбор читателей


Расскажите друзьям. Поддержите сайт в соцсетях