История
Новые IT-разработки: учёные из Оксфорда написали программу для чтения по губам
- Виктория Корректура
Учёные из Оксфорда совместно с DeepMind разработали уникальную программу, которая может считывать слова по губам. Этот программный продукт явился новым шагом в науке, который приблизил всё научное сообщество к созданию полноценного искусственного интеллекта.
Компьютерные специалисты из Оксфордского университета и компании DeepMind разработали программу, способную распознавать речь «с губ» лучше, чем люди-профессионалы. Подробности о ней можно узнать на сайте университета.
Watch, Attend and Spell (WAS) — это новая система программного обеспечения с искусственным интеллектом, разработанная на основе нейросетей учеными из Оксфорда в сотрудничестве с компанией DeepMind, Google.
Система WAS учится читать по губам, используя компьютерное зрение и методы машинного обучения при просмотре телевизионных передач длительностью более 5 000 часов. Исследовательская группа сравнивала способности машины и человека-эксперта разбираться в том, что говорилось в видео, сосредоточившись лишь на движениях губ людей в кадре. В результате ученые обнаружили, что новое программное обеспечение было более точным по сравнению с профессионалом.
Человек правильно распознавал лишь 12 процентов слов, в то время как искусственный интеллект WAS был способен распознать более 50 процентов слов. Ошибки машины заключались только в потере буквы «с» на концах слов.
Новое программное обеспечение может повлиять на ряд новейших разработок, в том числе в помощи слабослышащим в ориентации в пространстве. Кроме того, подобные технологии могут повысить точность и скорость преобразования речи в текст, особенно в шумных местах, где микрофоны просто не слышат пользователя.
«Чтение с губ – это впечатляющий и сложный в освоении навык, и WAS создана, чтобы помочь переводчикам, например, предлагая им варианты на утверждение. Есть и другие применения: диктовать указания смартфону в шумной обстановке, озвучивать немые фильмы, различать речь нескольких человек, говорящих одновременно, и улучшать работу систем распознавания речи в целом», – отметил один из авторов разработки, аспирант Оксфордского университета Джун Сон Чанг.