Взаимодействие с голосовыми технологиями, такими как Alexa от Amazon, Siri от Apple и Google Assistant, может облегчить жизнь за счет повышения эффективности и производительности. Однако ошибки в формировании и понимании речи во время взаимодействия являются обычным явлением. При использовании этих устройств говорящие часто меняют стиль своей речи от обычного шаблона к более громкому и медленному регистру, что называется речью, управляемой технологиями.
Исследования речи, ориентированной на технологии, обычно фокусируются на основных вариантах американского английского языка, не учитывая группы говорящих, которые чаще всего неправильно понимаются из-за технологий. В JASA Express Letters исследователи из Google Research, Калифорнийского университета в Дэвисе и Стэнфордского университета хотели устранить этот пробел.
Одна группа, которую обычно неправильно понимают с помощью голосовых технологий, — это люди, говорящие на афроамериканском английском, или AAE. Поскольку уровень ошибок автоматического распознавания речи может быть выше у носителей AAE, это может привести к последующим последствиям лингвистической дискриминации в технологиях.
«Во всех системах автоматического распознавания речи четыре из каждых десяти слов, произнесенных чернокожими мужчинами, были расшифрованы неправильно», — сказал соавтор Зайон Менгеша. «Это влияет на справедливость для афроамериканцев, говорящих на английском языке, в каждом учреждении, использующем голосовые технологии, включая здравоохранение и трудоустройство».
«Мы увидели возможность лучше понять эту проблему, поговорив с чернокожими пользователями и поняв их эмоциональные, поведенческие и лингвистические реакции при использовании голосовых технологий», — сказала соавтор Кортни Хелдрет.
Команда разработала эксперимент, чтобы проверить, как носители AAE адаптируют свою речь, представляя себе разговор с голосовым помощником, по сравнению с разговором с другом, членом семьи или незнакомцем.
В ходе исследования были проверены условия речи знакомого и незнакомого человека, а также речевые условия, управляемые голосовым помощником, путем сравнения скорости речи и изменения высоты тона. В число участников исследования вошли 19 взрослых, идентифицировавших себя как чернокожих или афроамериканцев, у которых были проблемы с голосовыми технологиями.
Каждый участник задал ряд вопросов голосовому помощнику. Одни и те же вопросы повторялись, как при обращении к знакомому человеку, так и снова к незнакомому человеку. Каждый вопрос был записан в общей сложности на 153 записи.
Анализ записей показал, что говорящие демонстрировали два последовательных изменения, когда они разговаривали с голосовой технологией по сравнению с разговором с другим человеком: более медленная скорость речи с меньшим изменением высоты тона (более монотонная речь).
«Эти результаты показывают, что у людей есть ментальные модели того, как общаться с технологиями», — сказала соавтор Мишель Кон. «Установленный «режим», который они используют, чтобы их лучше понимали, в свете различий в системах распознавания речи».
Есть и другие группы людей, которые неправильно понимают голосовые технологии , например, носители второго языка. Исследователи надеются расширить разнообразие языков, изучаемых в экспериментах по взаимодействию человека и компьютера, и устранить барьеры в технологиях, чтобы они могли поддерживать каждого, кто хочет их использовать.