В Яндексе начали разработку новой мультимодальной нейросети SpeechGPT, которая объединит в себе некоторые уже имеющиеся ИИ-модели компании. Об этом сообщили в издании «Коммерсантъ».
Цель — дать возможность пользователям управлять ботом как с помощью текста, так и с помощью голоса. Голосовой ввод в YandexGPT уже есть, однако ИИ просто конвертируют один формат информации в другой, и это означает потери в точности и эффективности считывания данных.
Мультимодальная нейронка будет способна улавливать интонации в речи, эмоции и настроения пользователя, распознавать сарказм и переносный смысл фраз.
Сообщается, что все новые функции точно встроят в голосового помощника от Яндекса — Алису.
Пока новый проект еще находится в стадии активной разработки, компания нанимает специалистов, которые будут заниматься обучением и корректировками новой языковой модели. К примеру, сейчас открыта вакансия Machine Learning-инженера.
В Яндексе уверены, что будущее ИИ за мультимодальными ботами, которые будут обрабатывать весь контент максимально быстро и качественно.
Недавно в Microsoft также объявили о том, что разрабатывают новую модель с рабочим названием MAI-1, которая должна, по их мнению, затмить ChatGPT и Gemini.
А если вас интересует создание уникального логотипа с помощью нейросети, читайте нашу статью на эту тему. Все материалы по нейросетям можно найти в нашем разделе.
Кто может использовать SpeechGPT?
Технология будет полезна:
• Компаниям для улучшения клиентского сервиса.
• Разработчикам голосовых ассистентов.
• Создателям контента, нуждающимся в качественном озвучивании.
Какие преимущества у SpeechGPT перед аналогами?
• Интеграция с экосистемой Яндекса.
• Поддержка русского языка и региональных акцентов.
• Высокая точность обработки сложных запросов.
Когда SpeechGPT станет доступной?
Точная дата запуска пока не объявлена, но ожидается, что технология будет доступна в 2025 году для тестирования и коммерческого использования.