В разделе Экономика

OpenAI представила GPT-4o с мгновенной реакцией на голос

Всего 232 миллисекунды требуется новой модели GPT-4o, чтобы отреагировать на голосовой запрос пользователя, что сопоставимо со скоростью человеческой реакции в живом диалоге. Компания OpenAI презентовала флагманский алгоритм, который объединяет текст, зрение и аудио в единой нейросети, стирая границы между цифровым помощником и реальным собеседником.

OpenAI представила GPT-4o с мгновенной реакцией на голос

Всего 232 миллисекунды требуется новой модели GPT-4o, чтобы отреагировать на голосовой запрос пользователя, что сопоставимо со скоростью человеческой реакции в живом диалоге. Компания OpenAI презентовала флагманский алгоритм, который объединяет текст, зрение и аудио в единой нейросети, стирая границы между цифровым помощником и реальным собеседником.

Новая архитектура «omni» позволяет модели напрямую обрабатывать аудиосигнал, минуя стадию транскрибации в текст. Это сохранило эмоциональную окраску речи, позволило ИИ распознавать интонации и даже имитировать пение или шепот. В ходе демонстрации GPT-4o успешно справилась с ролью переводчика в реальном времени и помогла решить математическое уравнение, «увидев» его через камеру смартфона.

Доступность для всех В отличие от предыдущих релизов, компания открыла доступ к возможностям GPT-4o пользователям бесплатной версии ChatGPT. Ограничения коснутся лишь количества сообщений, в то время как подписчики Plus сохранят преимущество в виде пятикратного лимита. OpenAI также выпустила десктопное приложение для macOS, которое интегрирует нейросеть в рабочее пространство. Сейчас модель постепенно развертывается на всех рынках, а обновленный голосовой режим станет доступен широкой публике в течение ближайшего месяца.

Поделиться:в TelegramВКонтактев Одноклассниках

Подпишитесь на рассылку

Раз в неделю — лучшие материалы редакции, без рекламы и пушей. Письмо приходит в воскресенье утром.

Комментарии (0)

Оставить комментарий

Пока нет комментариев. Будьте первым!