Свяжитесь с нами
Эрхартштрассе 17, 8152 Глаттпарк
hello(at)likeartdesign.com
Мобильный телефон: +41 76 577 32 59
Справки по трудовым вопросам
hello(at)likeartdesign.com
Мобильный телефон: +41 76 577 32 59
Назад

Возможности GPT-4o, имитирующие реальные разговоры

На своем весеннем мероприятии OpenAI представил GPT-4o, новую модель ИИ, способную в реальном времени выполнять логические операции над аудио, видео и текстом.


GPT-4o - это значительный прогресс в области естественного взаимодействия человека и машины. Эта модель улучшает диалоги в реальном времени, анализ видео, переводы и многое другое. Таким образом, она подтверждает ожидания, а также некоторые опасения относительно будущего технологий ИИ.

Возможности GPT-4o и их влияние на повседневную жизнь включают в себя:

  1. Производительность памяти: Может извлекать уроки из предыдущих бесед с пользователями.
  2. Перевод в режиме реального времени: Поддерживает мгновенные переводы на 50 языков.
  3. Решение задач по математике / репетиторство: Объясняет математические задачи в понятной форме и решает их.
  4. Знание языков: Создает ощущение разговора с реальным человеком с помощью голосового общения. Распознает различные типы голоса.
  5. Мультимедийный анализ: Анализирует изображения и текст и устанавливает связи между текстом и визуальными данными.

Эти возможности демонстрируют широкую применимость GPT-4o при взаимодействии с пользователями и выполнении различных задач. Модель совершенствуется благодаря постоянному изучению опыта.
GPT-4o был представлен вчера компанией OpenAI в прямом эфире на YouTube. В этой трансляции вы можете увидеть демонстрацию этих возможностей:



GPT-4o будет бесплатным для всех пользователей ChatGPT
Но OpenAI пока не назвала точную дату, когда это станет возможным. Генеральный директор Сэм Альтман лишь сказал, что "новый звуковой режим будет доступен пользователям Plus в ближайшие недели". Более подробную информацию можно найти в разделе "Доступность модели" в конце этой статьи.


Какие инновации лежат в основе возможностей GPT-4o? Давайте посмотрим на технические детали от OpenAI...

GPT-4o находится на уровне интеллекта GPT-4, но работает гораздо быстрее.


GPT-4o принимает на вход любую комбинацию текста, аудио и видео и может генерировать любую комбинацию текста, аудио и видео на выходе. Он реагирует на голосовой ввод всего за 232 миллисекунды, что очень близко к времени реакции человеческого собеседника и создает ощущение диалога, близкого к человеческому.


До появления GPT-4o речевой режим ChatGPT имел средние задержки в 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4). GPT-4 не мог напрямую определить тон голоса, наличие нескольких говорящих или фоновый шум. Он также не смог уловить смех, пение или эмоциональные выражения, поскольку использовал конвейер из трех отдельных моделей: одна для преобразования звука в текст, другая - для вывода текста, а третья - для обратного преобразования в звук. Этот процесс приводил к потере информации. В GPT-4o используется единая сквозная модель для текста, изображения и звука. Это означает, что все входы и выходы обрабатываются одной и той же нейронной сетью. "Поскольку GPT-4o - наша первая модель, объединяющая все эти методы, мы только начинаем изучать ее возможности и ограничения", - говорят в OpenAI.

Новая модель не уступает GPT-4 Turbo в производительности при работе с английскими и кодированными текстами и имеет явное преимущество при работе с текстами на других языках. Она лучше понимает изображения и звуки, работает гораздо быстрее и на 50 % дешевле в API.

Рейтинг моделей


Если сравнивать с обычными эталонами, GPT-4o достигает уровня GPT-4 Turbo в таких областях, как текст, рассуждения и кодирование. Он устанавливает новые стандарты в области многоязычия, языковых и видеовозможностей и выводит технологию искусственного интеллекта на новый уровень.

Безопасность и ограничения модели


В OpenAI реализованы широкие меры безопасности: "В GPT-4o встроены механизмы безопасности с помощью различных методов, таких как фильтрация обучающих данных и улучшение поведения модели после обучения. Мы разработали новые системы для обеспечения защитных барьеров на звуковых выходах. GPT-4o был оценен в соответствии с нашей концепцией готовности и в соответствии с нашими добровольными обязательствами. Наши оценки кибербезопасности, ХБРЯ, убедительности и автономности модели показали, что GPT-4o не превышает среднего уровня риска ни в одной из этих категорий. Оценка включала в себя автоматические и человеческие суждения на протяжении всего процесса обучения. Мы протестировали версии модели до и после пределов безопасности, чтобы лучше понять возможности модели. GPT-4o также прошла всестороннее внешнее исследование "Красной команды" с участием более 70 экспертов в таких областях, как социальная психология, предвзятость, справедливость и дезинформация, чтобы выявить риски, возникающие или усиливающиеся в результате применения новых методов. Эти выводы были использованы для улучшения мер безопасности".
Объяснение продолжается:

"Мы осознали, что языковые методы GPT-4o сопряжены с новыми рисками. Сегодня мы выпускаем методы ввода текста и изображений и вывода текста. В ближайшие недели и месяцы мы будем работать над технической инфраструктурой, доступностью после обучения и безопасностью, необходимыми для внедрения дальнейших методов. Например, вывод звука будет изначально ограничен предустановленными звуками и будет соответствовать нашим текущим правилам безопасности. Более подробная информация обо всех методах GPT-4o будет объявлена на предстоящем системном совете. В ходе тестирования мы обнаружили некоторые ограничения во всех методах модели, некоторые из которых можно увидеть на видео ниже. Мы приветствуем обратную связь, которая поможет нам определить задачи, в которых GPT-4 Turbo работает лучше, чем GPT-4o, чтобы мы могли продолжать совершенствовать модель".

Доступность моделей


"GPT-4o - это наш последний шаг к расширению границ глубокого обучения и его практическому применению. В течение последних двух лет мы упорно работали над повышением эффективности на каждом уровне стека. Первый плод этих исследований - модель уровня GPT-4, которая стала более доступной. Возможности GPT-4o распространяются итеративно (с расширенным доступом Red Team начиная с сегодняшнего дня)".
"С сегодняшнего дня текстовые и графические функции GPT-4o доступны на ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне и для пользователей Plus с 5-кратным увеличением лимита сообщений. В ближайшие недели новая версия голосового режима с GPT-4o alpha будет представлена в ChatGPT Plus. Разработчики теперь также могут получить доступ к GPT-4o как к модели текста и изображения в API. GPT-4o в 2 раза быстрее GPT-4 Turbo, в два раза дешевле и имеет в 5 раз большие ограничения по скорости. В ближайшие недели мы планируем предоставить новые аудио- и видеофункции GPT-4o небольшой группе надежных партнеров в API".

Likeartdesign
Likeartdesign
https://www.likeartdesign.ch

Комментарии

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт сохраняет файлы cookie на вашем компьютере. Политика использования файлов cookie