На своем весеннем мероприятии OpenAI представил GPT-4o, новую модель ИИ, способную в реальном времени выполнять логические операции над аудио, видео и текстом.
GPT-4o - это значительный прогресс в области естественного взаимодействия человека и машины. Эта модель улучшает диалоги в реальном времени, анализ видео, переводы и многое другое. Таким образом, она подтверждает ожидания, а также некоторые опасения относительно будущего технологий ИИ.
Возможности GPT-4o и их влияние на повседневную жизнь включают в себя:
- Производительность памяти: Может извлекать уроки из предыдущих бесед с пользователями.
- Перевод в режиме реального времени: Поддерживает мгновенные переводы на 50 языков.
- Решение задач по математике / репетиторство: Объясняет математические задачи в понятной форме и решает их.
- Знание языков: Создает ощущение разговора с реальным человеком с помощью голосового общения. Распознает различные типы голоса.
- Мультимедийный анализ: Анализирует изображения и текст и устанавливает связи между текстом и визуальными данными.
Эти возможности демонстрируют широкую применимость GPT-4o при взаимодействии с пользователями и выполнении различных задач. Модель совершенствуется благодаря постоянному изучению опыта.
GPT-4o был представлен вчера компанией OpenAI в прямом эфире на YouTube. В этой трансляции вы можете увидеть демонстрацию этих возможностей:
GPT-4o будет бесплатным для всех пользователей ChatGPTНо OpenAI пока не назвала точную дату, когда это станет возможным. Генеральный директор Сэм Альтман лишь сказал, что "новый звуковой режим будет доступен пользователям Plus в ближайшие недели". Более подробную информацию можно найти в разделе "Доступность модели" в конце этой статьи.
Поздоровайтесь с GPT-4o, нашей новой флагманской моделью, которая может рассуждать на основе аудио, зрения и текста в режиме реального времени: https://t.co/MYHZB79UqN
Ввод текста и изображений уже сегодня доступен в API и ChatGPT, а голос и видео - в ближайшие недели. pic.twitter.com/uuthKZyzYx
- OpenAI (@OpenAI) 13 мая 2024 года
Какие инновации лежат в основе возможностей GPT-4o? Давайте посмотрим на технические детали от OpenAI...
GPT-4o находится на уровне интеллекта GPT-4, но работает гораздо быстрее.
GPT-4o принимает на вход любую комбинацию текста, аудио и видео и может генерировать любую комбинацию текста, аудио и видео на выходе. Он реагирует на голосовой ввод всего за 232 миллисекунды, что очень близко к времени реакции человеческого собеседника и создает ощущение диалога, близкого к человеческому.
Быстрый подсчет с помощью GPT-4o pic.twitter.com/3KfVbaAM6c
- OpenAI (@OpenAI) 13 мая 2024 года
До появления GPT-4o речевой режим ChatGPT имел средние задержки в 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4). GPT-4 не мог напрямую определить тон голоса, наличие нескольких говорящих или фоновый шум. Он также не смог уловить смех, пение или эмоциональные выражения, поскольку использовал конвейер из трех отдельных моделей: одна для преобразования звука в текст, другая - для вывода текста, а третья - для обратного преобразования в звук. Этот процесс приводил к потере информации. В GPT-4o используется единая сквозная модель для текста, изображения и звука. Это означает, что все входы и выходы обрабатываются одной и той же нейронной сетью. "Поскольку GPT-4o - наша первая модель, объединяющая все эти методы, мы только начинаем изучать ее возможности и ограничения", - говорят в OpenAI.
Новая модель не уступает GPT-4 Turbo в производительности при работе с английскими и кодированными текстами и имеет явное преимущество при работе с текстами на других языках. Она лучше понимает изображения и звуки, работает гораздо быстрее и на 50 % дешевле в API.
Рейтинг моделей
Если сравнивать с обычными эталонами, GPT-4o достигает уровня GPT-4 Turbo в таких областях, как текст, рассуждения и кодирование. Он устанавливает новые стандарты в области многоязычия, языковых и видеовозможностей и выводит технологию искусственного интеллекта на новый уровень.
Безопасность и ограничения модели
В OpenAI реализованы широкие меры безопасности: "В GPT-4o встроены механизмы безопасности с помощью различных методов, таких как фильтрация обучающих данных и улучшение поведения модели после обучения. Мы разработали новые системы для обеспечения защитных барьеров на звуковых выходах. GPT-4o был оценен в соответствии с нашей концепцией готовности и в соответствии с нашими добровольными обязательствами. Наши оценки кибербезопасности, ХБРЯ, убедительности и автономности модели показали, что GPT-4o не превышает среднего уровня риска ни в одной из этих категорий. Оценка включала в себя автоматические и человеческие суждения на протяжении всего процесса обучения. Мы протестировали версии модели до и после пределов безопасности, чтобы лучше понять возможности модели. GPT-4o также прошла всестороннее внешнее исследование "Красной команды" с участием более 70 экспертов в таких областях, как социальная психология, предвзятость, справедливость и дезинформация, чтобы выявить риски, возникающие или усиливающиеся в результате применения новых методов. Эти выводы были использованы для улучшения мер безопасности".
Объяснение продолжается:
"Мы осознали, что языковые методы GPT-4o сопряжены с новыми рисками. Сегодня мы выпускаем методы ввода текста и изображений и вывода текста. В ближайшие недели и месяцы мы будем работать над технической инфраструктурой, доступностью после обучения и безопасностью, необходимыми для внедрения дальнейших методов. Например, вывод звука будет изначально ограничен предустановленными звуками и будет соответствовать нашим текущим правилам безопасности. Более подробная информация обо всех методах GPT-4o будет объявлена на предстоящем системном совете. В ходе тестирования мы обнаружили некоторые ограничения во всех методах модели, некоторые из которых можно увидеть на видео ниже. Мы приветствуем обратную связь, которая поможет нам определить задачи, в которых GPT-4 Turbo работает лучше, чем GPT-4o, чтобы мы могли продолжать совершенствовать модель".
Доступность моделей
"GPT-4o - это наш последний шаг к расширению границ глубокого обучения и его практическому применению. В течение последних двух лет мы упорно работали над повышением эффективности на каждом уровне стека. Первый плод этих исследований - модель уровня GPT-4, которая стала более доступной. Возможности GPT-4o распространяются итеративно (с расширенным доступом Red Team начиная с сегодняшнего дня)".
"С сегодняшнего дня текстовые и графические функции GPT-4o доступны на ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне и для пользователей Plus с 5-кратным увеличением лимита сообщений. В ближайшие недели новая версия голосового режима с GPT-4o alpha будет представлена в ChatGPT Plus. Разработчики теперь также могут получить доступ к GPT-4o как к модели текста и изображения в API. GPT-4o в 2 раза быстрее GPT-4 Turbo, в два раза дешевле и имеет в 5 раз большие ограничения по скорости. В ближайшие недели мы планируем предоставить новые аудио- и видеофункции GPT-4o небольшой группе надежных партнеров в API".