OpenAI представила версию чат-бота GPT-4 с поддержкой текста и изображений

Во вторник компания Google рассказала о внедрении алгоритма искусственного интеллекта в свои предложения Workspace. В четверг Microsoft проводит мероприятие Future of Work примерно с такой же целью. В преддверии этого события компания OpenAI анонсировала четвёртую версию своей генеративной предварительно обученной системы преобразования GPT-4.

Нынешнее поколение GPT-3.5 является основой популярного диалогового чат-бота ChatGPT. Он способен читать и давать текстовые ответы, тогда как GPT-4 умеет создавать текст на предлагаемых ему пользователями изображениях. Разработчики уверяют, что эта версия будет давать результаты уровня человека в профессиональных и академических сценариях применения.

OpenAI сотрудничает с Microsoft над развитием возможностей GPT. Последние полгода она провела за настройкой и улучшением результативности системы, взяв за основу отзывы пользователей ChatGPT. Разработчики рассказали, что GPT-4 сдал смоделированные экзамены (Uniform Bar, LSAT, GRE и различные тесты AP) с оценкой на уровне «примерно 10% лучших участников теста» против попавшего в худшие 10% GPT-3.5.

Новый алгоритм опережает другие современные модели больших языков (LLM) в различных сценариях применения. Ещё разработчики говорят, что обновлённая система достигает рекордных результатов по «фактичности, управляемости и отказу выходить за ограждения».

GPT-4 будет предлагаться как в составе чат-бота ChatGPT, так и в виде интерфейса прикладного программирования (API) для других приложений. У пользователей должна быть подписка на сервис ChatGPT Plus, чтобы получить доступ к этой версии алгоритма. Даже при подписке есть ограничения на число запросов. Доступ к API даётся в порядке очереди. «GPT-4 надёжнее, изобретательнее и лучше обрабатывает более тонкие команды по сравнению с GPT-3.5».

Появление функции мультимодального ввода позволит генерировать текст в виде выходных данных. Это может быть разговорный язык, программный код и что угодно другое, используя большой выбор текста и изображений. Например, появится возможность сканировать маркетинговые отчёты и результаты продаж с графиками и числами, учебники и инструкции по эксплуатации, причём даже скриншоты. ChatGPT будет резюмировать информацию и превращать её в понятные для человека слова.

Результаты могут быть сформулированы по-разному, за настройку отвечает разработчик API. «Вместо классической индивидуальности ChatGPT с фиксированной детализацией, тоном и стилем разработчики (и затем пользователи ChatGPT) могут выбирать стиль и задачи своего ИИ, описывая эти направления в «системном» сообщении».

GPT-4 «галлюцинирует» не такими быстрыми темпами, как предшественник, делая это на 40% реже. Ещё новая версия на 82% реже отвечает на запросы по поводу запрещённого контента.

Разработчики задействовали 50 экспертов из различных профессиональных областей, от кибербезопасности до международной безопасности, чтобы протестировать свою модель. Однако, система ещё не полностью избавлена от неточностей, поэтому разработчики рекомендуют с осторожностью применять её в случаях, когда полученные данные имеют большое значение.

Мультиформатная конференция TECH WEEK

Google Play Best of 2023 Awards: список победителей

Компания OpenAI могла совершить опасный прорыв в сфере ИИ

Кремниевая «Санта-Барбара»: OpenAI могут уйти почти все сотрудники

В Китае запустили первую в мире интернет-магистраль со скоростью 1,2 Тбит/с