GPT-4-Turbo возглавила рейтинг языковых моделей. Объясняем, ка | Hi, AI! | нейросети

GPT-4-Turbo возглавила рейтинг языковых моделей. Объясняем, как его составляют

На прошлой неделе OpenAI выпустила обновленную версию модели GPT-4-Turbo. Согласно отзывам, она лучше создает код, пишет эссе, в ее текстах меньше «воды». Вскоре после выпуска GPT-4-Turbo заняла первое место в рейтинге больших языковых моделей (LLM) — Arena Leaderboard. Он формируется на основе голосования людей, сбора пользовательских данных и парного сравнения.

Что означают параметры в рейтинге Arena

Arena Elo — рейтинг LLM-моделей, похожий на тот, что используется в шахматах. Он показывает, как хорошо модель справляется в соревнованиях с другими. В этих соревнованиях пользователи выбирают лучшую модель. Сравнение происходит в режиме слепого тестирования: пользователю выдается два окна для общения с неизвестными ему нейросетями, он может с ними беседовать, пока не определит лучшую LLM на основе его личных предпочтений.

CI, 95% — доверительный интервал рейтинга модели. Что это означает: например, у модели GPT-4-Turbo указан рейтинг Elo —1260, а показатель CI, 95% — +5/-5; значит, с вероятностью 95% истинный рейтинг модели будет находиться в интервале 1255–1265 (то есть плюсуем 5 и вычитаем 5 из показателя 1260). С помощью CI можно отслеживать объективность положения LLM в таблице, и именно поэтому сразу 3 модели занимают 1-е место: их рейтинги «пересекаются» в своих доверительных интервалах.

Голоса — количество голосов пользователей Arena. На сегодняшний день Arena оперирует 670 тыс. голосов.

Разработчик — компания, которой принадлежит LLM.

База знаний — на данных за какой период обучена модель, например, GPT-4-Turbo обладает знаниями о мире до декабря 2023.

Как я могу протестировать?

В нашем @GPT4Telegrambot вы можете работать сразу с четырьмя ведущими моделями: GPT-4-Turbo, GPT-4-0125, а также Сlaude 3 — версии Opus и Sonnet.

Читайте также:

Claude 3: новая модель ИИ от главного конкурента OpenAI

В @GPT4Telegrambot появилась работа с документами

#OpenAI #Claude @hiaimedia

Hi, AI! | нейросети

🦹 522.27K
Технологии

Медиа от создателей @GPT4Telegrambot — 12 миллионов пользователей по всему миру. Мы пишем о нейросетях и людях, которы...

Join
▲ Vote (1)

GPT-4-Turbo возглавила рейтинг языковых моделей. Объясняем, ка | Hi, AI! | нейросети

Login