GPT-4-Turbo возглавила рейтинг языковых моделей. Объясняем, как его составляют
На прошлой неделе OpenAI выпустила
обновленную версию модели GPT-4-Turbo. Согласно отзывам, она лучше создает код, пишет эссе, в ее текстах меньше «воды». Вскоре после выпуска GPT-4-Turbo заняла первое место в рейтинге больших языковых моделей (LLM) —
Arena Leaderboard. Он формируется на основе голосования людей, сбора пользовательских данных и парного сравнения.
Что означают параметры в рейтинге Arena Arena Elo — рейтинг LLM-моделей, похожий на тот, что
используется в шахматах. Он показывает, как хорошо модель справляется в соревнованиях с другими. В этих соревнованиях пользователи выбирают лучшую модель. Сравнение происходит в режиме слепого тестирования: пользователю выдается два окна для общения с неизвестными ему нейросетями, он может с ними беседовать, пока не определит лучшую LLM на основе его личных предпочтений.
CI, 95% — доверительный интервал рейтинга модели. Что это означает: например, у модели GPT-4-Turbo указан
рейтинг Elo —1260, а показатель
CI, 95% — +5/-5; значит, с вероятностью 95% истинный рейтинг модели будет находиться в интервале 1255–1265 (то есть плюсуем 5 и вычитаем 5 из показателя 1260). С помощью CI можно отслеживать объективность положения LLM в таблице, и именно поэтому сразу 3 модели занимают 1-е место: их рейтинги «пересекаются» в своих доверительных интервалах.
Голоса — количество голосов пользователей Arena. На сегодняшний день Arena оперирует 670 тыс. голосов.
Разработчик — компания, которой принадлежит LLM.
База знаний — на данных за какой период обучена модель, например, GPT-4-Turbo обладает знаниями о мире до декабря 2023.
Как я могу протестировать?В нашем
@GPT4Telegrambot вы можете работать сразу с четырьмя ведущими моделями: GPT-4-Turbo, GPT-4-0125, а также Сlaude 3 — версии Opus и Sonnet.
Читайте также:
Claude 3: новая модель ИИ от главного конкурента OpenAI В @GPT4Telegrambot появилась работа с документами#OpenAI #Claude @hiaimedia