Focused Transformer: Contrastive Training for Context Scaling | Machinelearning

Focused Transformer: Contrastive Training for Context Scaling

LongLLaMA, a large language model capable of handling long contexts of 256k tokens or even more.

LongLLaMA - это большая языковая модель, способная обрабатывать очень длинные тексты (размером 256k токенов и даже больше). Модель основана на OpenLLaMA и доработана с помощью метода фокусированного преобразования (FoT).

Github: https://github.com/cstankonrad/long_llama

Paper: https://arxiv.org/abs/2307.03170v1

Colab: https://colab.research.google.com/github/CStanKonrad/long_llama/blob/main/long_llama_colab.ipynb

Dataset: https://paperswithcode.com/dataset/pg-19

ai_machinelearning_big_data

Machinelearning

🤷‍♂️ 62.98K
Технологии

Самая актуальная информация из мира ML, Нейронных сетей,DI. По всем вопросам- @haarrp . @itchannels_telegram - 🔥 best it channels . @pytho...

Join
▲ Vote (1)

Focused Transformer: Contrastive Training for Context Scaling | Machinelearning

Login