Focused Transformer: Contrastive Training for Context ScalingLongLLaMA, a large language model capable of handling long contexts of 256k tokens or even more.
LongLLaMA - это большая языковая модель, способная обрабатывать очень длинные тексты (размером 256k токенов и даже больше). Модель основана на OpenLLaMA и доработана с помощью метода фокусированного преобразования (FoT). Github: https://github.com/cstankonrad/long_llama
Paper: https://arxiv.org/abs/2307.03170v1
Colab: https://colab.research.google.com/github/CStanKonrad/long_llama/blob/main/long_llama_colab.ipynb
Dataset: https://paperswithcode.com/dataset/pg-19
ai_machinelearning_big_data