Получи случайную криптовалюту за регистрацию!

nlp_daily

Логотип телеграм канала @nlp_daily — nlp_daily N
Логотип телеграм канала @nlp_daily — nlp_daily
Адрес канала: @nlp_daily
Категории: Без категории
Язык: Русский
Количество подписчиков: 611
Описание канала:

nlp_daily - это канал о крутой части машинного обучения, связанной с обработкой естественного языка (NLP).
Здесь будут последние новости, исследования и туториалы. Ничего лишнего, только самое необходимое для NLP самурая.

Рейтинги и Отзывы

2.00

3 отзыва

Оценить канал nlp_daily и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

0

4 звезд

0

3 звезд

1

2 звезд

1

1 звезд

1


Последние сообщения

2023-03-10 08:35:07 ​​Не все базы данных одинаково полезны для хранения текстов. Сейчас золотым стандартом считается Elasticsearch. И на то есть причины:

1. Быстрый полнотекстовый поиск. Использует индексацию и поиск на основе обратного индекса, что позволяет ему быстро находить совпадения по ключевым словам.

2. Можно выполнять сложные запросы с использованием встроенных агрегаций. Встроенные агрегации позволяют группировать данные по различным критериям - можно вычислить среднее, количество, сумму и другие стат показатели - какие только сможете придумать.

3. Масштабируемость. Эластик позволяет легко добавлять и удалять ноды для адаптации к изменениям в данных. Данные автоматически распределяются по узлам кластера.

4. Простой и понятный интерфейс для запросов.

5. Ну и вишенка на торте. Поле dense vector - это специальный тип поля, который позволяет хранить векторы с плотным представлением. С ним можно выполнять запросы, которые используют векторы для поиска и ранжирования. Например, можно выполнить запрос, который ищет документы, наиболее близкие к заданному вектору.

Эластик крут. Но конкуренты уже дышат в спину. В следующий раз напишу про одного такого представителя. Не переключаетесь.

#nlp_tools, #elasticsearch
21 views05:35
Открыть/Комментировать
2023-03-09 23:39:09 О скором релизе GPT-4

Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели:

1. Выйдет в феврале (почти)
1. Такой же скачок в числе параметров как и GPT-2 к GPT-3 - trillion is the new billion
1. Sparse, скорее всего MoE
1. Такой же скачок в качестве как и GPT-2 к GPT-3
1. Мультимодальность: текст, картинки, аудио
1. Мультимодальность; протеины
1. Под мультимодальностью имеется в виду не только инпут, но и генерация
1. Обучали на 10-20 тысячах A100 в течении нескольких месяцев
1. Длина контекста: 32 тысячи токенов

Хайп по OpenAI лишь набирает обороты
18 views20:39
Открыть/Комментировать
2023-03-08 09:04:11
Всех девушек с 8 Марта! Пусть будет больше солнца и улыбок

Сеточка Midjourney присоединяется к поздравлениям
17 views06:04
Открыть/Комментировать
2023-03-07 08:15:31 ​​Если долго всматриваться в бездну, то можно наконец увидеть все поколение трансформеров.

Текущий этап развития языковых моделей возвращает нас к древнегреческим мифам - когда Гея и Уран начали массово плодить циклопов, титанов и прочих гекатонхейров. Что было дальше, тоже можно найти у древних.
21 views05:15
Открыть/Комментировать
2023-03-06 20:07:02 ​​Сегодня о хлебе насущном, т.е о зарплатах и вакансиях. Кто-то постоянно мониторит слак, кто-то hh, но хочется какой-то понятной аналитики по всему рынку. Ладно, не всему, но хотя бы Москвы.

Для вашего удобства я накидал немного говнокода и выгрузил вакансии за прошлую неделю с hh (другие источники лень не позволила).

Получилось около 2.2k ds вакансий и только 41 про NLP. Зарплатки указаны, конечно, только у меньшей части, в основном на джуновские позиции.

В общем и целом думаю собирать такую аналитику еженедельно. А после преодоления первой сотни подписчиков, добавлю slack. Более мощную мотивацию подписаться на канал трудно придумать.

Ну и картинки из матплотлиба, естественно

#salary_anal
20 views17:07
Открыть/Комментировать
2023-03-06 08:54:49 Годная статья для простых смертных про языковые модели и этот ваш чатгпт

https://vc.ru/future/623774-evolyuciya-neyrosetey-ot-t9-do-chatgpt-obyasnyaem-na-prostom-russkom-kak-rabotayut-yazykovye-modeli
25 views05:54
Открыть/Комментировать
2023-03-05 14:24:03 ​​Меч nlp-самурая должен быть всегда острым, а это значит, что нужно периодически освежать в своей голове основные концепции.

Сегодня пойдет речь о такой штуке, как co-occurrence matrix.
Давайте по пунктам:

1. Сo-occurrence matrix - это таблица подсчетов, которая представляет частоту появления двух элементов в данном контексте. Контекст задается шириной окна.
2. Обычно представляется в виде матрицы NxN, где N - количество слов в корпусе.
3. Используется для измерения взаимосвязи между двумя словами или фразами в документе или коллекции документов. Те это вполне себе эмбеддинг, правда очень большой размерности, что не очень удобно.

Ниже матрица для текста 'learn nlp every day' , window = 1

| |learn|nlp|every|day|
|-----|-----|---|-----|---|
|learn| 0 | 1 | 0 | 0 |
| nlp | 1 | 0 | 1 | 0 |
|every| 0 | 1 | 0 | 1 |
| day | 0 | 0 | 1 | 0 |

Как эту штуку использовать? Ну, для начала лучше уменьшить размерность, можно через SVD разложение, можно использовать более продвинутые подходы. Ну а далее полученные вектора можно будет сконкатенировать, например, с вектором от энкодера трансформера.

#nlp_theory
25 viewsedited  11:24
Открыть/Комментировать
2023-03-04 18:00:01 ​​Надоел хайп вокруг chatgpt? Мне тоже, но надо пройти этот путь до конца.

Сегодня пойдет речь о крутой фиче, которая добавляет к боту способность искать актуальную информацию в реальном времени. Да, такое возможно, и есть даже плагин для хрома

Например по запросу NBA games from 03.03.2023 выдал следующее:

Based on the web search results provided, there are several NBA games that occurred on March 3, 2023:

Memphis Grizzlies vs. Denver Nuggets: This game was played on March 3, 2023 at 10:00 p.m. Eastern Time. The game was available to watch on fuboTV [1].

Golden State Warriors vs LA Clippers: This game was scheduled to start on March 3, 2023 at 03:00:00. Betting odds for the game were available on TonyBet [3].

Машинка работает, не благодарите

#nlp_tools #chatgpt
22 views15:00
Открыть/Комментировать
2023-03-04 09:00:00 ​​У nlp-самурая есть только путь, и хотелось бы , чтобы он был светлым. Chatgpt торжественно шагает по планете, а что по рынку в целом?

Ожидается, что рынок обработки естественного языка (NLP) достигнет 340 млрд долларов к 2030 году благодаря растущему внедрению технологий искусственного интеллекта (ИИ).

Размер мирового рынка обработки естественного языка оценивался в 11,1 млрд долларов в 2020 году и, по прогнозам, достигнет 341,5 млрд долларов к 2030 году, увеличиваясь ежегодно на 40,9% в период с 2021 по 2030 год. источник на доверии
20 views06:00
Открыть/Комментировать
2023-03-04 08:42:10 Пятничное чтиво про историю появления ChatGPT и соображения непосредственных участников соревнований

https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/
16 views05:42
Открыть/Комментировать