Получи случайную криптовалюту за регистрацию!

Data Secrets

Логотип телеграм канала @data_secrets — Data Secrets
Адрес канала: @data_secrets
Категории: Технологии
Язык: Русский
Количество подписчиков: 31.31K
Описание канала:

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks
По вопросам сотрудничества: @veron_28
https://telega.in/c/data_secrets

Рейтинги и Отзывы

4.00

3 отзыва

Оценить канал data_secrets и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

1

3 звезд

1

2 звезд

0

1 звезд

0


Последние сообщения 6

2024-06-04 14:43:14
Галя, у нас отмена отмены!

Пару дней назад Docker Hub пару дней назад ушёл из России и Беларуси из-за санкций США, но теперь вдруг передумал.

Сейчас hub.docker.com снова доступен с российских IP-адресов, а наш подробный гайд про деплой ML-моделей с докером снова в силе.
7.2K views11:43
Открыть/Комментировать
2024-06-04 12:58:47
Новый супер-качественный датасет FineWeb-Edu от HuggingFace

Недавно те же ученые представляли FineWeb – это был по сути отфильтрованный классический CommonCrawl. Теперь же с помощью классификатора на основе Llama-3-70B-Instruct они отобрали из FineWeb только те веб-страницы, которые относятся к образовательному контенту. Кстати, похожий прием мы видели у DeepSeekMath (читайте наш разбор).

Гипотеза исследователей была в том, что если обучать LLM на образовательном контенте, она будет лучше ризонить и вообще вырастет по бенчмаркам. Оказалось, что так и есть. Посмотрите на график: модели на FineWeb-Edu значительно обгоняют модели на FineWeb, C4 и тд.

Чтобы достичь перформанса FineWeb-Edu, другим датасетам нужно в 4 раза больше данных. Это еще раз доказывает, что качество обучающей выборки – это душа модели.

Сейчас FineWeb-Edu находится в открытом доступе в двух размерах: 1.3 триллиона токенов и 5.4 триллиона. Работу, кстати, высоко оценил Андрей Карпаты.
6.2K views09:58
Открыть/Комментировать
2024-06-04 11:55:10
Программируете на С++ и хотите узнать, в каком направлении можно развивать свою карьеру?
Интенсивы с упором на практику вам в помощь!

Зачастую на таких коротких программах не просто учат востребованным скилам, но и объясняют, в каких сферах и профессиях они нужны.
Например, недавно Школа анализа данных Яндекса анонсировала SRE Week. На открытом интенсиве будут рассказывать как об эксплуатации больших информационных систем, так и о задачах SRE-специалистов: траблшутинге, SLA, capacity planning и многом другом. Это отличный шанс для разработчиков попробовать себя в новой сфере, а для студентов — построить траекторию развития в IT.

SRE Week пройдёт с 17 по 22 июня. Участие бесплатное. Доступ к лекциям дают всем зарегистрированным, однако, чтобы получить сертификат, нужно пройти отбор и успешно сдать итоговую работу.

Подайте заявку до 16 июня и слушайте лекции топовых экспертов.
5.9K views08:55
Открыть/Комментировать
2024-06-04 09:52:07
Годовая зарплата в $65 тыс. и активы на $2.8млрд? Легко, особенно когда ты Сэм Альтман. Итак, портфель CEO, который мы заслужили:

7,6% акций Reddit (на данный момент стоимость составляет более 700 миллионов долларов)

Инвестировал 15 000 долларов в 2% акций Stripe в 2009 году (сегодня это 1,3 млрд долларов)

Чек на 375 миллионов долларов в Helion, стартап в области ядерного синтеза (Microsoft является клиентом)

Инвестиции в компанию Exowatt, которая производит контейнерные энергетические системы для датацентров

Инвестиции в размере 180 миллионов долларов в Retro – стартап, который пытается увеличить продолжительность жизни человека

Инвестиции в несколько ИИ-компаний, включая Rain AI (чипы), 15% Humane и Limitless

Дома в Напе и на Гавайях

Персональная кредитная линия от JP Morgan Chase, которая позволяет ему брать займы под залог стоимости своего личного портфеля

Ну и коллекция спорткаров конечно, куда без них

Такие дела
6.1K views06:52
Открыть/Комментировать
2024-06-03 20:18:30
У нас для вас отличные новости!

Погоня за ML специалистами не сбавляет обороты. На западе CEO лично звонят кандидатам, чтобы переманить их. Россия не отстает: один только Яндекс нанимает около 100 ML-инженеров каждый месяц, а зарплаты таких специалистов постоянно растут.

Чтобы вы не пропускали самые сочные вакансии в топовых компаниях России и за рубежом, мы создали канал Data Secrets | Карьера. Там можно легко найти работу с подходящим форматом, специальностью и задачами.

Также канал поможет мониторить рынок и тренды на нем, даже если сейчас вы не ищете оффер.

Подписывайтесь, чтобы держать руку на пульсе: @data_secrets_career
12.4K views17:18
Открыть/Комментировать
2024-06-03 17:09:01
«Для таких людей, как я, LLM – это уже прошлое, сейчас они скучны» - Ян Лекун.

Наверное, с Маском разборки устраивать интереснее
6.5K views14:09
Открыть/Комментировать
2024-06-03 15:18:09
Закон Nvidia >> закон Мура

Что произошло? Прошла выставка COMPUTEX 2024, на которой выступил CEO NVIDIA Дженсен Хуанг. Он рассказывал об успехах Nvidia в производстве чипов и дальнейших планах.

В ходе выступления он показал график, который особенно зантересовал слушателей. На нем сравнивается закон Мура и рост производительности чипов компании.

Что такое закон Мура? Вообще это даже не закон, а наблюдение основателя Intel: "Количество транзисторов, размещаемых на кристалле интегральной схемы, удваивается каждые 24 месяца". Проще говоря: мощность процессоров удваивается каждые два года.

Так вот, не имея серьезной конкуренции, Nvidia, видимо, решила конкурировать с этим законом. И, как видите, получилось очень неплохо: последние 8 лет корпорация двигалась в 25 раз быстрее, чем завещал Мур. Это поразительно.

Полное выступление Хуанга смотрим тут.
6.6K views12:18
Открыть/Комментировать
2024-06-03 14:16:35
Международный онлайн-хакатон «Лидеры цифровой трансформации» стартовал!

ТЗ и датасеты уже доступны в личном кабинете. Но ты еще можешь выбрать задачу и влететь на хакатон до 5 июня!

Тебя ждет 25 задач, работа в команде до 5 человек над актуальными кейсами, современный коворкинг, возможность пропитчить свои решения, пропилотировать и внедрить свою разработку, шанс получить крутой оффер и показать, что ты лучший из лучших не только в России, но и во всем мире! И конечно, драйв, опыт и деньги!

Призовой фонд 50 000 000 рублей!

Приступай к разработке решения прямо сейчас!

Когда: 3-16 июня 2024 года
Формат: Онлайн из любой точки мира
Дедлайн регистрации: 5 июня 2024 года, 23:59 (мск)

Победитель получит 1 млн рублей, второе и третье место — по 600 тыс. и 400 тыс. рублей соответственно. Разработка стартовала уже сегодня!

Собирай команду в чате лидеров и регистрируйся на сайте.
6.5K views11:16
Открыть/Комментировать
2024-06-02 19:57:23
Boston Dynamics напряглись?
7.0K views16:57
Открыть/Комментировать
2024-06-02 15:42:51
Nvidia опубликовала веса для своей SOTA модели эмбеддингов NV-Embed-1, а также подробный технический отчет

Итак, NV-Embed – это эмбеддинги на основе Mistral 7B. Вместо обычного усреднения или EOS, которые используют другие методы, здесь для сжатия входов и получения эмбеддингов вводится дополнительный латентный слой внимания.

Обучение: на первом этапе используются QA датасеты, а на втором – размеченные под классификацию, кластеризацию и семантическое сходство. Конечно, как обычно это бывает для эмбеддингов, все учится на contrastive.

Отдельно в отчете отмечено, что большой скачок в качестве дали замешанные с разных тасков батчи (обычно таски смешиваются гомогенно).

По MTEB моделька превосходит все остальные, выбивая почти 70. Идеально для RAG.
7.3K views12:42
Открыть/Комментировать