Получи случайную криптовалюту за регистрацию!

Инжиниринг Данных

Логотип телеграм канала @rockyourdata — Инжиниринг Данных И
Логотип телеграм канала @rockyourdata — Инжиниринг Данных
Адрес канала: @rockyourdata
Категории: Технологии
Язык: Русский
Количество подписчиков: 17.26K
Описание канала:

Делюсь новостями из мира аналитики и вредными карьерными советами;)
8 лет в FAANG, инвестиции в недвижимость, компании и акции.
Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).

Рейтинги и Отзывы

2.00

2 отзыва

Оценить канал rockyourdata и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

0

4 звезд

0

3 звезд

1

2 звезд

0

1 звезд

1


Последние сообщения

2023-07-06 23:32:08 Прошлый пост вызвал много дебатов. Я его написал не для того, чтобы показать - "смотри какой я хитрый", а для того, чтобы это помогло кому-нибудь, как и весь контент в канале или в том же бесплатном datalearn. И я знаю, что многим помогло и еще многим поможет. Новый мир, новые инструменты и подходы.

Отличное видео - My 20 Year Career Is Tech Debt про то как наши навыки deprecated и потом нас layoff, role eliminated или еще чего. У меня у самого есть список инструментов и навыков, которые уже deprecated. Из полезного осталось - кататься на велосипеде


На самом деле хотел рассказать про другой случай, который меня косвенно коснулся. В Канаде обычно есть 2-3 компании которые владеют всем рынком, и это применимо к телекому, интернету, сотовой связи, продуктовым сетям и тп.

Остановимся на примере телекома, было 2 больших компании:

Shaw Communications Inc. was a Canadian telecommunications company which provided telephone, Internet, television, and mobile services. The company was founded in 1966 as Capital Cable Television Company, Ltd. by JR Shaw in Edmonton.

Rogers Communications Inc. is a Canadian communications and media company operating primarily in the fields of wireless communications, cable television, telephony and Internet, with significant additional telecommunications and mass media assets.

The company was acquired by and amalgamated into Rogers Communications in 2023

Лично я был контрактником ETL developer в Shaw. Именно там я архивировал сотни терабайтов данных в AWS S3 использую EMR. Работа была не пыльная.

Дальше было интересно (могу говорить только о data направлении):
- в мае уволили всех топов из shaw
- в июне (на прошлой недели) уволили всю команды из Denver офиса и его закрыли, включая всех моих full time коллег и моего менеджера

Ребята там были умные, и работали по 6-7 лет, причем работали хорошо. Возможно раньше не обжигались и думали, что они незаменимые (для меня реально они такие), high performers, да еще супер лояльные, и еще индустрия достаточно консервативная.

Но как обычно бывает, пришли большие дяди и тети и решили, что нужно eliminate overlapping roles. И пошло поехало.

Далее, CIO rogers всем написал, что с 1го Августа, все ходят в офис. И потом - Rogers launches voluntary departure program to eliminate 'overlap' after Shaw merger. Наверно это значит увольняйтесь сами по хорошему, а то потом будет по плохому Ну а с контакторами вообще разговор короткий

Когда такие вещи происходят сплошь и рядом, когда множество знакомых теряют работу, остается только надеяться на взаимопомощь и поддержку своих родных и друзей. И такая мелочь как списать на собеседовании должна волновать вас меньше всего.
3.3K viewsDmitry, edited  20:32
Открыть/Комментировать
2023-07-06 19:21:49
Вчера помогал проходить собеседование товарищу, и мы реально SEND IT. Эх мне бы этот метод в прошлом когда я валил собеседования в Facebook/Amazon.

Рассказываю:
1. Важно, чтобу у помошника был доступ к вашему монитору. В нашем случае у нас было 2 варианта:
1а. Используя google meet товарищ расшарил мне вкладку с live coding
1б. Он использовал сервис, чтобы стримить свой экран на другую машину, что было не лишне, так как я слышал все аудио и мог отвечать на ad-hoc вопросы.

2. Как только я увидел вопрос с кодом, сразу делаю скриншот и извлекаю текст в сервисе https://ocr.space/

3. chatgpt дает мне ответ и я его отправляю в телеграмм.

4. После кода, я уже могу писать ответы на вопросы интервьювера про system design и тп.

Как результат 1й раунд прошли на easy=)
4.7K viewsDmitry, 16:21
Открыть/Комментировать
2023-07-06 13:14:01
Типы баз данных
4.4K viewsDmitry, 10:14
Открыть/Комментировать
2023-07-06 09:13:01
4.6K viewsDmitry, 06:13
Открыть/Комментировать
2023-07-05 20:28:08 Делая всякие внутренние тренинги по Databricks, мне попалась интересная лаба - имитация Databricks/Spark среды с вопросами.

Вот пример:

У вас есть notebook и вы можете кликать на доступные элементы в UI - https://www.databricks.training/spark-ui-simulator/experiment-0000/v003-P/index.html

Для этой лабы есть секция с вопросами - https://www.databricks.training/spark-ui-simulator/experiment-0000/v003-P/lab.html

Вы можете попробовать, много Spark терминологии. Как я понял, это самая базовая лаба. Можно еще полазить тут https://www.databricks.training/spark-ui-simulator/index.html

Из комментария - https://www.dbdemos.ai/ Demos for Databricks.
4.6K viewsDmitry, edited  17:28
Открыть/Комментировать
2023-06-30 04:16:36 Буквально перед конференцией читал статью - Building A Million Dollar Data Analytics Service - идея в том, что можно собирать любые данные, приводить их в порядок и продавать insights. Есть огромное количество стартапов, кто так делает. Одни insights для wildberries чего стоят!

Можно например не только продавать insights, но и "брать" данные у клиента и загружать их к себе облако, и потом тоже, продавать insights.

Теперь Snowflake может делать все сразу, загружаем данные к себе, создаем нативное приложение с помощью streamlit и раздаем доступ всем желающим через snowflake data cloud.

Сегодня был как раз на презентации Real Time Analytics for Marketing with Stremlit. (добавил фотки в коммент), очень классное решение, snowflake использует его у себя внутри, там BI + прогнозирование, и самое главное, можно писать сегменты обратно в хранилище.

Утром еще была мощная дискуссия среди SVP Product Snowflake, VP of applied research at NVIDIA, VP Microsoft Azure AI Platform. Они поговорили о будущем, настоящем и прошлом в области AI. Самое важное из разговора нам необходим grow mindset. Вы сами видите с какой скоростью развиваются технологии. VP Azure буквально посоветовал учиться и развиваться по выходным, вечерам и ночам.

Недавно вышел курс на курсере - Generative AI with Large Language Models на AWS. И уже известные курсы на deeplearning.ai, google generative AI training

PS пока ехал в аэропорт, водитель Uber, мужичок лет 55-60 рассказал, что они с женой переехали в Вегас из Техаса, их основная работа - играть в казино в кости. Они с женой играют каждый день, обычно в день получается около тысячи, иногда больше, иногда меньше. uber он водит от скуки, дети выросли, а жена еще работает ради страховки. В год это 365т US$ без налогов. Он рассказал, что они ходят только в определенные казино, где одинаковые кости, покрытие, размер стола. У них есть своя техника как бросать кости и стратегия игры, они занимаются этим всю жизнь.

То ли мы учим?

Далее планирую углубится в databricks новинки и сравнить с snowflake. Эти ребята меняют индустрию. Уже видел, что databricks - Introducing English as the New Programming Language for Apache Spark

Из смешного - во время мировой премьеры Microsoft Fabric, text-to-query штука сделала кривой запрос. Пока еще сыровата технология. В этом посте - LLM Is Not Enough (For Self-Service Analytics) автор обсуждает этот вопрос.

Ну и в заключении ждем подобных штуковин от yandex, vk облаков! Я же отслеживают все их тренды через рекламные посты
3.5K viewsDmitry, edited  01:16
Открыть/Комментировать
2023-06-29 09:59:01
Yandex Cloud приглашает на Data Open Source Day

Это первая конференция от Yandex Cloud про Open Source инструменты для обработки данных и создания корпоративных хранилищ.

В программе Data Open Source Day:

Реальные бизнес-задачи, которые можно решать с помощью Open Source продуктов.
Эксперты из OZON, Яндекс, Битрикс24 и других компаний расскажут, как технологии с открытым исходным кодом помогают им в работе.
Какой вклад команда Yandex Cloud вносит в развитие ClickHouse и Greenplum .
Open Source продукты Яндекса для работы с данными: расскажем про YDB и YTsaurus.

Также вас ждёт доклад Яндекс Игр об опыте использования управляемых сервисов PostgreSQL, Redis, YDB. Рассказ о том, как Open Source помогает науке и при чём здесь озеро Байкал.

11 июля 2023, в 15:00. Участие бесплатное. Регистрация по ссылке.

#реклама
3.9K viewsDmitry, edited  06:59
Открыть/Комментировать
2023-06-29 07:28:32 3й день Snowflake Summit.

Несмотря на то, что будет еще один день, все самое интересное уже рассказали и показали. В четверг можно будет посмотреть повтор сессий прошедших дней и полететь дальше отдыхать от работы

Как обычно, утро началось с keynote.

Вначале Snowflake president Benoît Dageville, рассказал нам, еще раз, какой замечательный продукт Snowflake. Напомнил нам, как все началось в 2014 году, когда они придумали разделить storage и compute, создав killer хранилище данных. 4 года позже появился data sharing, возможность давать доступ к своим данным, без физического перемещения этих данных, конечно же внутри Snowflake data cloud! (ведь бесплатный сыр только в мышеловке).

А теперь, у нас есть AI, Apps, Pipelines (имеется ввиду классическое хранилище данных). Благодаря snowpark, мы можем использовать Python, SQL, Java, Scala. И вообще забудьте Apache Spark, теперь вам не нужно платить кому-то еще, все можно делать с помощью Snowpark, да еще контейнизировать ваши приложения.

Так же он рассказал, что snowflake активно работает над open source решениями, включая streamlit, snowpark, terraform, sansshel, schemachange, lezer-snowsql.

Далее, в театральной постановке на показали работу выдуманной компании - Tasty Bytes. У которой полный цикл классических проблем для современного решения данных: batch vs streaming, SQL vs Python, как добавить ML?, где хостить ML? как дать доступ внешним клиентам?

Нам еще раз показали dynamic tables, kafka connectors, SQL forecast, Snowpark, Stremlit App.

Пример stremlit App мне напомнил Microstrategy mobile apps, но здесь реально %уяк %уяк и в продакшн, справится даже стажер.


Так же я посетил несколько сессий (ссылки на Quickstart, вы можете пройти бесплатно tutorial):
1. hands-on - Snowpark + AWS SageMaker, отличный вариант если вас не устраивает тотальный vendor lock.
2. DevOps with Snowflake - на котором рассказали про возможности infrustructure as a Code с использованием terraform и альтернатив, чтобы управлять объектами snowflake и RBAC. В планах начать использовать snowflake API, пока работает все с Snowflake SDK.
3. Near Realtime Ingestion and Transformation on Snowflake - очень хорошая прикладная сессия по интеграции Apache Kafka и подобных streaming решений в snowflake. Рассказали про преимущества/недостатки и best practices для каждого случая. Существует три варианта:
- Clound Sink + Snowpipe
- Snowflake kafka connector with Snowpipe
- Kafka Connector with Snowpipe Streaming
- Custom Java Application

В целом хорошее мероприятие, видно куда движется индустрия, для полной картины еще бы посмотреть databricks. Можно сказать гештальт по snowflake закрыт, несмотря на то, что еще один день впереди.

Стоило ли мероприятие 2 тысячи долларов? Конечно да, если за вас кто-то заплатил, или вам нужно списать большие суммы денег в расходы, а так все тоже самое можно узнать бесплатно online. Все quickstarts доступны.

Каких-то прорывных мыслей у меня не появилось, кроме как - "Ахренеть, с какой скоростью все движется, тут кое-как в одно въехал, и на тебе, еще десяток фич и инструментов". В целом snowflake хорошо подмял под себя индустрию.
3.6K viewsDmitry, edited  04:28
Открыть/Комментировать
2023-06-28 19:09:04
Попалась классная статья работы с данными в Spark в Почте Mail.ru: как они хранят петабайты информации и как выполняют запросы к ним.

В статье они также рассказали, как в хранилище они превратили 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов.

А самое главное – там собраны ключевые проблемы с данными, знание о которых вполне может помочь вам построить своё классное хранилище без последующей переделки. Почитать можно тут.
3.9K viewsDmitry, 16:09
Открыть/Комментировать
2023-06-28 08:51:08 В заключении SVP по продукту рассказал о главных релизах. Что-то уже доступно, что-то еще в разработке.

1. Большая работа проделана с открытым форматом Iсeberg. Изначально идея использовать Iсeberg не очень взлетела, но компания собрала отзывы от клиентов и выкатила новое решение - Iceberg Managed Tables. Прирост производительности и удобство работы.

2. С недавним приобретениме стартапа, которыей работал на преоборазованием неструктурированных данных в структурированные привело к созданию нового сервиса - Document API, мы просто загружаем PDF, и можем писать запросы к данным и оптимизировать модель.

3. Рассказали про Performance Index.

4. Компания Fidelity рассказала про свой опыт миграция на облако Snowflake и консолидацию 200 хранилищ и баз данных вместе.

5. Рассказали про marketplace. Как все крупные вендоры у Snowflake будет свой marketplace, не AppStore, но тем неменее.

6. Показали демку по созданию приложения в несколько кликов. Направление приложений и marketplace активно развивается и многие компании уже монетизируют приложения и данные.

7. Для разработчиков будет обновленный Snowflake Python, CLI, looging/tracing API и наконец-то синхронизация с git системой.

8. Показали Snowpark - code interface для данных в snowflake. И самое главное рассказали про резил snowpark container service, теперь мы можем хранить docker image в snowflake registy и создавать свои приложения, особенно актуально для ML/AI.

9. Улучшения в области streaming. Появятся Kafka connectors, которые будут напрямую загружать данные в snowflake dynamic tables.

10. Text-to-code - аналог chaptGPT, но для вашего хранилища данных.

11. Недавняя покупка Streamlit позволяет создавать AI приложения.

12. Интеграция с Nvidia, GPU Compute.

Так же я побывал на нескольких сессия связанных с ML/AI видением для snowflake, и примерами создания ml приложений.

Посмотрел на использование Python (snowpark) для задач data engineering.

И в заключении, посетил классный workshop по оптимизации стоимости Snowflake.

Расскажу отдельно потом про каждую сессию.
3.9K viewsDmitry, 05:51
Открыть/Комментировать