Получи случайную криптовалюту за регистрацию!

Труба данных

Логотип телеграм канала @ohmydataengineer — Труба данных Т
Логотип телеграм канала @ohmydataengineer — Труба данных
Адрес канала: @ohmydataengineer
Категории: Технологии
Язык: Русский
Страна: Россия
Количество подписчиков: 2.59K
Описание канала:

Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, какмы принимаем решения и как мы становимся профессионалами в работе с данными.
Про сотрудничество - shorturl.at/dgoR6
Автора канала - @SimonOsipov

Рейтинги и Отзывы

4.00

2 отзыва

Оценить канал ohmydataengineer и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

1

2 звезд

0

1 звезд

0


Последние сообщения 6

2022-01-16 22:13:54 Еще одна интересная статья, которую хотелось бы обсудить с вами:

The future history of Data Engineering
https://groupby1.substack.com/p/data-engineering

Вот несколько интересных мыслей из статьи:

...Most businesses' data engineering needs have been solved or will shortly be solved by managed services that 10 years ago would require endless and extensive self-built ETL pipelines, databases and tools...

...The implications are that while Data Engineering is growing rapidly, so too are the forces that will undermine the need for Data Engineers, and the current under-supply of competent engineers will lead to an over-supply of junior engineers...

...Businesses should strive not to have people worrying about managing infrastructure, plumbing, ops etc over and above what is strictly necessary...

...Think about Sysadmins of the mid-2000s, arcane knowledge that is now redundant in almost every business, due to AWS, then Heroku, now Vercel, Supabase etc flying up the stack. (Or hadoop specialists. Big Data DBA anyone?)...

И еще целая кучка прекрасных цитат. Все это заставляет подумать, а куда движется Data Engineering? Или локальный рынок в России это еще не скоро затронет, ибо у нас еще до сих пор Хадуп популярен...
Впрочем, даже и на это в этой статье есть прекрасная цитата:

When the tide turns, there is a definite moment when the tide has indeed turned, but that change in direction becomes apparent to different boats at different times. This depends on context, location, keel depth and distance from both the equator and the moon (not to mention the sun). The gravitational pull has changed, but the water doesn’t start moving everywhere at the same time.


Прочитайте статью и приходите в комментарии обсудить про наше с вами будущее. Мое мнение будет в первом комментарии)
762 views19:13
Открыть/Комментировать
2022-01-01 11:47:20 https://www.datanami.com/2021/12/23/2022-big-data-predictions-from-the-cloud/?utm_source=rss&utm_medium=rss&utm_campaign=2022-big-data-predictions-from-the-cloud

Так, тут несколько дней назад на канале @data1984 наткнулся на статью (ссылка выше).
И так вышло, что я совсем не согласен с автором. Решил закинуть ее вам и предложить темку для обсуждения. Что происходит?

Автор (и его респонденты) утверждают, большинство компаний:
а) будут мигрировать не в чистое облако, а в некий гибрид облака и on-prem. Или более того, делать свои private-cloud-on-prem, для того, чтобы получать плюшки работы как с облаком, только уже на своем железе.
б) все очень сильно боятся вендор-лока, поэтому будут делать свои решения на multi-cloud

Каковы мои аргументы?
- Начнем с того, что подавляющее большинство компаний себе не могут позволить (или не имеют такой необходимости) создавать on-prem. Мир не ограничивается FAANG и ВСРАТОСЛАВом (или как там его окрестили? МЯСО?)
- Валидный аргумент про геополитические риски и антимонополию (мол, мы не можем хранить данные во Франции, потому что у нас с ними торговая война) пока применим только в отношении России (привет, закон о персональных данных и необходимости их хранения в РФ) и Китая (ну он всегда шел своим путем). Все остальные страны как-то нашли общий язык в этом всем.
- Мультиклауд как способ избежать вендор-лока. Ну да, два облака, поэтому х2 работы со биллингом, правами и доступами, инфраструктурами и связями, а еще cloud инженеры нужны, которые будут понимать детали и тонкости двух провайдеров.


В одном я с авторами согласен: хадуп катится к закату. Навсегда не умрет, но останется оч нишевым, не для всех.


Залетайте в комменты, давайте обсудим!
350 viewsedited  08:47
Открыть/Комментировать
2021-12-23 16:10:53 https://twitter.com/OsipovSimon/status/1471069655443853325

Чтобы множество раз не отвечать, почему наши пути с Semrush расходятся, я в Твиттере написал большой тред про это.
470 views13:10
Открыть/Комментировать
2021-12-14 13:10:19
Data Engineering Zoomcamp!

Вот такое вот клевое название у ребят из DataTalksClub. Они проводят бесплатные зум-кемпы по разным темам и вот добрались до DE. Начало 17 января 22 и бесплатно.
Может быть кому-нибудь интересно будет послушать / посмотреть

Программа следующая:

1. Data warehousing (BigQuery)
2. Batch processing (Airflow, Spark)
3. Analytics engineering (DBT)
4. Stream processing (Kafka)

Подробнее тут: https://t.co/KpYI2S5aIq

Слак Data Talks Club https://datatalks.club/slack.html
714 views10:10
Открыть/Комментировать
2021-12-10 09:01:51 Так, во всем этом потоке новых статей и видосиков, как вы ориентируетесь? Напишите в комментарии! (Да-да, я прикрутил обсуждения)

Какие источники использую я?
- RSS. Обычная читалка, типа Feedly, подписываюсь на интересные мне сайты, читаю раз в неделю заголовки и, если нравится предпросмотр, читаю глубже. Из последнего подписался на All Things Distributed.
- Infomate. Продвинутая RSS, материал подобран уже, спасибо всем, кто постарался.
- Telegram. Тут подписан на профильные группы, типа @rockyourdata или @DE_events
- Twitter. Подписываемся на адекватных лидеров мнений (а не шитпостеров) и читаем периодически, что они приносят.
- LinkedIn. Вот тут редко, но все же иногда проскальзывает материал, полезный для чтения.
- Рассылки в стиле Data Engineering Annotated от Паши @asm0dey (бесплатная) или The Pragmatic Engineer от Gergely Orosz (платная)
- Подписчики. Да-да, и такое бывает. Иногда мне приносят что-то интересное прямо в личку почитать, например “Data Driven компания: Как продемонстрировать ценность данных вашим коллегам?” от Жени
841 views06:01
Открыть/Комментировать
2021-11-23 09:55:07 https://drecon.org/

На просторах англоязычного интернета нашлась еще одна конференция по Data Engineering, но теперь с модной приставкой Reliability.
Доклады разные, кажется, что есть что послушать, однако это лишь на мой вкус. Поэтому лучше самому составить свое мнение, посмотрев на расписание.

Учтите, конференция по МСК будет вечер/ночь.
1.1K views06:55
Открыть/Комментировать
2021-11-22 11:33:11 Так, помните, были такие две ссылки на статьи у меня в самом начале блога The rise of the Data Engineer и The fall of the Data Engineer, написанные известным в узких кругах Maxime Beauchemin (это тот, кто Airflow накодил). У него тут прекрасное интервью вышло…
1.3K viewsedited  08:33
Открыть/Комментировать
2021-11-08 21:48:37 Так, помните, были такие две ссылки на статьи у меня в самом начале блога The rise of the Data Engineer и The fall of the Data Engineer, написанные известным в узких кругах Maxime Beauchemin (это тот, кто Airflow накодил).
У него тут прекрасное интервью вышло на тему будущего дата инженеров.

Главные моменты
- Скорость ETL и аналитики сильно возросла
- Единообразие в данных все еще сложно достижимо, но это норм
- Управление изменениями все также проблема, но уже есть инструменты
- Данные должны быть неизменяемыми, иначе хаос придет
- DE роль слишком объемная и начала дробиться на специализации
- Операционка все еще доставляет проблем, просто теперь она распределенная

Нагло подсмотрел ссылку на интервью в DE Annotated https://jb.gg/jg3ggt от @asm0dey
1.0K views18:48
Открыть/Комментировать
2021-10-23 12:48:04 https://coalesce.getdbt.com/

Так, в недавнем докладе на TechTrain я рассказывал про разные пути развития Data Engineer. Так вот, “единорогом” на этом пути считается многорукая шива под названием Analytics Engineer. Это тот, кто вам и данных найдет, и построит пайплайн, положит это все в систему аналитики (которую сам может поднять) и сделает отчет для бизнеса. При этом, он сам пояснит бизнесу, зачем и почему этот отчет им нужен.

DBT в декабре проводит бесплатную онлайн конференцию Coalesce - The Analytics Engineering Conference.
Кажется, будет интересненько.

Регистрация по ссылке выше. Там же и программа конференции, воркшопов и дискуссий.
1.5K views09:48
Открыть/Комментировать
2021-10-19 14:24:31 Только сегодня Astronomer раздаёт бесплатно курсы и сертификации по Airflow - по промокоду airflow-free-cert

https://academy.astronomer.io/page/astronomer-certification
4.1K views11:24
Открыть/Комментировать