Получи случайную криптовалюту за регистрацию!

Труба данных

Логотип телеграм канала @ohmydataengineer — Труба данных Т
Логотип телеграм канала @ohmydataengineer — Труба данных
Адрес канала: @ohmydataengineer
Категории: Технологии
Язык: Русский
Страна: Россия
Количество подписчиков: 2.59K
Описание канала:

Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, какмы принимаем решения и как мы становимся профессионалами в работе с данными.
Про сотрудничество - shorturl.at/dgoR6
Автора канала - @SimonOsipov

Рейтинги и Отзывы

4.00

2 отзыва

Оценить канал ohmydataengineer и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

1

2 звезд

0

1 звезд

0


Последние сообщения 2

2022-07-27 10:19:10
https://blog.bytebytego.com/

Я как-то ранее писал про Gergely Orosz (aka Венгр) с его очень хорошей рассылкой The Pragmatic Engineer. Судя по статистике Substack, его подписка самая популярная среди Tech категории. Однако у него появился серьезный конкурент: ByteByteGo. Ребята довольно детально, с картинками, рассказывают как устроены сложные системы. Для понимания System Design - отличное чтиво, вмеру простое, вмеру погруженное.

Примеры рассматриваемых тем:
- What happens when you swipe a credit card?
- SOAP vs REST vs GraphQL vs RPC detailed comparison
- Top caching strategies
- и т.д.

@ohmydataengineer
1.5K views07:19
Открыть/Комментировать
2022-07-25 13:58:01 Так, я тут буквально недавно кидал статью про то, что проблемы с данными есть у всех. И костыли есть у всех, причем иногда целая фабрика костылей.
Ты такой сидишь и думаешь: “Блин, ну это только у нас так! У других все нормально!”. А вот и нет. Вот пример систематических проблем по всей индустрии:

- “Наша инфраструктура для данных ерунда!” - Кажется, что вы используете неправильные тулы и вообще ваша DWH тормозит. На деле большие компании имеют свойство закидывать проблему людьми и ресурсами, поэтому у них работает.

- “А кто за эту табличку отвечает?” - Первыми по башке прилетает всегда дата команде: “А что за херня у вас с данными?”. А то, что поставщик данных, из соседней команды, льющий все в data lake, что-то там неожиданно поменял и никому не сказал - никого не волнует. Люди не хотят брать отвественность за данные.

- “А почему так долго?” - Пользователи хотят как можно быстрей пользоваться данными, а инженеры хотят построить систему, которая не сломается от того, что вместо Null стали прилетать 0 в конкретное поле. Вечная борьба сроков и качества, где чаще всего побеждает первое, к сожалению.

Из этого всего вылезает еще один пункт:
- “А давайте всех научим SQL!” - ага, и выпустим в поле DWH, твори что хочешь! Конечно, знание SQL это прекрасно, и если каждый сможет самостоятельно что-то поглядеть в хранилище. Но для начала нужно все разложить по полочкам, раздать верные уровни доступа и ресурсы, иначе потом у вас будет 300 копий одной и той же метрики в разных таблицах и схемах.

Вольный перевод с отсебятиной вот этой статьи.

@ohmydataenginer
1.1K viewsedited  10:58
Открыть/Комментировать
2022-07-22 14:26:01 Часто-заголядывающая рубрика в моем бложике - про карьеру.
Читая книжку Staff Engineer, зашел к автору в блог и наткнулся на клевую заметку про карьерные решения. Актуально в текущих условиях “кризиса”.

- Во-первых, вы же знаете, что сейчас рецессия, кризис, и не только в мире, но и в айтишке. Хоть дебаты идут, “а вообще мы в рецессии?” и “А сколько она продлится?”, статистика говорит о том, что такие события длятся ±15 месяцев. То есть ориентируемся на конец 2023 года. Что мы можем с этим сделать?

- На любой позиции можно сделать приоритетом деньги, “скорость и режим работы”, собственное обучение, престиж или работу с людьми. Возможно, если вам сейчас комфортно, стоит сфокусироваться на обучении и на работе с классными людьми, чем в неспокойное время менять работу ради максимизации собственной прибыли?

- Если все равно хочется максмимизировать свой доход, помните, что даже FAANG компании заметно потеряли в компенсации, ибо существенная часть их компенсаций это стоки, а стоки сейчас на дне. Престиж тоже сюда.

Остальные пункты можно почтать в статье тут, но в целом мне хочется выделить один абзац и оставить его без перевода, ибо он прекрасен:

Combining the last few points: my general advice to folks would be to stay where you are as long as you’re reasonably happy day to day and feel like you’re learning at a good rate. Even if your effective compensation has declined a bit, it’s very hard to determine if the compensation at any other company will hold up either. Don’t get me wrong, if you’re unhappy for non-compensation reasons, then of course you should find another role. Well, unless you’re unhappy because the company is more focused on short-term profitability, because pretty much anywhere you go right now will have that orientation. Referring back to the first point, this isn’t the new normal, just a difficult ~15 month period to navigate
1.6K views11:26
Открыть/Комментировать
2022-07-20 09:53:18 https://www.youtube.com/playlist?list=PLTPXxbhUt-YVWi_cf2UUDc9VZFLoRgu0l

Databricks выкатили видео с Data + AI Summit 2022. в США.
В плейлисте по ссылке >300 (!) сессий.
Доклады на всевозможные темы: от классических “How to test your ETL pipelines” до экзотических “Sound Data Engineering in Rust”

@ohmydataengineer
1.7K views06:53
Открыть/Комментировать
2022-07-18 10:51:02 https://clck.ru/sJ4eM

Тинькофф проводит очередной митап по работа с данными, 21 июля. В этот раз следующие темы:

Под капотом каталога данных
Это доклад самих ребят про их Data Detective - каталог данных. Расширенная и дополненная версия доклада с Хайлоада https://highload.ru/foundation/2022/abstracts/8105

Как с помощью Data Mesh разломать ваше DWH
Яндекс GO про модную и хайповую тему. Послушать стоит потому, чтобы понимать, а нужно ли вам вообще это внедрять или “да ну его нафиг!”

Как мы строим Metadata Management
Еще один доклад от ребят и девчат из Т. На этот раз про метаданные

Data-docs — как найти данные о данных
Наконец, Авито, тоже про каталоги данных и документацию данных.


В общем, 3 из 4 тем это главную проблему текущего состояния индустрии: бигдату мы внедрили, стриминги накатили, каргокульта добавили, а теперь нифига не понимаем, где у нас и что лежит и в каком состоянии.

Встреча будет оффлайн и онлайн трансляция. Регистрация по ссылке
1.5K views07:51
Открыть/Комментировать
2022-06-22 10:01:01 https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1

Хех, как по живому. Встречал такое и не раз.
В статье рассказывается о том, что современная разработка сделала с моделированием данных. А именно: очень и очень быстро у нас все превращается в болото.

Те, кто данные генерируют, за их качество не отвечают
Ну, классика ж: у нас с пять десятков источников, мы заливаем в том виде, что они нам отдали данные в свой Data Lake, а уже там, потом, разберемся.

Дата Инженеры это челноки между теми, кто данные генерирует и “заказчиками”
Ага, какое-то DWH изначальное построили, а потом бегаем, пытаемся сметчить то, что нам приходит с тем, что нас просят. Расфокус, ибо “команд много, я один”, приводит к тому, что глубоко мы не знаем специфику потребителя данных.

Тыща лет пройдет пока мы увидим какую-то ценность в конкретной модели данных
Продолжение первого пункта. Пока мы разберемся, что нам там отдают, в каком формате, разпарсим этот JSON нашим SQL тулзом (кхе-кхе), определимся с типами данных… Ну вы поняли, в Agile так нельзя долго.

Data is Reactive versus Active
Если честно, я не смог перевести это так, чтобы было емко и понятно =) В общем, вместо того, чтобы адаптировать модель и, возможно, где-то ее даже сильно переделать, с появлением новых запросов и источников, мы натягиваем сову на глобус и пытаемся сделать Франкенштейна.
460 views07:01
Открыть/Комментировать
2022-06-20 10:36:01



Если вам по долгу службы приходится работать с Airflow, то вы, возможно, знаете, что каждый год они проводят Airflow Summit
Так вот, видосики с 2022 Summit подъехали, по ссылке выше - плейлист.
503 views07:36
Открыть/Комментировать
2022-06-17 12:53:01 Я тут выше писал, что обе свои позиции (в Semrush и в Gett) я получил не написав ни строчки кода. Конечно, это говорит о том, что я очень клевый и задавил популярностью и авторитетом (сарказм)
На деле это говорит о том, что компании понимают, что hiring is broken, а LeetCode-style интервью не имеют ничего общего с работой.

Опережая очевидный вопрос: для некоторых компаний это подходит. Потому что у них на входе огромная воронка людей, желающих работать у них, потому что $$$, HR бренд или бесплатные обеды в офисе.
Да, они хорошо скалируются на FAANG компании.
Да, они относительно редко дают false-positive (когда мы наняли человека, который заботал литкод, но на деле оказалось, что он не очень)

Но когда компания не набирает безумными темпами, контролирует скорость роста команды и вообще ищет человека, который им идеально подходит, она не страдает литкодом. Team-fit, System Design, Rational & Critical Thinking становятся существенно важней.

К чем это я: хочу поделиться прекрасной статьей (коих, на самом деле, на эту тему дофига) про то, почему LeetCode собеседования не очень https://fev.al/posts/leet-code/.
https://fev.al/posts/leet-code/

Ну, то есть если вы хотите попасть в FAANG и похожие компании, да, придется подчиниться правилам игры. Если нет, то базовые знания “алгоритмов” и стандартной библиотеки Python (а солидная часть Easy задач решается через collection) - это максимум, на который нужно упарываться.

Как говорится, не является индивидуальной инвестиционной рекомендацией (с)
237 viewsedited  09:53
Открыть/Комментировать
2022-06-15 12:57:01 В прошлую среду (отмотайте пару постов назад) мы говорили о том, что такое быть инженером-помидором.
Однако, просто продолжать делать задачки на работе ≠ рост профессиональный.

Очень согласен с автором статьи, которая мне попалась на глаза на этой неделе - “Professional Development is a choice”. Поэтому вам нужен план!
Типичные вопросы этого плана:

1. Что у меня хорошо получается?
2. Что мне нравится делать?
3. За что мне платят деньги?
4. На какие аспекты мне необходимо обратить внимание?
5. А что я хочу изучить?
6. Цели на 1-3 года?
7. Цели на 3-5 лет?
8. Цели на 5-10 лет?

Да-да, тот самый топорный вопрос: “А кем вы видите себя через 5 лет?” - на самом деле не топорный, а оч тонкий. Он говорит о том, что вы можете в стратегическое планирование. И да, стратегии меняются, это нормально!
У меня в нефтянке был начальник, который сказал однажды фразу, которая заела мне навсегда: “If you fail to plan, you plan to fail”.

Профессиональное развитие может принимать различные формы: кто-то читает книги, кто-то по вечерам копошится с Spark, а кто-то посвящет время семье, потому что для него это отдых, а время на профессиональное развитие ему выделяет работодатель.

Статья → [https://alexchesser.medium.com/professional-development-is-a-choice-e90fb8719259], а подискутировать приглашаю в комменты.
371 views09:57
Открыть/Комментировать
2022-06-13 09:58:01
https://www.amazon.com/Fundamentals-Data-Engineering-Robust-Systems/dp/1098108302/

Вот такая вот книженция от O’Reilly доступна для предзаказа на Amazon.
Будет выпущена в июле/августе.

Автор: https://www.linkedin.com/in/josephreis/
454 views06:58
Открыть/Комментировать