Получи случайную криптовалюту за регистрацию!

Ivan Begtin

Логотип телеграм канала @begtin — Ivan Begtin I
Логотип телеграм канала @begtin — Ivan Begtin
Адрес канала: @begtin
Категории: Бизнес и стартапы , Технологии
Язык: Русский
Количество подписчиков: 8.02K
Описание канала:

I write about Open Data, Data Engineering, Government Technologies, Privacy and Digital Preservation and other gov and tech stuff
Chat https://telegram.me/begtinchat
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал begtin и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения 4

2022-06-22 11:02:43 Полезное чтение про данные
- The Death of Data Modeling - Pt. 1 [1] о том как текущие подходы к разработки влияют на моделирование данных и о том что это необходимо перезапускать/воскрешать уже в рамках Modern Data Stack
- Airflow Summit 2022 — The Best Of [2] материалы саммита AirFlow, хорошая подборка ссылок
- Automated Experiment Analysis - Making experimental analysis scalable [3] про автоматизацию ML экспериментов в Grab
- A framework for designing document processing solutions [4] фреймворк для потоковой обработки сканированных документов

Ссылки:
[1] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[2] https://medium.com/apache-airflow/airflow-summit-2022-the-best-of-373bee2527fa
[3] https://engineering.grab.com/automated-experiment-analysis
[4] https://ljvmiranda921.github.io/notebook/2022/06/19/document-processing-framework/

#data #datatools #readings
1.2K viewsIvan Begtin, 08:02
Открыть/Комментировать
2022-06-21 14:33:22 Отвлекаясь от технологических тем, в Полит.ру есть проект "После" про моделирование будущего России, интервью со мной назвали «Единственная стратегия выживания – это радикальная деконсерватизация общества» [1] а я как мог говорил о самых радикальных преобразованиях как возможное будущее страны.

А может быть даже не о самых радикальных.

Ссылки:
[1] https://polit.ru/article/2022/06/21/begtin/

#politics #russia
1.0K viewsIvan Begtin, 11:33
Открыть/Комментировать
2022-06-21 12:12:08 Вышел Tauri 1.0 [1] первый релиз фреймворка для построения кросс-платформенных приложений с помощью языка Rust. Авторы очень постарались чтобы приложения на его основе имели минимальный футпринт - были бы как можно меньше по размеру, потребляли бы меньше CPU и оперативной памяти. В нынешнее время приложений распухающих до сотен гигабайт это вызывает большое уважение и признак высокой квалификации разработчиков. У создателей много бенчмарков подтверждающих такой подход [2] и в целом одного взгляда на код и на примеры достаточно чтобы понять что будущее приложений для десктопа если не за Tauri, то за подобными фреймворками как новым подходом.

А подход как раз в том о чём я ранее писал про модель local-first [3]. Дословно из их описания
Tauri allows you to build "local first" applications without a webserver, so your users don't have to share their data with big tech. Using local databases and rust based cryptography have never been easier.

При том что как раз big tech не связанный с разработкой ПО активно Tauri используют, например, Cloudflare и Digital Ocean.

Из любопытных продуктов на Tauri можно обратить внимание на SpaceDrive [4] файловый менеджер в активной разработке с множеством интересных возможностей вроде поддержки облачных файловых систем, шифрованного хранилища, управления ключами и тд.

А также большая подборка приложений в списке Awesome Tauri [5]

Если говорить про настольные приложения по интенсивной работе с данными, например, настольные приложения для data wrangling нового поколения, то Tauri выглядит как очень подходящий инструмент.

Ссылки:
[1] https://tauri.app/blog/tauri_1_0/
[2] https://tauri.app/about/benchmarks
[3] https://t.me/begtin/3977
[4] https://www.spacedrive.com/
[5] https://github.com/tauri-apps/awesome-tauri

#opensource #frameworks #datatools
1.0K viewsIvan Begtin, 09:12
Открыть/Комментировать
2022-06-21 10:40:35 Свежий доклад ORelly о каталогах данных сделанный в партнерстве/при поддержке стартапа Alation [1]. Хотя такие доклады при поддержке одного из коммерческих игроков нельзя назвать полностью нейтральными, но доклад полезный, определяет три вида каталогов данных: инструментальные, отраслевые и платформенные.

Плюс отсылки на интересные проекты, не все из них широко известны. Например, я неожиданно для себя открыл Ground [2], проект Google и UC Berkley по анализу контекста работы с данными.

Ссылки:
[1] https://www.alation.com/resource-center/snowflake-summit-2022/oreilly-implementing-a-modern-data-catalog
[2] http://www.ground-context.org

#datacatalogs #dataplatforms #data
988 viewsIvan Begtin, 07:40
Открыть/Комментировать
2022-06-21 10:11:48 Burtch Works опубликовали исследование по изменениям заработной плате инженеров данных и дата сайентистов [1], доступ там через форму которую надо заполнить, можно также в Forbes прочитать оттуда краткие выводы [2].

Если кратко то это одни из самых востребованных профессий с беспрецедентным ростом зарплат. Доходы руководителей команд по ИИ достигают $300000 в год. А доходы профессионалов выросли на 10-13%.

Конечно, это обзор рынка в США, но, по моим ощущениям, ситуацию с кадровым рынком данных это отражает хорошо.

Ещё несколько инсайтов из этого исследования:
1. Среди дата инженеров кратно меньше PhD (5%), и около 32% бакалавров. Что отражает общий тренд на то что многие разработчики отказываются от высшего образования в пользу карьеры. В области dat science наоборот много именно PhD, почти 50%.
2. В области инженерии данных всего 12.5% женщин
3. Средний опыт дата инженера на рынке около 11 лет
4. В data science идет образовательный тренд на большую специализацию магистерских программ.

И ещё много много чего, в целом любопытно понимать как всё обстоит прямо сейчас на рынке труда.

Как это может повлиять на российский рынок data science и data engineering ? Не хочется делать несмешных предсказаний, но прогнозы весьма пессимистичные. Чем больше будет мировой спрос на специалистов и рост зарплат в этой области, тем больше может быть их отток из российских компаний и репрессивными мерами его точно не сдержать.

Ссылки:
[1] https://www.burtchworks.com/big-data-analyst-salary/big-data-career-tips/the-burtch-works-study/
[2] https://www.forbes.com/sites/gilpress/2022/06/14/a-booming-market-for-ai-skills-with-salaries-topping-300000/

#itmarket #data
15.3K viewsIvan Begtin, 07:11
Открыть/Комментировать
2022-06-21 01:14:17 Облачные сервисы повсеместны и имеют много плюсов и большой минус - доступ к облаку может пропасть в любой момент. Не говоря уже о том что облачные сервисы почти всегда нарушают пользовательскую приватность. Альтернативный архитектурный подход в разработке приложений по модели local first [1] это архитектурный шаблон разработки программ в которых данные, в первую очередь, обязательно хранятся локально и синхронизируются с облаком без потери функциональности приложения если сервер/сервис недоступен.

Основные идеалы архитектуры local-fist:
1. Никаких индикаторов загрузки (спиннеров): работа всегда доступна
2. Работа не ограничена одним устройством
3. Сеть опциональна
4. Прозрачная интеграция работы с коллегами
5. Длинное Сейчас (The Long Now)
6. Безопасность и приватность по умолчанию
7. Ваш полный контроль и владение данными и процессами

Здесь, конечно, можно вспомнить что именно такая модель использовалась многими приложениями из 90-х, и вот мода на такую архитектуру возвращается.

Например о такой архитектуре пишут создатели Riffle [2], исследовательского проекта по построению приложений на данных по модели local first.

Ссылки:
[1] https://www.inkandswitch.com/local-first/
[2] https://riffle.systems/essays/prelude/

#data #architecture
1.3K viewsIvan Begtin, 22:14
Открыть/Комментировать
2022-06-20 18:23:40 Весьма интересный обзор Welcome to the New Database Era [1] от Ethan Batraski из Ventrock о том как постепенно, но верно облачные базы данных выходят в мэйнстрим и про стартапы вроде Hasura, Xata, Ottertune, Polyscale и др.

Взгляд автора особенно интересен как взгляд венчурного капиталиста на рынок баз данных и про основные развития этого рынка.

Например, о том что команды работающие с данными просто хотят чтобы у них была рабочая инфраструктура, а не нанимать DevOps или DBA и других или о том что всё большую актуальность приобретает HTAP или о том машинное обучение не используется практически для оптимизации баз данных (это важная идея, кстати) и о том что нет хороших промышленных примеров прорывов в индексировании данных.

По мне так текст просто наполнен инсайтами и идеями, хотя и для некоторых из них нужно большее погружение в рынок баз данных и сервисов на их основе.

Ссылки:
[1] https://ethanjb.medium.com/welcome-to-the-new-database-era-f4f8c8c407e1

#databases #opensource #data
1.3K viewsIvan Begtin, 15:23
Открыть/Комментировать
2022-06-20 13:21:28 Минцифры обещает не вводить наказания за использование VPN

Об этом рассказал глава министерства Максут Шадаев. Он также отметил, что использование таких приложений власти не приветствуют:

«Никаких наказаний для пользователей категорически не будет вводиться. Мы против этого. Поэтому, кому очень надо, такую возможность будет иметь, и будет иметь ее дальше, и сохранит. Но, конечно, политике государства, когда в принципе ограничивают доступ к каким-то ресурсам, это противоречит».

https://roskomsvoboda.org/post/mincif-prot-nakaz-vpn-youtube/
1.4K viewsIvan Begtin, 10:21
Открыть/Комментировать
2022-06-20 13:21:28 Тут Минцифры РФ обещает не вводить наказания за использование VPN. Но мы то понимаем что наказания в нашей стране устанавливает не Минцифры, а совсем другие органы власти, которые телеграм каналы не ведут и в ПМЭФах и ЦИПРах не участвуют.

#vpn #privacy
1.4K viewsIvan Begtin, 10:21
Открыть/Комментировать
2022-06-20 07:50:44 Не секрет что поисковиков по данным очень мало, основной - это Google Dataset Search [1] который всё ещё скорее исследовательский проект и где просто ну очень много SEO спама поскольку проект основан на самостоятельной разметке объектов пользователями по стандарту Schema.org объектам типа Dataset [2].

Ещё в прошлом году исследователи Google из MIT проанализировали несколько сотен тысяч страниц с датасетами и разработали классификатор определяющий что на веб странице действительно набор данных [3]․ Они же выложили датасет с результатами такой разметки [4], можно сказать датасет про датасеты.

Лично по мне так той же цели, широкого покрытия наборов данных поиском без потери качества, можно достичь и более простыми методами, а классификация страниц и сам стандарт Schema.org уж очень сильно заточен под поисковые системы в отличие от других протоколов для обнаружения данных (data discovery).

Тем не менее исследование интересное и чуть приоткрывает свет на работу которую проделывают в Google Dataset Search.

Ссылки:
[1] https://datasetsearch.research.google.com/
[2] https://schema.org/Dataset
[3] http://people.csail.mit.edu/tarfah/papers/dataset.pdf
[4] https://www.kaggle.com/datasets/googleai/veracity-of-schemaorg-for-datasets-labeled-data

#opendata #datasets #search #research
1.6K viewsIvan Begtin, 04:50
Открыть/Комментировать