Получи случайную криптовалюту за регистрацию!

Ivan Begtin

Логотип телеграм канала @begtin — Ivan Begtin I
Логотип телеграм канала @begtin — Ivan Begtin
Адрес канала: @begtin
Категории: Бизнес и стартапы , Технологии
Язык: Русский
Количество подписчиков: 8.02K
Описание канала:

I write about Open Data, Data Engineering, Government Technologies, Privacy and Digital Preservation and other gov and tech stuff
Chat https://telegram.me/begtinchat
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал begtin и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения 6

2022-06-12 17:26:20 В рубрике полезных наборов данных, реестр ИТ компаний имеющих подтверждённые налоговые льготы в ФНС и работа в которых позволяет получать льготную ипотеку. Не путайте с реестром аккредитованных ИТ компаний где чего только нет!

Данные в формате Excel для журналистов и аналитиков, потом эти и другие данные загрузим в каталог данных DataCrafter.

Больше о наборах данных будет в новостях на @apicrafter.

#datasets #opendata
1.4K viewsIvan Begtin, 14:26
Открыть/Комментировать
2022-06-12 16:43:22 Для тех кто регулярно пользуется ETL/ELT инструментами, обновился Apache Hop, визуальный ETL движок с большим числом встроенных трансформаций над данными [1]. В новой версии 2.0 осуществили переход на Java 11 и кучу новых плагинов [2].

Лично я не отношу себя к фанатам Hop да и других ETL продуктов из экосистемы Apache, всё таки продукты вроде Meltano, Dagster, Prefect и др. написанные на Python, Go и тд. представляются мне куда более практичными, но для ряда задач инструменты вроде Hop могут быть полезны. Например, когда изначально инфраструктура построена на других продуктах из экосистемы Apache и основной язык разработки Java.

Ссылки:
[1] https://hop.apache.org/
[2] https://hop.apache.org/blog/2022/06/hop-2.0.0/

#datatools #etl #opensource
1.3K viewsIvan Begtin, 13:43
Открыть/Комментировать
2022-06-12 09:18:33 Dynamic World [1] проект World Resource Institute и Google по визуализации изменений на карте мира после катастроф, таких как пожары, наводнения, войны, извержения вулканов. На сайте карта с разрешением до 10 метров, много примеров катастроф и научная работа посвящённая этому проекту [2].

Главное что обещают, почти реальное время обновления данных. 5000 изображений обновляется ежесуточно, в зависимости от локации общее время обновления составляет от 2 до 5 дней.

Проекту не хватает разве что API и возможности исследователям работать с первичными данными напрямую, но думаю что это скоро появится причём в связке с UNDP и Humanitarian Data Exchange, уж очень эти проекты комплиментарны и подходят друг другу.

Ссылки:
[1] https://www.dynamicworld.app/
[2] https://www.nature.com/articles/s41597-022-01307-4

#data #google #wri #dataproducts
1.3K viewsIvan Begtin, 06:18
Открыть/Комментировать
2022-06-12 08:57:06
Toolkit on Digital Transformation for People-Oriented Cities and Communities [1] руководство по цифровой трансформации городов от ITU и UNDP (структуры ООН).

Включает курс с рассказом о используемых инструментах. Также включает гайд в виде книжки [2].

В модуле 3 [3] Data Processing and Management одним из инструментов являются открытые данные в контексте доказательной политики (evidence- based policy making).

В целом ООН во всех сферах делает акцент на открытых данных, создаёт собственные порталы, упоминает в материалах всех своих структур.

Ссылки:
[1] https://toolkit-dt4c.itu.int/
[2] https://www.itu.int/en/publications/Documents/tsb/2022-Toolkit-on-digital-transformation-for-people-oriented-cities-and-communities/index.html
[3] https://toolkit-dt4c.itu.int/module-3/

#opendata #undp #itu
1.1K viewsIvan Begtin, 05:57
Открыть/Комментировать
2022-06-11 19:22:19 У Ben Stancil очередное замечательное рассуждение Microsoft, Google, and the original purple people [1] о том как устроены экосистемы продуктов по работе с данными и, что мне отметилось, он разбирает экосистему Microsoft и Google и отмечает что большое преимущество Microsoft в хорошей упаковке и совместной работе продуктов несмотря на то что по отдельности их продукты хуже некоторых на рынке, но интеграция между ними реально хороша.

У Google такого нет и слишком часто каждый их продукт это вещь в себе, тяжелая в интеграции даже с другими Google продуктами.

Хороший текст, мне нравятся рассуждения Бена, для основателя стартапа он на редкость вдумчив и пишет без маркетинговых лозунгов, но так что вчитываешься.

Его рассуждения натолкнули и меня про рассуждения про российские облачные продукты.

И тут у меня есть тезис - их не существует. Не существует не в том смысле что их нет на рынке, вроде как есть там что-то у VK и даже Яндекс.Облако, как бы существует, а кто-то ещё вспомнит про Selectel и других, но, есть существенная проблема - ни Яндекс, ни VK существенной ставки на их продукты не делают. А все остальные слегка в незрелом состоянии. По идее они все должны были с начала февраля запускать программу миграции с зарубежных сервисов и вложится в маркетинг, предлагать бесплатные 2-3 месяца тем кто переезжает, предлагать услуги по миграции, потому что, казалось бы, вот такая гигантская рыночная возможность. Ну как её упустить?

Но ни Яндекс, ни VK, не рассматривают облака и сетевую инфраструктуру как инструмент заработка или рыночного доминирования. Как это делают Amazon, Google, Microsoft и ещё ряд международных big tech компаний.

Инфраструктуру обработки данных всё ещё удобнее делать не в России, а в международных облачных провайдерах. Если есть валюта, и возможность, конечно. Тем кто может это делать.

Кстати знает ли кто-либо в России какую-либо крупную инфраструктурную компанию похожую на Яндекс или VK, но с прицелом на облачную инфраструктуру или я прав утверждая что таких нет?


Ссылки:
[1] https://benn.substack.com/p/the-original-purple-people

#datainfrstructure #clouds #data #readings
789 viewsIvan Begtin, 16:22
Открыть/Комментировать
2022-06-11 18:09:01 OpenOwnership, международный проект по стандартизации и содействию раскрытия реальных бенефициаров юридических лиц по всему миру, опубликовали руководство-обзор-рекомендации по введению санкций против стран которые не обеспечивают раскрытие информации о бенефициарных владельцах [1].

Документ полезный для специалистов по комплаенс и для понимания развития регулирования в мире в части прозрачности информации о владении компаниями.

Для тех кто не отслеживал мои прошлые публикации про Open Ownership, это одна из интересных международных инициатив по стандартизации публикации открытых данных с фокусом на раскрытие данных о реальных владельцах. Это главное что отличает их от проекта OpenCorporates где собрана информация только о учредителях. Уже сейчас по стандарту Open Ownership опубликованы реестры нескольких стран: Словакий, Украина, Великобритания, Дания и ряд других.

Ссылки:
[1] https://www.openownership.org/en/publications/designing-sanctions-and-their-enforcement-for-beneficial-ownership-disclosure/

#opendata #datastandards
835 viewsIvan Begtin, 15:09
Открыть/Комментировать
2022-06-11 13:40:08 Я довольно давно хочу написать рефлексию по поводу продолжающегося закрытия данных в России, о причинах этого и о причинах того почему ранее открытость государства/информации/данных в какой-то форме присутствовали.

Дело в том что открытость - это одна из характеристик жизни экосистемы. Например, пока была хоть какая-то внешняя и внутренняя политическая жизнь в России то и были доступны данных связаны с этой политической жизнью.

Пока была живая экономика - открытость присутствовала потому что доступность информации необходима для инвесторов, владельцев бизнеса и иных лиц принимающих решения. В странах с сильным фондовым рынком финансовая и экономическая открытость данных очень высока и, обычно, если и имеет ограничения то только стоимостные.

Пока была жива какая-то внутрироссийская невоенная повестка была жива тема данных характеризующих качество жизни. Она и сейчас жива, в ней всегда были и есть разнонаправленные тенденции интересов держателей ресурсов и "подневольного населения", но сама тема и проблема никуда не исчезала.

Пока была жива наука там была повестка открытости и из-за мирового движения к Open Access, и из-за необходимости понимать что же за исследования по факту происходят. Сейчас ключевой вопрос открытости науки в России, в том а кому эта открытость будет нужна? Кто будет воспроизводить исследования если международной повестки более нет?

И так далее, какую тему не возьми, всюду открытость, является одной из характеристик жизни. Собственно когда доступная информация начинает превращаться в индикаторы смерти или глубокой болезни какой-то среды, то и политические власти, регуляторы, иные заинтересованные лица делают всё возможное для искажения данных или полного их сокрытия.

#opendata #thoughts
984 viewsIvan Begtin, edited  10:40
Открыть/Комментировать
2022-06-11 13:29:27 Вышла версия 2.0 Meltano [1] ELT движка интегрированного в Modern Data Stack, все изменения как раз про эту интеграцию. В частности там поддерживается:
- dbt для трансформации данных
- Great Expectations для качества данных
- Airflow для управления потоками данных
- Superset для аналитики

И ещё много чего. На поляне ELT у Meltano сейчас возможно наилучший потенциал, растущее сообщество и хорошее развитие продукта. Если думать с каким ELT движком интегрировать свои продукты то Meltano - это хороший вариант.

Ссылки:
[1] https://meltano.com/blog/meet-meltano-2-0/

#opensource #datatools #etl #elt #moderndatastack
948 viewsIvan Begtin, 10:29
Открыть/Комментировать
2022-06-10 14:52:25 В рубрике больших открытых наборов данных стандарт сериализации данных HDT [1], используется для бинарной сериализации данных в формате RDF, используемом при разработке проектов в области семантического веба и онтологий. На сайте стандарта опубликовано множество датасетов [2] самый большой из них - набор данных Wikidata размером в 149GB.

Для работы с этим форматом есть библиотеки для C++ и Java, а также настольное приложение.

Ссылки:
[1] https://www.rdfhdt.org/
[2] https://www.rdfhdt.org/datasets/

#opendata #datasets
1.1K viewsIvan Begtin, 11:52
Открыть/Комментировать
2022-06-10 10:10:57 В рубрике интересных инструментов с открытым кодом для работы с данными:
- sowego [1] утилита и библиотека для Python по линковке больших каталогов данных с Wikidata
- vector [2] ETL от Datadog по созданию труб данных для работы с логами и метриками.
- RecordLinkage [3] библиотека для Python по связыванию похожих структур
- Inception [4] инструмент/платформа для семантического аннотирования текстов
- Dedupe [5] ещё один инструмент для избавления дубликатов в Python
- Streamlit [6] платформа по быстрому развертыванию дата приложений на Python.
- Bdbag [7] инструмент работы со стандартом научных данных BagIT и большими данными
- schema.data.gouv.fr [8] исходный код французского правительственного репозитория схем [9]․ Все схемы в JSON, с документацией, отслеживанием изменений и тд. Очень редкий для гос-ва системный подход
- NoProto [10] ещё один стандарт сериализации данных, с поддержкой схем, сортировкой и другими фичами. К нему же референсные реализации на JS и Rust
- Confluent Schema Registry [11] реестр схем данных для Kafka, на базе JSON Schema
- Records [12] библиотека для Python для удобной работы с SQL, поддерживает только SQL СУБД.
- Miraql [13] удобный визуализатор API и схем Graphql

Ссылки:
[1] https://github.com/Wikidata/soweego
[2] https://github.com/vectordotdev/vector
[3] https://github.com/J535D165/recordlinkage
[4] https://github.com/inception-project/inception
[5] https://github.com/dedupeio/dedupe
[6] https://github.com/streamlit/streamlit
[7] https://github.com/fair-research/bdbag
[8] https://github.com/etalab/schema.data.gouv.fr
[9] https://schema.data.gouv.fr
[10] https://github.com/only-cliches/NoProto
[11] https://github.com/confluentinc/schema-registry
[12] https://github.com/kennethreitz/records
[13] https://github.com/oslabs-beta/miraql

#datatools #data #opensource
1.2K viewsIvan Begtin, edited  07:10
Открыть/Комментировать