Получи случайную криптовалюту за регистрацию!

Ivan Begtin

Логотип телеграм канала @begtin — Ivan Begtin I
Логотип телеграм канала @begtin — Ivan Begtin
Адрес канала: @begtin
Категории: Бизнес и стартапы , Технологии
Язык: Русский
Количество подписчиков: 8.02K
Описание канала:

I write about Open Data, Data Engineering, Government Technologies, Privacy and Digital Preservation and other gov and tech stuff
Chat https://telegram.me/begtinchat
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал begtin и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения 14

2022-05-18 17:39:58 В рубрике интересных наборов данных, датасет о религиозных группах в разных штатах США за пару сотен лет Government Religious Preference 2.0 (GRP 2.0), Composite [1]. Датасет опубликован в ARDA [2] ассоциации религиозных архивов в США, включающем более 1200 наборов данных опросов, переписей, исследований и иных данных посвящённых религиозным группам.

Можно только позавидовать их социологам возможности работы с такими данными.

Ссылки:
[1] https://www.thearda.com/Archive/Files/Descriptions/GRPCOMP.asp
[2] https://www.thearda.com/

#opendata #datasets #research #sociology
1.2K viewsIvan Begtin, 14:39
Открыть/Комментировать
2022-05-18 17:11:45 На днях я выступал на X Васильевских чтениях организованных журналом Бюджет и как всегда говорил о том что в России средний уровень открытости, высокий в финансовой сфере, и низкий в теме качества жизни. Вот тут выложили мою презентацию [1]. В ней не так много нового как хотелось бы, конечно.

Ссылки:
[1] https://bujet.ru/action/X_chteniya/propramm_Xvch/

#opendata #opengov #budget
1.2K viewsIvan Begtin, 14:11
Открыть/Комментировать
2022-05-18 14:14:34 Упразднена подкомиссия по ИИ.

Правительство упразднило подкомиссию по развитию искусственного интеллекта правительственной комиссии по цифровому развитию, использованию информационных технологий для улучшения качества жизни и условий ведения предпринимательской деятельности.
1.3K viewsIvan Begtin, 11:14
Открыть/Комментировать
2022-05-18 10:01:53 Новости по разрабатываемым продуктам:
- общая стратегия в перенос в открытый код корневых/ключевых компонентов и ведение их в режиме открытой разработки. Коммерческие продукты будут вынесены в облака, то есть модель open source engine + cloud services.
- приоритет будет сдвигаться на технологические сервисы и сервисные API
- через какое-то время появится общий репозиторий с архитектурой продуктов APICrafter'а как единого целого. Это будет включать ряд технологических продуктов и ряд продуктов агрегаторов данных.
- для DataCrafter'а добавлен Getting Started гайд [1], его можно почитать тут, а далее будет сайт документации
- задачи по развитию DataCrafter'а перенесены в issues продукта на Github [2] туда можно добавить предложения, проголосовать и прокомментировать. Пока добавлено основное, что в работе.
- все задачи по datacrafter'у, metacrafter'у и др. продуктам вынесены в проект с общим списком задач [3]

Ссылки:
[1] https://github.com/apicrafter/datacrafter/blob/main/docs/getting-started.md
[2] https://github.com/apicrafter/datacrafter/issues
[3] https://github.com/orgs/apicrafter/projects/1

#opensource #code #apicrafter
1.4K viewsIvan Begtin, 07:01
Открыть/Комментировать
2022-05-17 20:33:21 Я обещал дать анализ реестра аккредитованных ИТ компаний не так давно.

Первые цифры: всего компаний на 11 мая - 25208 штуки
из них:
- 1589 компаний имеют хотя бы одного зарубежного учредителя, из них 381 компании внесены в реестр в марте-апреле 2022 г.
- не менее 410 компаний являются государственными (подведы госорганов, компании госкорпораций и тд.). Из них 282 компании внесены в реестр в марте-апреле 2022 г.
- 43 организации являются государственными медицинскими учреждениями такими как больницы, стоматологические клиники и родильные дома. ВСЕ 43 из них внесены в реестр в марте-апреле 2022 г.
- 23 государственных университета, 16 внесены в реестр в марте-апреле 2022 г.
- 7 госНКО, специальных НКОшек созданных органами власти или при них. 4 из них внесены в реестр в марте-апреле 2022 г. Например, АНО "Диалог"
- 1 родовая община коренных малочисленных народов севера "Ялтын Маа" (Святая Земля). Внесена 21 марта 2022 г.

А также один аэропорт, несколько аптек, несколько компаний управляющих многоквартирными домами, более десятка заводов, множество учреждений дополнительного профессионального образований и несколько частных охранных служб.

Это всё то что было найдено на поверхности, без углублённого анализа. Совсем на поверхности. У меня пока не хватает вдохновения на лонгрид, но данные я опубликую через какое-то время.

#data #itcompanies
898 viewsIvan Begtin, edited  17:33
Открыть/Комментировать
2022-05-17 19:32:50
Кстати, я тут регулярно писал про разного рода инструменты вроде Postman или Insomnia для работы с API. Их много, для разных типов API особенно, а оказалось есть ещё один в активной разработки.


Создатели утилиты httpie [1] для командной строки создают сейчас настольное и онлайн приложение для отладки API. Называется оно Httpie Web & Desktop App [2] и на это они в октябре 2021 г. подняли венчурное финансирование на $6.5M [3]. Бизнес модель пока неясна до конца, но скорее всего это будет что-то похожее на Postman с "игровой площадкой" для работы с API.

Ссылки:
[1] https://httpie.org
[2] https://httpie.io/product
[3] https://www.crunchbase.com/organization/httpie

#data #api #startups
953 viewsIvan Begtin, 16:32
Открыть/Комментировать
2022-05-17 13:46:28 Те кто ищет продукты по работе с базами данных и при этом больше похожие на MS Access, но в облаке, обычно быстро находят Airtable, но это совсем далеко не единственный low-code и no-code продукт в этой области. О некоторых я ранее писал, а других ещё нет:
- NocoDB [1] альтернатива Airtable с открытым кодом.
- Rows [2] позиционируют себя как "переизобретение таблиц", стартап и онлайн сервис
- Clay [3] стартап с интеграцией с кучей онлайн сервисов, CRM, аналитики и т.д.
- Dataland [4] стартап и онлайн сервис ориентированный на удобство разработчиков, как универсальный фронтенд над базами данных. Пока в бета по запросу
- Tulr [5] бесплатная альтернатива Airtable. Платные тарифы тоже есть. Стартап, онлайн сервис
- StackBy [6] сервис ориентированный на маркетологов, с кучей шаблонов под их работу
- Basedash [7] ещё один сервис упрощения редактирования баз данных, словно не база, а таблица в Excel.
- Grist [8] довольно продвинутый инструмент с открытым кодом и облачный стартап.
- Smartsheet [9] корпоративный продукт, вернее продукт с корпоративной версией.
- Actiondesk [10] позволяет подключаться к СУБД и ещё и создавать аналитические интерфейсы.

А также большая подборка инструментов в списке Awesome NoCode/LowCode [11]

Ссылки:
[1] https://nocodb.com
[2] https://rows.com
[3] https://www.clay.com
[4] https://dataland.io/
[5] https://tulr.io/
[6] https://stackby.com/
[7] https://www.basedash.com/
[8] https://www.getgrist.com/
[9] https://www.smartsheet.com/
[10] https://www.actiondesk.io/
[11] https://github.com/kairichard/awesome-nocode-lowcode#database

#nocode #lowcode #tools #data
1.1K viewsIvan Begtin, 10:46
Открыть/Комментировать
2022-05-16 08:42:03 Я ранее много писал и рассказывал про то что внутри нашего проекта DataCrafter [1] находится несколько движков: распознавания данных, извлечения данных, каталогизации и ведения реестра и так далее и обещал часть продукта выложить в открытый код.

Эта задача несколько затянулась, вначале в открытом коде вышел metacrafter [2] движок по идентификации семантических типов данных и смысловых полей в наборах данных и СУБД (например, для идентификации персональных данных).

А теперь в режиме альфа версии доступен движок ETL, одноименно названный datacrafter [3]. Это NoSQL движок для работы с данными и с API для извлечения обработки и их сохранения. Движок выделен через миграцию кода в проекте, отделение его от остальной монолитной части и с переписыванием части кода для большей универсальности.

В чём особенность этого движка он изначально создавался только для загрузки любых данных в MongoDB и заточен под открытые данные, условно, любого размера. Он используется для обработки данных ФНС публикуемых гигабайтными XML файлами, для чего используется универсальный SAX парсер. Он создаёт файлы BSON которые можно грузить в MongoDB без дополнительных преобразований и так далее.

Как ещё он даёт возможности:
- настраивать извлечение данных из JSON, CSV, XML, JSONl файлов
- осуществлять преобразование данных: переименование полей, назначение типов полей, выполнение произвольного кода
- сохранять результаты в форматах BSON, JSON lines, CSV, в том числе сразу сжимая их в xz, gz, zip архивы
- умеет извлекать данные из API с помощью инструмента apibackuper [4]

В режиме альфа версии потому что большей части ключевог опока нет:
- нет готовой документации, только примеры.
- нет режима серверной работы, с агентами выполнения задач
- не перенесена интеграция с metacrafter и автодокументирование
- нет интеграции с HTML скрейперами

Поскольку документации пока мало, основной в примерах datacrafter-examples [5]. Например, можно посмотреть пример обработки больших XML файлов ФНС России внутри ZIP архивов с преобразованием в BSON [6] или сертификатов удостоверяющих центров где данные извлекаются из API и включен скрипт преобразования каждой записи.

Примеры запускаются командой "datacrafter run" в директории каждого примера.

В перспективе, по очередности:
1. Добавить документацию к движку и примерам и к рекомендациям как движок расширять.
2. Включить поддержку подключения к СУБД
3. Подключить загрузку данных в NoSQL
4. Добавить режим агентской работы (в режиме сервера)
5. Добавить режим UI
6. Добавить или подключить планировщик задач

Пока же можно начать его использовать, задавать вопросы и запросы на расширение в issues.

Ссылки:
[1] https://datacrafter.ru
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/datacrafter
[4] https://github.com/ruarxive/apibackuper
[5] https://github.com/apicrafter/datacrafter-examples
[6] https://github.com/apicrafter/datacrafter-examples/tree/main/fnspaytax
[7] https://github.com/apicrafter/datacrafter-examples/tree/main/uccertufo

#datatools #opensource #dataengineering
1.2K viewsIvan Begtin, 05:42
Открыть/Комментировать
2022-05-13 20:52:31 Интересное чтение про данные

Обзор баз данных для временных рядов [1] полезное чтение для тех кто уже решил что им нужно хранить данные для визуализации, но ещё не определился каким способ.

Финский стартап Aiven поднял $210M инвестиций в серии Д [2]. Для европейского стартапа - это очень много. Интересна его специализация - это развертывание и управление инфраструктурой работы с данными на 5 облачных провайдерах: AWS, DigitalOcean, Microsoft Azure, Google Cloud, UpCloud.

Кто бы сделал такое в России поверх облаков Яндекса, VK и Selectel ?


AlloyDB [3] свежая облачная база от Google совместимая с Postgres. Помните я писал про то что самое странное в недавно открытой Яндексом базе YDB в том что она ни с Postgres, ни с MySQL не совместима. Потому что совместимость из коробки сильно упрощает миграцию. В Google это понимают, многие облачные и не облачные продукты идут таким путём. Кстати, вот идея для продукта - делать обёртки Postgres'совместимости для существующих СУБД.
Рынок не жирный, но реальный.

Looker продолжают продвигать Malloy их data exploration language [4]

Ссылки:
[1] https://towardsdatascience.com/the-landscape-of-timeseries-databases-95cd7f7ee64d
[2] https://aiven.io/press/Aiven-raises-210M-to-invest-in-sustainable-open-source-cloud
[3] https://io.google/2022/program/0a894aa7-755b-478d-9553-e9c828deb885/
[4] https://docs.google.com/presentation/d/18KUl_rrz2K-hbsiKJYS3rtTcYxZMXKklyPllLmTtIYY/edit#slide=id.g1269816dcbe_0_140

#data #datatools #readings #startups
1.6K viewsIvan Begtin, 17:52
Открыть/Комментировать
2022-05-13 09:27:06 В рубрике интересных инструментов работы с данными
- mitmproxy [1] интерактивный прокси для https трафика
- mitmproxy2swagger [2] инструмент поиска недокументированных API и описание их по стандарту Swagger/OpenAPI
- mitm_postman [3] похожий инструмент по созданию коллекций API в Postman через перехват вызовов, не обновлялся 4 года

Ссылки:
[1] https://mitmproxy.org/
[2] https://github.com/alufers/mitmproxy2swagger
[3] https://github.com/viraja1/mitm_postman

#api #opensource #data
830 viewsIvan Begtin, 06:27
Открыть/Комментировать