Получи случайную криптовалюту за регистрацию!

Ivan Begtin

Логотип телеграм канала @begtin — Ivan Begtin I
Логотип телеграм канала @begtin — Ivan Begtin
Адрес канала: @begtin
Категории: Бизнес и стартапы , Технологии
Язык: Русский
Количество подписчиков: 8.02K
Описание канала:

I write about Open Data, Data Engineering, Government Technologies, Privacy and Digital Preservation and other gov and tech stuff
Chat https://telegram.me/begtinchat
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал begtin и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения

2022-08-30 15:29:08 Я довольно много писал про недокументированные API госорганов [1] и упоминал похожий гражданский проект в Германии [2].

Так вот скажу что этих самых недокументированных API к государственным и окологосударственным системам, сайтам, порталам значительно больше чем может показаться со стороны.

Причём есть всего несколько причин их появления:
- наличие API как продукта редкие случаи, когда API изначально было предусмотрено, но в силу многих причин его создатель не может, не умеет или не хочет его нормально документировать.
- наличие API как следствие архитектуры приложения, как правило это следствие применение подходов вроде JAMSTACK когда вызовы к API осуществляются из Javascript на фронтэнде
- наличие API по умолчанию это когда API есть у продукта который используется для конкретной цели, но его пользователь об этом не знает

Всех этих API великое, нет огромное количество.

Какое-то время назад я размещал на сервисе Postman коллекцию с документацией таких API [3]․ Там их немного, 6 государственных систем, около пары-тройки десятков точек подключения. Все они идут по 1-й или по 2-й категории API, а есть немало API которые просто являются частью продукта и вот их примеры.

Есть такой продукт DSpace используемый ВУЗами для создания репозиториев научных результатов. Он много где установлен в мире, в основном университетами, но даже открытые библиотека НАТО и Мирового банка тоже работают на DSpace. В России он используется, например, в СПбГУ.

У DSpace по умолчанию есть интерфейс раскрытия данных по стандарту OAI-PMH, это такой стандарт архивации научных и библиотечных знаний. Поэтому, к примеру, у инсталляции DSpace есть API интерфейс для доступа [4], подробнее о нём и как работать с протоколом OAI-PMH легко гуглится. Специалисты, как правило, о таких интерфейсах знают заранее. Неспециалисты очень удивляются когда неожиданно обнаруживают.

Другой пример, у Wordpress есть API, идущее практически по умолчанию в новых инсталляциях. Оно сводится к точке подключения /wp-json/ через который можно выкачать. Это полезно, например, для цифровой архивации. Я специально для такого сделал утилиту wparc [5] позволяющую архивировать данные из инсталляций Wordpress. В России, например, Wordpress, используется на сайте Госкомиссии по Арктике и, конечно, wp-json там активирован [6].

Таких примеров много, они не описываются на порталах открытых данных и инициативах вроде bund.dev или нашей коллекции госAPI.

Ссылки:
[1] https://t.me/begtin/3550
[2] https://t.me/begtin/4194
[3] https://www.postman.com/infoculture/workspace/infoculture-public/documentation/1428203-a769e0a6-0cc9-4de4-bdcc-5f8a0fa06e36
[4] https://dspace.spbu.ru/oai/
[5] https://github.com/ruarxive/wparc
[6] https://arctic.gov.ru/wp-json/

#api #openapi #government #undocumented
868 viewsIvan Begtin, 12:29
Открыть/Комментировать
2022-08-30 13:05:50
Дождались! Минэк расторг контракт на портал открытых данных.

Правда возникает вопрос, почему это не было сделано еще, например, в конце 2020 года, когда подрядчик в декабре 2020 года не провел хакатон, а Минэк в августе 2021 (!) его отменил доп. соглашением.

Интересно, что одна из причин расторжения - отсутствие банковской гарантии, срок действия которой истек в январе 2022 года. Но расторгли контракт только сейчас.

Напомню, что подрядчиком была петербургская компания, у которой было 3-4 клона с одинаковыми названиями, учредителями, адресами. И одну из этих компаний Минэк внес в РНП по предыдущему госконтракту на портал ОД.
1.1K viewsIvan Begtin, 10:05
Открыть/Комментировать
2022-08-30 07:35:35 Счетная палата РФ выпустила бюллетень N30 посвящённый государственным информационным системам [1], о нем уже написали TAdviser, РБК и много других изданий. РБК, например, делают акцент на критике Гостеха [2] в бюллетене, другие издания другие акценты, а я могу посоветовать почитать сразу весь бюллетень.

С точки зрения системного подхода к госинформатизации, не углубляясь в политические аспекты, это, безусловно, важный доклад с грамотными выводами что считать расходы на создание ГИСов сложно, что они плохо систематизированы, что ФГИС КИ в текущем состоянии весьма запущенная система и ещё много чего. В целом камни в огород здесь в адрес Минцифры в нынешней и прошлых инкарнациях этого органа власти.

1. Число государственных информационных систем в России несопоставимо с [не]доступностью данных из этих же информационных систем. Иначе говоря огромное число информационных систем существуют в полностью закрытом режиме и, в лучшем случае, по ним доступны только сведения перечисленные в их ТЗ размещённом на сайте госзакупок.

2. Архитектура многих информационных систем - это продолжение госполитики по сверхконцентрации полномочий в Москве и подмосковье. Георезервирования данных нет не только потому что на этом экономят или не умеют, но и по причине трансформации федеративного государства в техноунитарное. А то есть там где нельзя забрать полномочия у субъектов федерации вместо этого на стыке полномочий создается федеральная информационная система от которой региональной власти оказываются в критической зависимости (не могут без неё работать). Это не только про электронные учебники, это ещё и про системы Росреестра, ГИС Торги, портал госзакупок и ещё многие другие системы.

3. Лично мне не хватило в бюллетене отражение "успехов" Гостех в правительстве Москвы и в Казахстане. Но даже упоминание критичности зависимости платформы от воли Сбербанка - это достаточно существенная критика.

4. Мировой опыт, будем честными, отражён очень слабо. В бюллетене много упоминается опыт по планам цифровизации, а тут скорее про решения общестрановые по информатизации и создании инфраструктуры. В мире ключевое для государственных информационных систем сейчас - это процедуры соответствия облаков обязательным стандартам, их сертификация, сертификация ПО в этих облаках и, самое главное, широкое повторное использование открытого кода в госуправлении.

Я могу рассказывать про это всё довольно долго, о многом пишу в телеграм канале, а почитать бюллетень СП будет полезно, несомненно.

Ссылки:
[1] https://ach.gov.ru/statements/bulletin-sp-8-2022
[2] https://www.rbc.ru/technology_and_media/30/08/2022/630cc2709a7947836b2ef7c4

#government #it #digital #opengov
2.6K viewsIvan Begtin, 04:35
Открыть/Комментировать
2022-08-29 19:45:28 Полезное чтение про данные и не только:
- WSJ пишет что метеорологическая служба США начала закупать данные у двух частных компаний чтобы заполнить пробелы в покрытии их спутников [1]. Статья о том что государство действует очень медленно в таких случаях, закупать данные у частного сектора госорганам непросто.
- научная статья о том как регулируется (ограничивается) ИИ в разных странах [2] статья под пэйволом, но весьма полезна и по сути построена на сравнении предпочтении граждан.
- критическая статья в Politico о том что предполагалось что ИИ изменит систему здравоохранения и о том почему этого не происходит [3]. Если коротко то - завышенные обещания, несовместимые системы и тд. Самое плотное применение ИИ в США сейчас в радиологии.

Ссылки:
[1] https://www.wsj.com/articles/u-s-government-effort-to-tap-private-weather-data-moves-along-slowly-11661335203
[2] https://www.tandfonline.com/doi/full/10.1080/13501763.2022.2094988?src=
[3] https://www.politico.com/news/2022/08/15/artificial-intelligence-health-care-00051828

#data #readings
1.2K viewsIvan Begtin, 16:45
Открыть/Комментировать
2022-08-29 14:31:20
Весьма любопытное мини-исследование о том сколько времени занимает создание open source альтернативы проприетарному продукту [1].

Автор на научность не претендует, зато много чего проанализировал и выложил в виде CSV файла [2]․

Цифр и примеров там много, почитать будет любопытно, жаль что литературного обрамления маловато, о каждом продукте можно рассказать целую историю.

А вывод очень простой - есть тренд на сокращение сроков запуска open source альтернативы существующему продукту. С 18 лет связки Unix - GNU/Linux, до менее года (343 дня) с связки Clubhouse и его опенсорс альтернативы Dogehouse.

Предлагаю подумать над выводами из этого. Я лично главным выводом вижу коммодизацию разработки ПО, в том числе открытого. Интересно посмотреть не только на open source альтернативы, но и на появление сравнимых конкурентов, оно тоже сократилось. Чем это грозит рынку ПО и сервисов? Тем что бежать надо быстрее, сильнее, лучше, а не ждать что создав продукт можно стричь купюры до конца жизни.

Ссылки:
[1] https://staltz.com/time-till-open-source-alternative.html
[2] https://github.com/staltz/ttosa

#opensource #itmarket
1.4K viewsIvan Begtin, 11:31
Открыть/Комментировать
2022-08-29 11:30:05 Если медицинская организация имеет личный кабинет и использует сервис CDN для раздачи контента и данные в личном кабинете тоже через него отдаются, то это в чистом виде трансграничная передача данных. Ведь данные проходят пользователю через сервера в США и/или Европе. Пожалуйся на них в Роскомнадзор и те прибегут и наштрафуют. Но есть ли ущерб потребителю? Честно говоря, я сомневаюсь. Называть компанию не буду, более того, их много.

А если ВК раздают пользователям приложения в котором 90% приложений отдаёт данные Гуглу, Facebook'у и тд. или если некоторые, не будем показывать пальцами, органы власти то Роскомнадзор даже не почешется.

Как это правильно назвать по-русски?

#privacy
489 viewsIvan Begtin, 08:30
Открыть/Комментировать
2022-08-29 09:18:23 Онтология типов данных

Когда я только-только начинал возиться с семантическими типами данных то столкнулся с тем что онтологического моделирования типов данных очень мало. Есть исследование и онтология OntoDT [1] ещё 2016 года, но сайт с ним уже недоступен, и сама онтология кое-где ещё доступна как RDF/OWL [2]. Основной автор Panče Panov явно переключился на более прикладные исследования [3]

В качестве других примеров։
- онтология EDAM [4] в биоинформатике, с акцентом на особенности анализа и майнинга данных в этой области
- CDM (Common Data Model) [5] не-формальная онтологии от Microsoft привязанная с акцентом на продажах, пользователях, маркетинге и тд.
- онтология типов данных при ответах на вопросы по геоаналитике [6] прошлогоднее исследование с акцентом на геоданные.

Есть, также, какое-то количество других научных и не только научных публикаций на эту тему, но в целом их довольно мало. Они чаще всего происходят в контексте задач по анализу данных и его автоматизации. Самое развитое идёт в сторону автоматизации создания и аннотирование моделей для ИИ. Проект D3M (Data-Driven Discovery of Models) [7] от DARPA в США. Я не так давно писал о нём и порождённых им стартапах. [8]

По тому что я вижу, рано или поздно, но с практической или научной или обеих точек зрения будет продолжение развитие моделирования типов данных. Помимо задач автоматизации обработки данных, есть явный тренд на развитие инструментов их хранения.

Ещё какое-то время назад в СУБД на родном уровне поддерживались только самые базовые типы данных։ INT, FLOAT, STRING/VARCHAR, BLOB и тд. с небольшими вариациями. Сейчас, современные СУБД, поддерживают многочисленные дополнительные типы данных, перешедших из смысловых (семантических) в базовые типы. Пример: ip-адреса и mac-адреса уже достаточно давно имеющиеся в некоторых СУБД [9] и недавно добавляемые в другие [10].

Ранее всего это произошло с датами и временем в разных вариациях, с геоданными для которых есть сейчас много отдельных функций и индексов внутри СУБД. Также происходит с сетевыми наиболее популярными данными.

Мои ощущения что на этом процесс не остановится. Например, меня удивляет что всё ещё нет СУБД общего типа с отдельными типами данных под хэши (SHA1, SHA256 и др.).

Многие составные идентификаторы и коды классификаторов сейчас в СУБД хранятся как строки, при том что часто они нужны в декомпозированной форме и, в итоге, создаётся избыточность разбирая этот код на части. Пример в России: Вы можете хранить код КЛАДР как есть, а можете разделить его на подэлементы и осуществлять поиск по ним когда это необходимо.

Не знаю появится ли когда-либо движок для СУБД дающий возможность значительно большей гибкости в хранении и индексировании данных иди же, на самом деле, это далеко от насущных необходимостей, но важно то что к у каждого смыслового типа данных есть важная связка с практиками обработки данных и эволюция СУБД в этом направлении явно происходит.

Ссылки:
[1] https://fairsharing.org/FAIRsharing.ydnwd9
[2] https://kt.ijs.si/panovp/OntoDM/archive/OntoDT.owl
[3] https://orcid.org/0000-0002-7685-9140
[4] http://edamontology.org/page
[5] https://docs.microsoft.com/en-us/common-data-model/
[6] https://digitalcommons.library.umaine.edu/josis/vol2020/iss20/2/
[7] https://datadrivendiscovery.org
[8] https://t.me/begtin/3926
[9] https://www.postgresql.org/docs/current/datatype-net-types.html
[10] https://mariadb.com/kb/en/inet4/

#data #rdbms #research #metadata #semanticdatatypes
600 viewsIvan Begtin, 06:18
Открыть/Комментировать
2022-08-28 20:54:40 В рубрике как это работает у них the Global Open Science Cloud Initiative (GOSC) [1] проект CODATA (Комитета по данным Международного научного совета).

Идея его простая - создать стандарты и инфраструктуру для интеграции больших национальных и международных проектов открытой научной инфраструктуры. Я об этих проектах многих писал: EOSC, ARDC, NFDI, NRDIO и многих других. В мире идёт активное развитие таких платформ, например, развивается La Refencia в Латинской Америке и African Open Science Platform, как вы догадываетесь, в Африке.

Все они на разных стандартах, идентификаторах, протоколах, и вот CODATA организуют инициативы по их обзору и интеграции. Что любопытно, оплачивает это CNIC CAS (Компьютерный сетевой информационный центр Китайской академии наук). И вот организаторы обещают уже 12 октября представить первые результаты в рамках GOSC IPO [3]. Ждать недолго и даже если это будет только результат анализа существующих проектов - это уже будет интересно.

Почему это важно? Существенная часть открытой научной инфраструктуры - это доступность научных данных, инструментов их обработки и облачных сервисов. Лично я сомневаюсь появления глобальной [некоммерческой] научной инфраструктуры как digital commons в ближайшие годы, но сама идея интеграции национальных инициатив выглядит актуально.

Ссылки:
[1] https://codata.org/initiatives/decadal-programme2/global-open-science-cloud/
[2] https://codata.org
[3] https://codata.org/launch-of-the-gosc-international-programme-office/

#openaccess #openscience #opendata
933 viewsIvan Begtin, 17:54
Открыть/Комментировать
2022-08-27 13:40:37 Я давно не писал про мою любимую тему, семантические типы данных, а, между тем, я активно продолжаю ей заниматься в свободное время, в основном. Создавая metacrafter-registry [1] [2], реестр существующих семантических типов данных и регулярных выражений для их идентификации.

Для тех кто не знает что это такое, напомню про мой текст с рассказом того как их применяют и зачем они нужны [3], если кратко то для автоматизации визуализации, анализа, навигации и обработки данных.

Реестр вырос уже до 284 типов данных сгруппированных по 26 категориям и в привязке к 11 странам. Более всего страновых идентификаторов по России - более 70 (ИНН, СНИЛС, КЛАДР и все остальные), но по мере обработки порталов данных и других источников растет список и по другим странам.

Самые главные изменения в том что многие типы данных теперь имеют привязку к Wikidata и Schema.org. Какие-то ещё можно привязать, но, к сожалению не все. Wikidata почти не покрывает персональные идентификаторы, зато включает сотни идентификаторов литературных источников почти нигде "в диком виде" не встречающиеся.

Реестр всё лучше перелинкован, синхронизован с используемыми инструментами и понемногу включает и регулярные выражения для идентификации типов данных. Часть их уже перенесена в утилиту metacrafter [4] для идентификации семантических типов данных, а часть будет перенесена постепенно позже.

Ссылки:
[1] https://registry.apicrafter.io/
[2] https://github.com/apicrafter/metacrafter-registry
[3] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[4] https://github.com/apicrafter/metacrafter

#opensource #data #datatools #metadata #semanticdatatypes
1.1K viewsIvan Begtin, 10:40
Открыть/Комментировать
2022-08-26 19:48:02
Продолжая тему приватности мобильных приложений. Есть стартапы создающие мобильные приложения, а есть стартапы помогающие отслеживать нарушения приватности в этих приложениях. Например, Privado [1] предоставляют сервис отслеживания обработки чувствительных данных в приложениях для Android'а через сканирование исходного кода. Проверить код можно скачав их open source сканер [2] и запустив с параметром 'privado scan '.

Я его проверял на швейцарском государственном приложении отслеживания COVID-19 swisscovid-app-android [3].

Из плюсов - он работает
Из минусов - только с Java кодом, не поддерживается приложения на Javascript или Kotlin не говоря уже о Flutter и тд.
Из странностей - ложные срабатывания. Например, срабатывает на обработку высоты изображения как рост человека height, хотя в коде видно что срабатывание неверное.

Приложение хотя и open source, но будьте осторожны, результаты оно постит сразу на сайт community.privado.ai, то есть открытый код, но с зависимостью от облачного сервиса.

Главная фишка - генерация Data Safety манифеста для Google Play. Иначе говоря, автоматизация комплаенс процедуры для приложений Android.

Продукт интересный, буду наблюдать за его развитием. Может быть он сможет работать и с декомпилированным кодом или сам научится декомпилировать DEX файлы? А может у него появятся конкуренты.

Ссылки:
[1] https://www.privado.ai/
[2] https://github.com/Privado-Inc/privado
[3] https://github.com/SwissCovid/swisscovid-app-android

#mobileapps #privacy #android #security
1.1K viewsIvan Begtin, 16:48
Открыть/Комментировать