Получи случайную криптовалюту за регистрацию!

Ivan Begtin

Логотип телеграм канала @begtin — Ivan Begtin I
Логотип телеграм канала @begtin — Ivan Begtin
Адрес канала: @begtin
Категории: Бизнес и стартапы , Технологии
Язык: Русский
Количество подписчиков: 8.02K
Описание канала:

I write about Open Data, Data Engineering, Government Technologies, Privacy and Digital Preservation and other gov and tech stuff
Chat https://telegram.me/begtinchat
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал begtin и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения 7

2022-06-09 12:29:04 В рубрике интересных наборов данных база стоимости услуг госпиталей в США [1] размещённая на платформе Dolthub. Особенность в том что Dolthub организуют регулярные конкурсы краудсорсингового сбора данных и эта база данных также собирается волонтерами которым за это ещё и существенно платят, нельзя сказать что копейки, общий бюджет на создание такого набора данных - $15 тысяч и в списке лидеров есть те кто заработал уже более $5 тысяч.

Dolthub позиционируют себя как Git для данных и у них, действительно, хороший продукт с интересными возможностями.

Но вот свой потенциал в части организации таких конкурсов они недооценивают.

По моему скромному мнению рано или поздно их купит один из крупных международных big tech холдингов вроде MS, IBM, Oracle, Google, Amazon или кто-то вроде и поставят такие конкурсы на поток совместно с инициативами Data4Good и другими гуманитарными проектами связанными с работой с данными.

Ссылки:
[1] https://www.dolthub.com/repositories/dolthub/hospital-price-transparency-v3

#opendata #dolthub #dataplatforms #datasets
1.3K viewsIvan Begtin, 09:29
Открыть/Комментировать
2022-06-09 10:26:22
IBM ушёл из России, но сервера и ПО IBM госзаказчики покупать не перестали. Свежий контракт на 800 млн. руб. подведа Федерального Казначейства (ФКУ ЦОКР) с ООО "Интегрейтед Сервисес Групп" [1] на поставку серверов и комплектующих. Сервера, вроде как, декларируются как российские сервера Аквариус, а с списке аппаратного обеспечения сплошняком оборудование и программное обеспечение IBM, вроде IBM AIX Enterprise Edition.

Так может IBM ещё не ушёл из России или ушёл только номинально?

Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1770989550922002235&contractInfoId=73395724

#government #procurement
528 viewsIvan Begtin, 07:26
Открыть/Комментировать
2022-06-09 09:18:52 Я выложил в открытый код очередной компонент нашей платформы по публикации данных APICrafter с таким же названием apicrafter это инструмент/утилита/библиотека кода по автоматическому созданию API поверх NoSQL СУБД, сейчас это MongoDB. Внутри используется REST API фреймворк Python Eve, а сам движок предполагает создание только read-only API, для публикации и раскрытия данных.

Его особенности:
- автоматическое обнаружение таблиц и генерация схем данных для MongoDB
- все настройки через файлы YAML
- управление API в проектном режиме, для каждого проекта создаётся отдельный проект.

Основной сценарий использования - это когда Вы не хотите детально моделировать данные которые у Вас есть в наличии, но Вам необходимо кому-то их предоставить или использовать для интеграции систем. Тогда данные закидываются в MongoDB как есть и с помощью этой утилиты создаётся API.

Скажу сразу сейчас это упрощённая утилита, не отрабатывающая сложных сценариев, без уникальных урлов каждого объекта и тд., необходимая именно для того чтобы быстро выставить наружу API к какой-либо базе данных

Всё это отдельные внутренние части каталога данных DataCrafter (datacrafter.ru). Изначально она была сделана по монолитному режиму и в последний год я её разбирал и выкладывал по компонентам:
- metacrafter - идентификация семантических типов данных
- datacrafter - ETL для работы с большими батчами (как правило в открытых данных)
- apicrafter - фреймворк для создания API поверх MongoDB

Следующая версия каталога уже будет иметь какое-то другое название и собираться из этих компонентов почти по новой.


#opendata #data #opensource #datatools #apicrafter #datacrafter
675 viewsIvan Begtin, 06:18
Открыть/Комментировать
2022-06-09 07:59:40 Свежее чтение про данные:
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны

Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022

#reading #news #data #ai
771 viewsIvan Begtin, 04:59
Открыть/Комментировать
2022-06-08 13:35:49 Сейчас в разных, в основном в помоечных, телеграм каналах пишут о том что часть физ. лиц инагентов были признаными такими из-за работы с Republic и Эхо Москвы.

Я не могу не вспомнить и напомнить что кроме того что я тут пишу про технологии и, всё таки, первично ИТшник, но я довольно много чего писал и пишу публицистического про технологии.

Мои колонки есть в РБК [1], российском Forbes [2], Ведомостях [3], Полит.ру [4] и ещё много где, включая Republic [5]․

Так что если и меня надумают включать в инагенты, то далеко ходить не надо, вот оно.

Ссылки:
[1] https://www.rbc.ru/persons/begtin.shtml
[2] https://www.forbes.ru/person/327221-begtin-ivan
[3] https://www.vedomosti.ru/authors/ivan-begtin
[4] https://polit.ru/author/289686/
[5] https://republic.ru/authors/100519

#russia
1.2K viewsIvan Begtin, 10:35
Открыть/Комментировать
2022-06-08 12:47:49
Не могу не повторить что очень хотелось бы комментировать что-то более позитивное, но приходится комментировать СМИ разное. Например, Forbes [1] про оценку уехавших ИТшников и РБК про инициативу цифровых платформ получить ИТ льготы [2].

Но в целом я хочу повторить два важных тезиса:
1. Токсичный оптимизм - не только раздражает, но и ощущение что "правительство на другой планете живёт, родной" (с) Кин-дза-дза
2. После того как закончится острый период кризиса, я напомню что правоохранители и налоговики 100% начнут рыть под всех кто получил льготы и с хоть малейшей вероятностью им не соответствует.

Ссылки:
[1] https://www.forbes.ru/tekhnologii/468055-cto-mozno-uznat-ob-abonente-po-sim-karte-i-pri-cem-tut-vozvrasenie-ajtisnikov
[2] https://www.rbc.ru/technology_and_media/08/06/2022/629f7a099a7947322474d15d

#it #russia
5.1K viewsIvan Begtin, 09:47
Открыть/Комментировать
2022-06-08 09:21:45 На Cnews феноменальная по кликбейтовости и отсутствию проработки очередная публикация про то что Ростех ещё в марте писал в Минцифру идеи по расширению ИТ льгот и компенсации ИТ-шникам половины аренды, с общим завершением статьи что мол неизвестно чем всё это закончилось. Ссылку на Cnews я давать не буду.

Так вот, чем это закончилось вполне известно, со 2 марта по 20 апреля 2022 года в реестр аккредитованных ИТ компаний было включено 17 юридических лиц относящихся к ГК Ростех.

АО "РТ-ПРОЕКТНЫЕ ТЕХНОЛОГИИ"
АКЦИОНЕРНОЕ ОБЩЕСТВО "ЦЕНТР СУПЕРКОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ"
АО "НИИ "РУБИН"
ООО "МАСТЕРСКАЯ СИСТЕМ"
ООО "РТ-ИНФОРМ"
ООО "СПЕКТР"
АО "СИП РС"
АО "ИНФОРМАКУСТИКА"
АО "ПО "ЭЛЕКТРОПРИБОР"
АО "КОНЦЕРН "АВТОМАТИКА"
ООО "НТ"
АО "ПНИЭИ"
АО "ЦНИИАГ"
ООО "РТ-ЦТ"
АО "КНИРТИ"
АО "РАДИОЗАВОД"
АО "НИИМА "ПРОГРЕСС"
АО "КОМПАНИЯ "СУХОЙ"

Источник - Cписок аккредитованных организаций։ https://digital.gov.ru/ru/activity/govservices/1/

Всё это общедоступные сведения и журналисты CNews, даже при небольшом желании, могли бы и сами это узнать.

И, конечно же, большая часть этих компаний, конечно, же никакого отношения к ИТ отрасли не имеют.

#russia #datasets #registry #it
1.3K viewsIvan Begtin, 06:21
Открыть/Комментировать
2022-06-08 07:42:42 В рубрике интересных наборов данных инициатива Microsoft Data for Society [1] по публикации открытых данных необходимых для решения наиболее значимых проблем общества.

Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.

Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.

Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping

#opendata #ai #datasets #microsoft #corporateresponsibility
1.2K viewsIvan Begtin, 04:42
Открыть/Комментировать
2022-06-08 06:48:41 Многие научные журналы в мире требуют от учёных публиковать вместе со статьями так называемый DAS (Data availability statement), заявление о доступности данных. Оно включает, или ссылку на открытые опубликованные данные, или объявление о доступности данных по запросу.

Группа исследователей провела анализ того как такие заявления публиковались в ряде медицинских журналов и написали статью о том что DAS, фактически, не работает Many researchers were not compliant with their published data sharing statement: mixed-methods study[1]

Они запрашивали данные у тех кто размещал DAS с объявление о доступности данных по запросу и тех кто это не делал и в обоих случаях на их запросы получить данные реагировало не более 7% учёных. Фактически можно говорить о том что многие ученые к подходят к заявлениям о готовности предоставить данные очень формально, не будучи к этому фактически готовыми.

У Sergio Uribe [2] из Балтийского биомедицинского центра в большой серии твитов подборка примеров декларируемой доступности и фактической недоступности данных и как один из сценариев решения - чтобы журналы требовали обязательного раскрытия информации и осуществляли за этим контроль, не принимая статьи без FAIR Data.

Ссылки:
[1] https://www.jclinepi.com/article/S0895-4356(22)00141-X/fulltext
[2] https://twitter.com/sergiouribe

#opendata #openaccess
1.3K viewsIvan Begtin, 03:48
Открыть/Комментировать
2022-06-07 17:40:19 Если Вам кажется что всё плохо в России и то что "дно ещё не нащупано", всегда полезно оглядываться на тех кто глубже. В UN OCHA (Управлениտ ООН по правам человека) заметка с критикой экспертами ООН в адрес цифровой диктатуры в Мьянме где не только заблокировали соцсети, но и 31 городе отключали интернет и 23городах сильно его замедляли. В основном в городах с особо сильной критикой военной хунты. А сейчас там рассматривают законопроект о кибербезопасности по которому можно блокировать любой сайт без суда, а за использование VPN дают до 3 лет тюрьмы.

Ссылки:
[1] https://www.ohchr.org/en/press-releases/2022/06/myanmar-un-experts-condemn-militarys-digital-dictatorship

#internet #privacy #freedom
1.7K viewsIvan Begtin, 14:40
Открыть/Комментировать