Получи случайную криптовалюту за регистрацию!

Ivan Begtin

Логотип телеграм канала @begtin — Ivan Begtin I
Логотип телеграм канала @begtin — Ivan Begtin
Адрес канала: @begtin
Категории: Бизнес и стартапы , Технологии
Язык: Русский
Количество подписчиков: 8.02K
Описание канала:

I write about Open Data, Data Engineering, Government Technologies, Privacy and Digital Preservation and other gov and tech stuff
Chat https://telegram.me/begtinchat
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал begtin и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения 106

2021-03-05 10:05:07 О том как устроены большие международные исследовательские проекты на данных и данные в определённых областях. International Soil Reference and Information Centre (ISRIC) [1] появился в 1964 году в виде Международного музея почвы в Утрехте, Голландия. В 1984 году был переименован в текущее название, в 2011 году получили статус WDC-Soils в международном проекте ISC World Data System.

Организация собирает данные о состоянии почвы, публикует их на специальном хабе данных ISRIC Data Hub [2] и создаёт интерактивные проекты такие как Soils Revealed [3], Soilgrids [4] и многочисленные проекты связанные со сбором и анализом сведений о состоянии почв в Евросоюзе, африканских и других странах. Данные по России в их наборах данных и интерактивных картах тоже есть.

На что можно обратить внимание.
- для публикации данных они используют каталог данных/цифровых геообъектов geonetworks [5] - это специальный open source инструмент позволяющий работать с геоданными и отображать их удобным образом;
- они одни из авторов Гармонизированной мировой базы почв версия 1.2 [6] публикуемой ФАО (агенство при ООН).

В России, кстати, также есть ИС ПГБД (Информационная система «Почвенно-географическая база данных России») [7] созданная Почвенным дата-центром МГУ имени М.В. Ломоносова, там даже есть некоторое количество карт, но ни о какой доступности наборов данных/баз данных и речи нет. Как и большая часть других результатов научной работы в России эти данные не публикуются и уж точно не публикуются под открытыми лицензиями.

Правда российские данные и данные других стран публикуются в международных проектах, например, около десятка российских исследовательских организаций предоставляют данные для проекта ФАО Global Soil Organic Carbon Map [8].

Российские научные данные имеют ту большую местную особенность что не собираются даже органами власти субъектов федерации и на федеральном уровне. В результате отечественный портал data.gov.ru "забит административными данными", небольшими и довольно бессмысленными. Для сравнения, большая часть данных на американском портале data.gov - это именно научные данные. Поиск по "soil" (почва) [9] выдаёт там более 5360 наборов данных.

Всё это я хочу завершить тезисами:
1. Очень часто доступные данные о России надо искать вне России, в международных проектах/банках данных. Их, обычно, хорошо знают специалисты и гораздо хуже те кто не знает где их искать.
2. Инвентаризация государственных информационных систем в России полностью игнорирует программные комплексы и базы данных созданные в исследовательских центрах.

Ссылки:
[1] https://www.isric.org/about
[2] https://data.isric.org/geonetwork/srv/rus/catalog.search#/home
[3] https://soilsrevealed.org
[4] https://soilgrids.org/
[5] https://github.com/geonetwork/core-geonetwork
[6] http://www.fao.org/soils-portal/data-hub/soil-maps-and-databases/harmonized-world-soil-database-v12/en/
[7] https://soil-db.ru/
[8] http://54.229.242.119/GSOCmap/
[9] https://catalog.data.gov/dataset?q=soil&sort=score+desc%2C+name+asc

#science #opendata #openaccess #soil #russia
896 viewsIvan Begtin, 07:05
Открыть/Комментировать
2021-03-04 17:46:01 Sky News пишут о том что Open Government Partnership утверждает что Великобритания провалила обещания по открытости которые давала в своём плане открытости [1]

Даже не знаю как прокомментировать. UK была основателем Open Government Partnership и это довольно серьёзно если даже они не держат своих добровольных обещаний. Впрочем в статье немало о том что Brexit плохо повлиял на политику в Великобритании и эта ситуация одно из его последствий.

Ссылки:
[1] https://news.sky.com/story/uk-government-censured-for-a-lack-of-transparency-and-accountability-12234248

#opengov #uk
962 viewsIvan Begtin, 14:46
Открыть/Комментировать
2021-03-01 14:21:05 Напоминаю что День открытых данных в этом году пройдет онлайн [1] где кроме мероприятий 6-го марта проходит серия мастер-классов первый из которых пройдет сегодня, 1 марта в 18:00 (MSK, GMT+3), мастер-класс «Вскрываем декларации. Как при помощи регулярных выражений привести Word'овскую табличку к пригодной для анализа форме».

Мастер-классы будут проходить ежедневного до 5-го марта включительно.

А потом, 6 марта, будет серия интересных дискуссий по злободневным вопросам. В этом году мы позвали много зарубежных экспертов и будет особенно интересно узнать о том что происходит в мире.

Обязательно регистрируйтесь на сайте, приходите и распространяйте!

Ссылки:
[1] https://opendataday.ru/msk

#opendata #infoculture
555 viewsIvan Begtin, 11:21
Открыть/Комментировать
2021-03-01 13:56:47 В Индии Development Data Lab выложили набор данных о 81.2 миллионе судебных дел из которых 10 миллионов дел идентифицированы как уголовные дела [1]

Данные собраны из e-Court platform [2] и использовались в исследовании предубеждения судов на гендерной и религиозной основе [3].

До этого они делали очень крутой проект SHRUG [4] сбора и визуализации гиперлокальных социоэкономических данных Индии. Это данные о 500,000 деревнях, 8000 городах, и 4000 законодательных собраниях.

А сами данные включают данные о: компаниях, населении, потреблении, выборах, политиках, образовании, энергетике, кастах, дорогах, ночном освещении, покрытии лесом и секторах. Всё это представлено в виде базы данных и наглядного атласа [5].

Если проект по судебным делам в России возможен и даже будет сопоставим, то можно долго писать почему невозможно сделать аналог SHRUG'а, и главная причина будет в полнейшем отсутствии данных переписи/переписей в гиперлокальном виде и отсутствие актуализированной карты с гиперлокальной разметкой муниципалитетов.

Да и данных о качестве жизни маловато, а если она и есть то негармонизируема на всю страну.

Ссылки:
[1] http://www.devdatalab.org/judicial-data
[2] https://districts.ecourts.gov.in
[3] https://shrug-assets-ddl.s3.amazonaws.com/static/main/assets/other/India_Courts_In_Group_Bias.pdf
[4] http://www.devdatalab.org/shrug
[5] http://www.devdatalab.org/atlas

#opendata #opengov #data #india
571 viewsIvan Begtin, 10:56
Открыть/Комментировать
2021-03-01 10:01:47 The Information опубликовали список из 50 наиболее многообещающих стартапов [1] (осторожно пэйвол) разбитых по 5 категориям, из этих стартапов, значительная часть, или связана с данными напрямую, или опосредовано. Например, номер 1 в категории AI - это Alation [2], один из наиболее дорогих корпоративных каталогов данных обещающих что они используют технологии AI для организации корпоративных данных для последующего машинного обучения.

Там много и других примеров стартапов с фокусом на микросервисы (Kong), обработку данных в облачных хранилищах (Starburst Data) и др.

P.S. Если кому-то понадобится статья целиком, пишите в чат, выложу туда её текст.

Ссылки:
[1] https://www.theinformation.com/ti50
[2] https://www.alation.com/

#tech #data #bigdata
1.4K viewsIvan Begtin, 07:01
Открыть/Комментировать
2021-02-28 10:30:05 София Иванова зарегистрировавшая ИП через сервис Tinkoff получила несколько десятков, а то и сотню звонков за несколько дней [1]. Интересный вопрос "где протечка" - в сервисе банка или в ФНС ? Рассматривая Софию Иванову как собирательный образ микропредпринимателя, то почти каждый из них испытывает моменты "коммуникационной агрессии". Они возникают когда в их предприятии возникает значимое событие воспринимаемое продавцами услуг для бизнеса как триггер.

Сейчас это два таких события как:
- регистрация организации
- победа на тендере

Оба этих случая - это злоупотребление даже не открытыми, а доступными данными. Посредники получают их из ЕГРЮЛ, баз госконтрактов, сайтов торговых площадок и так далее. Они перепродают контакты тем кто использует их для холодных звонков.

Поэтому, когда Вы регистрируете ИП или ООО или иное юр. лицо, то это поток звонков от банков. Когда побеждаете на тендере то звонят бесконечное число банков и посредников выдающих банковские гарантии. И с каждым годом звонков всё больше, и с каждым годом ситуация всё хуже. Крупный и средний бизнес может указать входящий номер секретаря и ничего не делать, а ИП и микробизнес обычно не знают что такое произоёдет и указывают личные мобильные телефоны.

Но виновата в этом не открытость данных, потому что контакты берут далеко не только ЕГРЮЛ и реестра госконтрактов к примеру. Часто контакты компании выигрывающей тендер собраны заранее из десятков разных источников включая сайт и ещё десятки других источников.

Что делать? Значительно упрощать заявления о телефонном спаме и ужесточать наказание за массовый спам. И да, всё это технически вполне возможно, спам замечательно умеют отслеживать Truecaller и аналогичные продукты Яндекса и Касперского. Казалось бы что мешает ФАС России (отвечают за регулирование рекламы) и Роспотребнадзору (отвечают за регулирование рынка потребителей) и Банку России (регулируют банки) взяться за спамеров со всем пристрастием хотя в кооперации с коммерческими сервисами которые такой спам умеют ловить? Я вот не знаю что мешает, а пока самое разумное что можно сделать - это не указывать свой личный телефон если вы зарегистрировали ИП или выигрываете тендер. Лучше купите отдельную SIM карту и готовьтесь к шквалу звонков.

Ссылки:
[1] https://www.facebook.com/ivanova.sofya/posts/5455743684443717

#opendata #spam
556 viewsIvan Begtin, edited  07:30
Открыть/Комментировать
2021-02-27 12:48:16 Всем привет!

1-6 марта Инфокультура отметит Международный День открытых данных 2021.

Накануне Дня открытых данных, с 1 по 5 марта, проведем серию практических мастер-классов по работе с открытыми данными в онлайн. Приглашаем участвовать всех желающих

— 1 марта, 18:00, мастер-класс дата-журналиста Алекся Смагина «Вскрываем декларации. Как при помощи регулярных выражений привести Word’овскую табличку к пригодной для анализа форме».

— 2 марта, 18:00, мастер-класс дата-сайентиста Дмитрия Сергеева «О чем говорят депутаты Госдумы? Анализ текстовых данных на Python».

— 3 марта, 18:00, мастер-классы по работе с геопространственными данными и картами для новичков и профи: создание карты с помощью unfolded.ai и затем краткий обзор OS-фреймворков для сетевого анализа городской среды на примере задачи построения изохрон.

— 4 марта, 15:00, мастер-класс по поиску открытых данных от DataMasters.

— 5 марта, 16:00, мастер-класс «Российская официальная статистика: как сделать работу с данными удобнее, а данные — понятнее?».

— 5 марта, 18:00, мастер-класс «Визуализация данных в ObservableHQ». После мастер-класса состоится подведение итогов Moscow Dataviz Awards 2021 — ежегодной международной премии за достижения в области инфографики, визуализации данных и дата-арта (moscowdatavizawards.com).

Программа и регистрация: https://opendataday.ru/msk. Присоединяйтесь!
570 viewsIvan Begtin, 09:48
Открыть/Комментировать
2021-02-26 16:48:31 Появилось свежее приложение ФГИС Аршин для андроид [1] от ФГУП ВНИИМС (Всероссийский научно-исследовательский институт метрологической службы — головной институт в системе Федерального агентства по техническому регулированию и метрологии) .

В приложении 9 трекеров [2] включая Amplitude и Segment по профилированию пользователей на рынке adtech, а также оно запрашивает 47 разрешений на телефоне включая работу с календарём, доступ к контактам, микрофону и камере и доступ к точному местонахождению.

Если судить по названию то теперь во ФГИС нормально включать код передачи третьим сторонам и собирать данные о контактах пользователей?

Вроде Росстандарт не правоохранители, не спецслужба, и с COVID-19 не борется. Радует только то что там число установок всего 50+ и в списке обязательных к предустановке приложений его нет.

Зато политика конфиденциальности (ссылка из профиля в Google Play) [3] "зачётная". Помимо прямого обмана "Not third-party analytics" и "The data is not shared with third parties", оно ещё и юридически ничтожно.

Это всё к вопросу о том как создаются ФГИС в России. Вот так и создаются, на коленке, с передачей данных о пользователях 3-м сторонам, запредельным доступом к устройствам пользователей и весьма невысокой культурой разработки.

Ссылки:
[1] https://play.google.com/store/apps/details?id=com.vniims.arshin
[2] https://reports.exodus-privacy.eu.org/en/reports/166597/
[3] https://drive.google.com/file/d/1DIhOvJhsBEfQzLPWDePwKcU1EbGLioII/view

#government #apps #android
364 viewsIvan Begtin, 13:48
Открыть/Комментировать
2021-02-26 14:09:01 Замечательный свежий проект "Достоевский" [1] на открытых данных и с открытыми данными оформлен как удобный интерфейс над судебной статистикой [2] Судебного департамента РФ.

Данные, относительно, небольшого объёма, но собраны, обработаны, представлены в виде удобного набора данных и наглядной аналитики.

Авторы проекта ОВД Инфо [3] и Data for society [4] соблюли все все правила открытости для таких проектов: сделали аналитику (рассказали историю), опубликовали набор данных и всё под открытой лицензией Creative Commons.

Для полного счастья нехватает разьве что открытого кода, который, также опубликован [5]. Так что проект хороший со всех сторон. А для тех кто работает с правоохранительной системой постоянно это ещё и замечательный источник пищи для размышлений и продумывания действий.

Ссылки:
[1] https://beta.dostoevsky.io/ru/
[2] http://cdep.ru/index.php?id=79
[3] https://ovdinfo.org/
[4] https://d4s.io/
[5] https://github.com/goooseman/dostoevsky-website/

#opendata #projects #courts
417 viewsIvan Begtin, 11:09
Открыть/Комментировать
2021-02-26 10:46:03 Тим О'Релли в колонке в The Information [1] даёт 3 новых определения данных.
Основное:
- данные это новый песок

и дополнительные:
- данные - это кремний
- данные - это оксиконтин (наркотическое средство)

Почему песок? Потому что ценность одной малой песчинки данных и ценность большого их количества различны. Ценность значительно вырастает когда они собраны вместе и перерабатываются в кремний.

Почему кремний? Потому что из кремния состоит 28% земной коры но его добыча требует огромных расходов и индустриальной инфраструктуры.

Почему оксиконтин? Потому что для тех кто эксплуатируют свой доступ к данным они подобны наркотическому привыканию.

Правда в статье есть акценты на том что несмотря на сверхдоходы основных пользователей данных нельзя жестко ограничивать это использование через требования приватности и что выгоды от обмена данными слишком велики. Тезис вполне подходит для хорошей дискуссии.

В целом это не первая попытка переосмыслить что такое данные. Слишком многим не нравится определение что данные это новая нефть или данные это новое электричество или данные это новое золото.

Возможно сравнение данных с кремнием имеет право на существование, но, я всё больше склоняюсь к тому что это та область где уже бессмысленны аналогии. Надо просто обучать природе явления - данных, а образы физического мира для них малопригодны.

Статья доступна за пэйволлом, если кто-то не сможет прочитать, напишите, выложу в её текст в чате

Ссылки:
[1] https://www.theinformation.com/articles/data-is-the-new-sand

#data
261 viewsIvan Begtin, 07:46
Открыть/Комментировать