Ivan Begtin

Адрес канала:

Категории: Бизнес и стартапы , Технологии

Язык: Русский

Количество подписчиков: 8.02K

Описание канала:

I write about Open Data, Data Engineering, Government Technologies, Privacy and Digital Preservation and other gov and tech stuff
Chat https://telegram.me/begtinchat
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал begtin и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 3

2022-06-24 16:02:08

Полезное чтение о методике JTBD (jobs-to-be-done) для дата-команд [1]

В тексте фокус на ключевых задачах дата команд, в основном в контексте средних-крупных компаний, тем не менее справедливо в любом контексте.

Если Вы работаете в команде работающей с данными как с продуктом - это текст точно про Вашу работу.

Ссылки:
[1] https://locallyoptimistic.com/post/building-more-effective-data-teams-using-the-jtbd-framework/

#readings #data #datateams

538 viewsIvan Begtin, 13:02

Открыть/Комментировать

2022-06-24 13:48:01 Из важного, Microsoft серьёзно пересматривают подход к этике ИИ, о чём пишут у себя в блоге [1], а также анонсируют вторую версию стандарта ответственного ИИ [2].

В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.

И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.

В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.

В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.

Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.

Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz

#ai #dataethics #aiethics #microsoft

762 viewsIvan Begtin, edited 10:48

Открыть/Комментировать

2022-06-24 12:02:06

Postman опубликовали обновление API Platform Landscape [1] с перечнем продуктов и трендов в мире API.

Ключевые тезисы оттуда:
1. Компании переходят к модели API-first
2. Гибридная архитектура и многооблачность
3. API как продукт
4. Взрывной рост продуктов API Gateway
5. Всё больше протоколов для API в активном использовании.
6. Всё больший сдвиг в сторону безопасности доступа к API.

Не все согласятся что экосистема API существует автономна, например, для меня это скорее часть экосистемы работы с данными, а Postman показывают её с выгодной для них стороны там где они лидеры, но, тем не менее, в части описанного, тренды изложены верно и сам обзор полезен.

Ссылки:
[1] https://blog.postman.com/2022-api-platform-landscape-trends-and-challenges/

#api

4.3K viewsIvan Begtin, 09:02

Открыть/Комментировать

2022-06-24 11:31:36 В рубрике интересных наборов данных, VizNet [1], четыре корпуса данных Plotly, ManyEyes, Webtables, Open data portal, собранных из этих источников. По сути VizNet содержит большой срез данных высокого качества из открытого доступа и позволяет проводить исследования по визуализации, анализу, аннотированию и машинному обучению на данных.

Проект создан внутри MIT Media Labs и, например, используется в системе Sherlock [2] для идентификации семантических типов данных.

Ссылки:
[1] https://github.com/mitmedialab/viznet
[2] https://github.com/mitmedialab/sherlock-project

#opendata #datasets

853 viewsIvan Begtin, 08:31

Открыть/Комментировать

2022-06-24 09:21:17 Мало кто думает об архивации чего-бы то ни было как потеряв какие-то очень важные данные или файлы. Личное осознание значимости бэкапов - это часто последствия личного же травматического опыта.

Практические механизмы применяемые в корпоративной среде - это, чаще всего, разного рода инструменты входящие в состав операционной системы. А для СУБД - это чаще генерация дампов баз данных специфичных для конкретной СУБД.

Когда речь заходит об архивации на системном уровне то возникает вопрос стандартов и универсальных спецификаций. А их и то оказывается не так много. У библиотеки Конгресса США есть коллекция форматов рассматриваемых для архивации табличных данных/баз данных [1]․

Почти все они - это форматы обмена данными, такие как XML, JSON, CSV, HDF, CDF, XLS и тд. Рекомендуемыми форматами для данных при этом являются CSV/TSV и SQLite [2].

А вот в Швейцарии разработали и приняли ещё в 2013 году стандарт SIARD, его описание также есть в библиотеке Конгресса [3]. Этот стандарт описывает унифицированный экспорт баз данных не только с точки зрения данных, но и всех связанных объектов, понятий, артефактов и метаданных. Стандарт не самый древний, но ограниченный с самого начала такими СУБД как Oracle, Microsoft SQL Server, MySQL, IBM DB2, Microsoft Access. Тут не то что NoSQL нет, но и нет поддержки облачных СУБД, нет многих популярных баз данных и не только. А сам стандарт с 2015 года практически не развивался.

Что характерно, других универсальных стандартов экспорта/импорта СУБД не существует. Что иногда кажется странным, поскольку в ИТ очень любят разрабатывать собственные спецификации. Например, в Modern Data Stack уже есть множество стандартов описания метаданных в СУБД таких как OpenMetadata [4] и OpenLineage [5] которые довольно сильно пересекаются с SIARD в части метаданных описывающих данные, но не заходят в область непосредственно сохранения контента.

Вопрос о том как сохранять унаследованные данные после закрытия проектов по прежнему открытый. Всё что я могу вспомнить даже в довольно крупных организациях - это положенные на сетевое хранилище дампы с кратким описанием содержания.

Ссылки:
[1] https://www.loc.gov/preservation/digital/formats/fdd/dataset_fdd.shtml
[2] https://www.loc.gov/preservation/resources/rfs/data.html
[3] https://www.loc.gov/preservation/digital/formats/fdd/fdd000426.shtml
[4] https://docs.open-metadata.org/metadata-standard/schemas
[5] https://github.com/OpenLineage/OpenLineage

#databases #digitalpreservation

863 viewsIvan Begtin, 06:21

Открыть/Комментировать

2022-06-23 16:24:26

Продолжается кампания по архивации российских сайтов СМИ, медиа и культурных инициатив

Веб-архивы сайтов доступны для скачивания в формате WARC и открываются в приложении ReplayWeb.page.

Сведения о планах архивации и сохраненных ресурсах доступны в открытой таблице.

Если вы знаете, какой сайт может стать утерянным, сообщите нам об этом с помощью специальной формы.

В это же время в Великобритании в национальной библиотеке проходит выставка «Breaking the News», для которой используются сохраненные новости из веб-архива Великобритании (UKWA). Коллекция «Новости» в UKWA содержит веб-архивы более 2700 новостных сайтов. Туда входят крупные национальные новостные издания — BBC, Guardian, Daily Mail и т.д. Помимо этого собираются веб-архивы тысячи местных новостных сайтов, посвященных жизни отдельных городов и деревень.

Большинство архивов можно просмотреть только в читальных залах библиотек Великобритании, однако есть и те, которые доступны для просмотра онлайн, например, веб-архив сайта Brixton Blog.

950 viewsIvan Begtin, 13:24

Открыть/Комментировать

2022-06-23 12:04:56 YaLM 100B [1] GPT-подобная нейросеть для обработки и создания текста. Доступна под лицензией Apache 2.0 и вчера выложена командой Яндекса на Github.

Авторы заявляют 100 миллиардов параметров, отсюда 100B в названии, и то что модель создавалась на основе 1.7 ТБ текстов и рассчитывалась 65 дней на кластере из 800 видеокарт A100.

Подробнее в статье в Medium [2] и на Habr [3].

Ссылки:
[1] https://github.com/yandex/YaLM-100B
[2] https://medium.com/yandex/yandex-publishes-yalm-100b-its-the-largest-gpt-like-neural-network-in-open-source-d1df53d0e9a6
[3] https://habr.com/ru/company/yandex/blog/672396/

#datasets #gpt #neuralnetworks #ai

1.3K viewsIvan Begtin, 09:04

Открыть/Комментировать

2022-06-23 09:54:35

В качестве регулярного напоминания проект по созданию каталога каталогов данных DataCatalogs [1] созданный командой @infoculture.

В нем собрано описание 263 каталогов данных всех типов и категорий: открытых, закрытых, государственных, общественных, частных и тд., сгруппированных по 115 темам.

Этот сайт создан поверх базы в Airtable которую мы ведем в Инфокультуре и можно предложить туда каталог данных через форму на сайте [2].

У Airtable есть большие достоинства в удобстве моделирования и ведения базы данных вручную, но минусы в проприетарности и невозможности простого построения веб-интерфейса открытыми решениями.

Из незавершённого:
- нет экспорта каталога в открытые данные и выкладкой на сайте или в Github. Проще всего через Github Actions скорее всего
- нет автоматизированного пополнения Awesome Opendata Russia [3], списка ссылок на порталы и ресурсы по открытым данным в России.

Если есть идеи и предложения по развитию этого каталога каталогов, присылайте нам, возьмём в работу.

Ссылки:
[1] https://datacatalogs.ru
[2] https://www.datacatalogs.ru/add-resource
[3] https://github.com/infoculture/awesome-opendata-rus

#opendata #russia #datasets #datacatalogs

1.2K viewsIvan Begtin, 06:54

Открыть/Комментировать

2022-06-23 08:46:41 В рубрике стартапов на данных и связанных с данными

- CloudQuery [1] сервис инвентаризации облачных активов. Это когда у вас серверов и других сервисов много, а управлять ими уже сложно ну или надо хотя бы знать где что находится. Также есть в открытом коде [2]. Подняли $15M инвестиций 22 июня [3]

- Avo [4] система управления аналитикой и прослеживаемостью пользователей. Подняли $5M в 5 раундов, последний раунд в сентябре 2020 г. Дают удобный интерфейс для отслеживания каждого пользователя и с интеграцией с RudderStack, Segment, Posthog и другими инструментами.

- Y42 [5] платформа управления данными с претензией на полный цикл охвата: интеграция, моделирование, визуализация и оркестрация. Всего подняли 33.9M в 2 раунда. Последний раунд в октябре 2021 г.

- Castor [6], стартап по каталогизации данных, получил инвестиций в объёме $23.5M в начале июня [7]. В основном делают акцент на большей понимаемости данных, удобном интерфейсе каталога и тд.

- Immuta [8] разработчики платформы по защите данных с функциями обнаружения чувствительных данных подняли раунд E на $100M [9] инвестиций. Это корпоративный каталог с акцентом на интеграцию со всеми крупнейшими облачными базами данных Snowflake, RedShift, BigQuery и тд. Общий объём привлеченных ими инвестиций $276M

Ссылки:
[1] https://www.cloudquery.io/
[2] https://github.com/cloudquery/cloudquery
[3] https://www.cloudquery.io/blog/cloudquery-raises-15m-series-a
[4] https://www.avo.app/
[5] https://www.y42.com/
[6] https://www.castordoc.com/
[7] https://techcrunch.com/2022/06/07/castor-a-data-catalog-startup-nabs-23-5m-to-expand-its-platform/
[8] https://www.immuta.com
[9] https://www.immuta.com/articles/series-e-funding-announcement/

#startups #data #itmarket

1.0K viewsIvan Begtin, 05:46

Открыть/Комментировать

2022-06-22 17:37:29 В рубрике как это устроено у них портал GovInfo.gov [1] Правительства США. Единый портал раскрытия документов федеральных органов власти, начиная с законов и до всех остальных нормативных и иных распорядительных документов подлежащих обязательному раскрытию.

Например, все документы бюджетов США [2] или официальная экономическая статистика [3] или отчеты конгресса [4].

Все эти данные раскрываются для массовой выгрузки (bulk download) и через API [5].

В России нормативные документы публикуются в нескольких государственных информационных системах, ненормативные публикуются в на сайтах ведомств. Обязательные требования по архивации и централизованному раскрытию всех создаваемых отчетов, статистики, нормативных и иных документов отсутствуют или покрывают далеко не все.

Можно сказать что в России сейчас нет единого портала раскрытия государственных документов.

Ссылки:
[1] https://www.govinfo.gov
[2] https://www.govinfo.gov/app/collection/budget/2022
[3] https://www.govinfo.gov/app/collection/econi/2022/01/1
[4] https://www.govinfo.gov/app/collection/crpt
[5] https://www.govinfo.gov/developers

#opendata #usa #opengov

1.2K viewsIvan Begtin, 14:37

Открыть/Комментировать