Получи случайную криптовалюту за регистрацию!

Ivan Begtin

Логотип телеграм канала @begtin — Ivan Begtin I
Логотип телеграм канала @begtin — Ivan Begtin
Адрес канала: @begtin
Категории: Бизнес и стартапы , Технологии
Язык: Русский
Количество подписчиков: 8.02K
Описание канала:

I write about Open Data, Data Engineering, Government Technologies, Privacy and Digital Preservation and other gov and tech stuff
Chat https://telegram.me/begtinchat
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал begtin и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения 2

2022-08-26 17:23:27 Подборка свежего чтения про работу с данными и не только:
- The Rise of Data Contracts [1] текст о важности контрактов по работе с данными (контракт - это договоренность поставщиков и потребителей данных о существенных условиях вроде обратной совместимости, итеративности изменений и тд.)․ Можно было бы поиронизировать что молодежь открыла для себя contract programming, но хорошо что открыли и пишут и нужная вещь. Полезно для тех кто не в курсе того как это работает и полезно обновить знания тем кто уже знает.
- Qloo [2] интересный стартап обещающий что могут предсказывать культурные предпочтения пользователей. Называют себя "Cultural AI". Недавно они подняли инвестиций на $15M
- Ziliz [3] стартап по созданию Cloud-native service for Milvus я про Milvus писал ранее - это такая интересная облачная база данных удобная для рекомендательных сервисов и нечёткого поиска. Подняли $60M инвестиций [4] вдогонку к предыдущим $53.
- Apache Hudi vs Delta Lake vs Apache Iceberg - Lakehouse Feature Comparison [5] сравнение трёх платформ для озер данных от стартапа Onehouse. Читать надо с осторожностью, они делают свой сервис на Hudi, так что не стоит доверять без оглядки.
- Why Apache Iceberg will rule data in the cloud [6] чтобы иметь другую картину в сравнениях озер данных, альтернативный взгляд с позиции преимуществ Iceberg. Но лучше выберите любое и пробуйте, пробуйте, пробуйте пока не набьёте шишек.
- Professional Pandas: The Pandas Assign Method and Chaining [7] для тех кто уже всё про pandas знаете и хочет поизучать более сложные техники на базе pandas. Конкретно здесь про пользу метода assign и итоговые результаты.

Ссылки:
[1] https://dataproducts.substack.com/p/the-rise-of-data-contracts
[2] https://qloo.com/
[3] https://zilliz.com
[4] https://zilliz.com/news/vector-database-company-zilliz-series-b-extension
[5] https://www.onehouse.ai/blog/apache-hudi-vs-delta-lake-vs-apache-iceberg-lakehouse-feature-comparison
[6] https://www.infoworld.com/article/3669848/why-apache-iceberg-will-rule-data-in-the-cloud.html
[7] https://ponder.io/professional-pandas-the-pandas-assign-method-and-chaining/

#data #readings #datatools #startups
1.0K viewsIvan Begtin, 14:23
Открыть/Комментировать
2022-08-26 14:21:33 Белый дом (США) опубликовал меморандум об обязательном оперативном раскрытии результатов научных исследователей финансируемых из федерального бюджета США [1] [2].

К середине 2023 года все федеральные органы власти должны обновить свои планы по открытию доступа и обмене данными, а с 31 декабря 2025 года результаты всех научных исследований должны публиковаться в открытом доступе.

От себя добавлю что портал открытых данных в США data.gov - это, во многом, портал раскрытия научных данных такими ведомствами как НАСА, геологической службой США и ещё рядом органов власти, но он не был приспособлен к раскрытию именно научных данных, например, он не присваивает DOI, не даёт публиковать данные под эмбарго и тд.

Поэтому этот меморандум имеет большое значение и интересно будут ли в США создавать отдельный национальный портал открытого доступа или обновят data.gov.


Ссылки:
[1] https://www.whitehouse.gov/ostp/news-updates/2022/08/25/ostp-issues-guidance-to-make-federally-funded-research-freely-available-without-delay/
[2] https://www.whitehouse.gov/wp-content/uploads/2022/08/08-2022-OSTP-Public-Access-Memo.pdf

#opendata #openaccess #datasharing #usa
1.0K viewsIvan Begtin, 11:21
Открыть/Комментировать
2022-08-26 12:11:47 Instrumentorum minorum linguarum inopia magna sunt

Как активный пользователь разного рода онлайн и не онлайн курсов/занятий/инструментов изучения разговорных языков могу сказать что есть большая нехватка удобных инструментов изучения для языков малых и не хайповых.

Будь то национальные или региональные языки: армянский, казахский, татарский, камбоджийский и тд.

В лучшем случае если ты уже знаешь английский то можешь учить через него какие-то другие языки через Duolingo или аналогичные онлайн сервисы (ling-app и ещё с десяток).

Тут три наблюдения:
- как рыночные продукты для массовой аудитории есть несколько очень удачных продуктов, но для популярных языков в основном
- относительно небольшие страны мало инвестируют в платформы/стартапы/сервисы и в открытый код и данные
- страны с активной языковой политикой, вроде Испании, как раз наоборот инвестируют много

Такое ощущение что здесь есть какая-то бизнес модель упускаемая на этом рынке. Аналоги Duolingo on premise, когда не свой контент, чужой перепродаешь или даёшь платформу в аренду. Может быть курсера для языков.

Или, возможно, более структурированный и адаптированный "усилитель работы репетиторов" которыми сейчас де-факто являются карточки в Memrise к примеру.

Я бы сказал что здесь клиентами могли бы быть государственные институции популяризации национальных языков, но по ощущением это не про бизнес, эти структуры, за исключениями, инертны.

#startups #ideas #thoughts
1.0K viewsIvan Begtin, edited  09:11
Открыть/Комментировать
2022-08-26 10:58:37
У Postman вышел их ежегодный обзор 2022 State of the API Report [1] составленный через опрос разработчиков пользующихся их платформой и схожий с исследованиями JetBrains.

Исследование полезное, много графиков, большая выборка, много чего любопытного. Конечно, с оговоркой что они делают акценты там где их собственный продукт посильнее, а некоторые темы вроде предпочтений по корпоративной интеграции или языки разработки охватывают мало или недостаточно.

Полезно будет, в первую очередь, тем кто выбирает приоритеты в изучении новых технологий.

Ссылки:
[1] https://www.postman.com/state-of-api/how-to-share-the-report/

#api #studies #research #postman
1.1K viewsIvan Begtin, 07:58
Открыть/Комментировать
2022-08-25 11:27:31
Для тех кто проектирует продукты на данных Data Product Canvas [1] нарисованный профессором Leandro Carvalho и доступный всем желающим.

Правда не он первый рисующий подобное. Например, похожий по смыслу и иной по стилю есть от команды Know-Center GmbH, Graz [2] в Австрии.

А если поискать то найдется и ещё. Такие штуки полезны при проектировании продуктов основанных на данных, возможно какие-то даже стоит перевести на русский язык.

Ссылки:
[1]https://medium.com/@leandroscarvalho/data-product-canvas-a-practical-framework-for-building-high-performance-data-products-7a1717f79f0
[2] https://aisel.aisnet.org/bled2020/8/

#itarchitecture #itdesign #data #dataproducts
1.8K viewsIvan Begtin, 08:27
Открыть/Комментировать
2022-08-25 08:17:00 В рубрике как это работает у них Атлас биоразнообразия Австралии [1]

Это большой национальный исследовательский проект по консолидации всех исследовательских данных о флоре и фауне Австралии. Он объединяет данные десятков биобанков страны и на нём опубликовано более 11 тысяч наборов данных [2] большая часть которых - это списки/подборки видов животных и растений по типу и месту.

В атласе собрано уже более 113 миллионов записей и значительная их часть - это материалы собираемые проектами гражданских учёных (citizen scientists) и оцифрованные прямой грантовой поддержкой.

В Австралии существует 644 гражданских проекта сбора информации о животных [3], специальное мобильное приложение BioCollect App [4].

А также ежегодно по грантовой программе можно получить от 20 до 50 тысяч австралийских долларов на оцифровку существующих архивов в рамках Australian Biodiversity Data Mobilisation Program [5]. То есть, если какой-то музей или университет Австралии хочет оцифровать и выложить данные по своей коллекции фотографий кенгуру или записок полевых исследователей, то у них есть возможность претендовать на грант и компенсировать хотя бы часть расходов.

При достаточно простых условиях:
- эти данные уже должны существовать, оплачивается их оцифровка
- они должны быть связаны с национальными приоритетами
- в форме записей о встречаемости видов
- в виде открытых данных и с соблюдением стандарта Darwin Core

Ссылки:
[1] https://www.ala.org.au
[2] https://collections.ala.org.au/datasets
[3] https://biocollect.ala.org.au/acsa#isCitizenScience%3Dtrue%26max%3D30%26sort%3DdateCreatedSort
[4] https://www.ala.org.au/biocollect-mobile-apps/
[5] https://www.ala.org.au/blogs-news/the-ala-australian-biodiversity-data-mobilisation-program/

#opendata #datasets #australia
1.3K viewsIvan Begtin, edited  05:17
Открыть/Комментировать
2022-08-24 14:54:44 В рубрике больших наборов данных, базы событий в Github.

Github - это крупнейшая в мире платформа по работу с открытым кодом, с открытым API и возможностью отслеживать собственные и чужие репозитории кода. Она часто является объектом работы исследователей и существует несколько крупных слепков данных по событиям на платформе.

GHTorrent [1] большой слепок данных за 2019-2020 годы, не обновлявшийся с июля 2020 года. Удобно что сразу можно скачать в формате MongoDB, неудобно неактуальностью

GHArchive [2] база из 20+ событий в Github, в виде файлов дампов для выгрузки и обработки․ Пишут правда что в данных есть существенные пробелы [3].

Копия базы из GHArchive есть в онлайн базе Clickhouse [4] на декабрь 2020 года. Доступ удобнее, но пробелы и устаревание присутствуют.

Альтернативные способы - это использовать открытое API проекта Software Heritage [5] или API самого Github [6]․

Ссылки:
[1] https://ghtorrent.org/
[2] https://www.gharchive.org/
[3] https://medium.com/@jennysahng/how-to-mine-github-data-in-2022-e9c70b3f61d3
[4] https://ghe.clickhouse.tech/
[5] https://archive.softwareheritage.org/api/
[6] https://docs.github.com/en/rest

#opendata #datasets #opensource
1.2K viewsIvan Begtin, 11:54
Открыть/Комментировать
2022-08-24 12:50:34 В рубрике о нас пишут, о нашем исследовании приватности мобильных приложений написали:
- Эксперты оценили долю американских трекеров в RuStore РБК
- «Инфокультура» исследовала приватность мобильных приложений в RuStore Роскомсвобода
- Почти 90% приложений в RuStore имеют встроенный иностранный трекер Runet.News
- В приложениях российского магазина RuStore нашли зарубежные модули слежки Ferra
а также ещё пара десятков СМИ и телеграм каналов.

Не менее важно кто ничего о нём не написал: CNews, Коммерсант, Ведомости и ещё ряд изданий. Как говорится, Бог простит, а я запишу (с) ;)

Это не последнее наше исследование, будут и другие и не только про мобильные приложения.

#research #privacy #mobileapps
1.9K viewsIvan Begtin, 09:50
Открыть/Комментировать
2022-08-24 11:32:48
Wir dokumentieren Deutschland

В рубрике как это работает у них проект bund.de [1] и его основательница Лилит Виттманн. Лилит с волонтерами занимается тем что находит недокументированные государственные API, документируют их и выкладывают документацию на сайт bund.de помогая повторному использованию данных. Фактически выполняют за правительство Германии ту работу которую они должны делать сами. Например, во Франции этим занимается государственная компания Etalab создавшая каталог api.gouv.fr

Из свежих работ Лилит и её команды - это превращение торгового реестра Германии (аналога российского ЕГРЮЛа) в машиночитаемую форму. С 1 августа в Германии он стал "открытым", но лишь частично, не в виде открытых данных. Она пишет у себя в блоге о том как они обрабатывают эти данные и собирают набор данных [2]. В общий доступ они его не выкладывают, но можно заполнить форму и получить их для исследовательских целей (это около 100ГБ).

То что делает Лилит и команда волонтеров - это то что волонтеры в Германии, Великобритании, России и т.д. делали ещё 10 лет назад. До появления национальных порталов открытых данных мы устраивали хакатоны и конкурсы по извлечению данных из открытых источников и превращению их в открытые данные.

Потом стали появлятся госинициативы, но не все из них были достаточно системы чтобы решить вопросы с доступом к данным, поэтому история ходит по кругу.

В прошлом году наша команда собрала более 100 открытых точек подключения к открытым недокументированным API информационных систем в России и сделать аналог bund.de или api.gouv.fr это несложно и быстро. Но время ещё, видимо, не пришло.

Кстати, Лилит Виттманн известна тем что когда-то вычислила секретное германское ведомство с помощью Airtag [3]. Так что боевая девушка, думаю что ещё станет депутатом Бундестага когда-нибудь или сделает политическую карьеру.

Ссылки:
[1] https://bund.de
[2] https://lilithwittmann.medium.com/bund-dev-wir-befreien-das-handelsregister-8168ad46b4e
[3] https://t.me/begtin/3473
#opendata #germany #opengov #api
1.2K viewsIvan Begtin, 08:32
Открыть/Комментировать
2022-08-23 20:37:49
В журнале IEEE Spectum вышел обзор Top Programming Languages 2022 [1] о самых популярных языках программирования по категориям сводного рейтинга (spectrum), вакансий и трендов.

Там же у них методика [2] на основе частотности упоминаемости на различных ресурсах и

Python на 3-м месте в вакансиях и на первом в остальных. Чему я лично рад, поскольку Python вот уже много лет мой любимый язык программирования, не удивительна популярность Java, а вот SQL резко выбился в лидеры востребованности у работодателей.

В том же журнале об этом отдельная статья The Rise of SQL [3], но там даже не упоминают Modern Data Stack, унификацию языка запросов, восхождение dbt и тд. В общем у меня нет ощущения значительной глубины понимания из той заметки, но, их взгляд на происходящее имеет право на существование.

Для сравнения в исследовании JetBrains за прошлый год на первом месте был Javascript [4] и мне лично, наоборот, это не нравится, JS вообще не вызывает у меня симпатии с самого его зарождения. И у JetBrains в исследованиях гораздо популярнее и востребованнее Go и Rust и другие молодые языки разработки.

Поэтому к публикации в IEEE Spectrum надо бы относится с долей осторожности, но изучать и преподавать Python никогда не поздно;)

Ссылки:
[1] https://spectrum.ieee.org/top-programming-languages-2022
[2] https://spectrum.ieee.org/top-programming-languages-methods
[3] https://spectrum.ieee.org/the-rise-of-sql
[4] https://www.jetbrains.com/lp/devecosystem-2021/

#python #languages #programming
1.7K viewsIvan Begtin, 17:37
Открыть/Комментировать