Системный Блокъ

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 5.67K

Описание канала:

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.
Финалист премии «Просветитель»
sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/
Присоединяйтесь к команде: goo.gl/qbPJuK

▲ Vote (1)

Рейтинги и Отзывы

3.50

2 отзыва

Оценить канал sysblok и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 11

2021-03-09 16:30:01 Посчитать Средневековье: что показывает сетевой анализ византийских писем
#history

В 2012 году австрийские ученые собрали и оцифровали средневековые письменные источники, чтобы провести их количественный анализ. Исследователи проанализировали переписки многих общественных деятелей: учитывали адресатов их писем и авторов писем к ним, а также измеряли частоту и оживленность переписки.

На основе из этих данных были построены графы, в которых отражались разные социальные связи: политические, клановые, матримониальные и даже экономические.

Какие можно сделать выводы

Выяснилось, что в период правления императора Андроника II Палеолога (1282–1328) родственные связи в среде знати в поздневизантийском обществе далеко не всегда означали тесное взаимодействие на политическом поприще. Также оказалось, что чем теснее человек взаимодействовал с императором, тем более «отчужденным» от своих современников он становился. Эта «отчужденность» сохранялась до 1321 г., когда в Византийской империи началась гражданская война.

После воцарения Андроника III (1328–1341) взаимодействий между представителями знати снова стало больше. Однако в конце его царствования снова наблюдалось «разобщение» элиты. Вероятно, это стало одной из причин коллапса империи и нового круга гражданской войны.

Сколько правили монархи в различных государствах

Ученые также сравнили историю Византийской империи с тем, что в то же время происходило в других странах — Китае, Египте, Англии и Венгрии. Выяснилось, что зависимость между быстрой сменой правителя (на следующий год) и факторами неблагоприятных внешних условий (природных катаклизмов, эпидемий и т. д.) — линейная. Чем хуже внешние условия, тем вероятнее, что правитель не удержится на престоле.

https://sysblok.ru/history/ot-razobshhennosti-k-vojne-chto-pokazyvaet-setevoj-analiz-vizantijskih-pisem/

Анна Ясинская

1.3K views13:30

Открыть/Комментировать

2021-03-08 15:10:00 Как нейросеть реставрирует старые советские мультфильмы
#arts #knowhow

Главная проблема старых мультфильмов — низкое разрешение видеозаписи. Нейросеть DeepHD увеличивает изображение и делает его четким. Программа работает не только со старыми пленками, но и с прямыми трансляциями. Задача алгоритма — убрать шумы и искажения, которые возникают в процессе передачи или сжатия картинки.

Работа нейросети

Технология состоит из двух этапов:
• устранение помех — восстановление деталей.
• увеличение изображения — преобразование картинки в карты признаков и уменьшение расстояния между ними.

Программу обучали на картинках высокого качества, которые уменьшали для приближения к действительности. После обработки «дискриминатор» проверял достоверность исходного и улучшенного изображений. Если «подделку» было трудно отличить от «подлинника», результат работы нейросети считался положительным. С помощью новых датасетов, программа научилась различать объекты различных размеров и качеств.

DeepHD в кино

В мае 2018 года нейросеть испытали на нескольких советских фильмах: «Летят журавли», «Судьба человека», «Иваново детство» и др. У героев фильмов улучшились мимика и фактура одежды, исчезли пересветы.

С помощью технологии также улучшили 10 анимационных лент «Союзмультфильма»: «Котенок по имени Гав», «Дюймовочка», «Аленький цветочек» и др. Персонажи стали четче, повысилось качество фонов, вернулись детали, пропавшие при оцифровке. Все картины можно посмотреть на «КиноПоиске».

Альтернативные способы реставрации

Реставраторы-любители считают, что можно обойтись и без DeepHD. Вначале исходник, оцифрованный в Adobe Premier, разбивают на куски. После поправляют цвет, повышают резкость и убирают шумы. Это можно сделать с помощью программ Conbustion или VirtualDubMod. Восстановление займет много времени, но результат будет похож на DeepHD.

https://sysblok.ru/arts/vozvrashhenie-chetkogo-popugaja-kak-nejroset-restavriruet-starye-sovetskie-multfilmy/

Варвара Гузий

1.1K views12:10

Открыть/Комментировать

2021-03-06 12:00:34 Будущее интернета: децентрализация и новый цифровой завет
#society

Интернет — один из сложнейших технологических проектов человечества. И у этого проекта много проблем. Создатель веба Тим Бернерс-Ли даже заявил, что интернет «сломан» и его надо «починить».

Сеть, состоящая из миллиардов устройств, все еще очень централизована. Например, 34% всего интернета хранится на серверах Amazon — то есть зависит от одной конкретной компании из одной конкретной страны. Распределением IP-адресов занимается одна организация (ICANN) на глобальном уровне и еще пять — на региональном. Государства тоже стремятся централизовать доступ в сеть и контролировать его. Достаточно вспомнить «великий китайский фаерволл» или «суверенный Рунет» (пока, к счастью, не очень работающий).

Журнал «Дискурс» @discoursio рассказывает о проектах по децентрализации интернета и освобождении его от государственного и корпоративного контроля. Это не только криптовалюты, блокчейн и deep web. Здесь и системы с распределенным хранением сайтов прямо на компьютерах пользователей, и свободные децентрализованные файлообменники, и mesh-сети вообще без провайдеров.

https://discours.io/articles/social/buduschee-interneta-detsentralizatsiya-i-novyy-tsifrovoy-zavet

1.3K views09:00

Открыть/Комментировать

2021-03-03 17:10:01 История стилометрии: как в разное время люди искали авторов текстов
#nlp

В 1440 году итальянский гуманист Лоренцо Валла написал трактат «О подложности Константинова дара», в котором доказал, что текст этой грамоты — подделка, написанная средневековой латынью VIII века, а не IV века, как предполагалось. До этого «Константинов дар» использовался римскими папами для получения светской власти над Неаполитанским королевством в XV веке.

Эта работа — первый пример определения авторства текста с опорой на сам текст. К сожалению, в ситуациях, когда временного разрыва между текстом и событием нет, такой метод не применим.

Появление стилометрии

В конце XIX веке ученые предположили, что для определения авторства и датировки текстов можно использовать количественные методы, то есть искать в текстах частотные атомарные факты.

Эти идеи развивали Томас Менденхолл, Винцетий Лютославский и Николай Морозов. После появления ЭВМ Фредерик Мостеллер и Дэвид Уоллес, наконец, успешно применили этот метод. Они выяснили, что автором 12 спорных памфлетов из «Записок федералиста» — сборника статей в поддержку утверждения Конституции США — был Джеймс Мэдисон (4-й президент США).

Современная стилометрия

Большинство современных стилометрических исследований опираются на метод Дельты, придуманный Джоном Барроузом (John Burrows) в конце 1990-х — начале 2000-х годов. В его основе лежит подсчет разницы в частотностях между наиболее частотными словами в спорном тексте и тех трудах, чье авторство не вызывает сомнения. Чем меньше дельта, тем выше вероятность, что текст принадлежит ближайшему автору.

Так Джон Барроуз изобрел первый универсальный инструмент для атрибуции текста. Его главный плюс в том, что результаты легко верифицировать экспериментально, а недостаток — что достоверно он работает только на больших текстах, не менее 5–10 тыс. слов.

Некоторые результаты стилометрических исследований

Например, подтвердилось мнение о том, что часть пьесы «Генрих VI» Шекспир писал в соавторстве с Кристофером Марло — одним из тех людей, кому иногда приписывают авторство Шекспира. Некоторые издательства уже указывают, что «Генрих VI» был написан в соавторстве.

Также мы уже писали о других исследованиях и их результатах:
• об определении автора «Сна в красном тереме»;
• об авторстве пьес Мольера;
• об авторстве анонимных статей революционной эпохи;
• о подлинности «Слова о полку Игореве».

https://sysblok.ru/knowhow/stilometrija-kak-v-raznoe-vremja-ljudi-iskali-avtorov-tekstov/

Алина Затонская, Даниил Скоринкин

839 viewsedited 14:10

Открыть/Комментировать

2021-02-27 15:40:00 Опубликована большая электронная коллекция романов
#news #philology

Проект «Дальнее чтение для европейской литературной истории» представил обновленную базу текстов. В каждом собрании или коллекции от 20 до 100 романов. Всего в базе 884 текста на 18 языках.

Коллекция доступна в виде архива Github. В нём есть информация о состоянии сборников, авторах и источниках.

Главная задача проекта — собрать коллекцию из 2500 полных романов и дополнить историю европейской литературы 19–20 веков. Сейчас разработчики оцифровывают и разграничивают неканонические книги, написанные женщинами в 1840–1920-х годах.

https://sysblok.ru/philology/opublikovan-otkrytyj-korpus-evropejskih-romanov/

Варвара Гузий

701 views12:40

Открыть/Комментировать

2021-02-26 16:30:02 Визуализация: самые популярные книги библиотек Москвы
#visualisation

В библиотеках Москвы — более 11 млн книг. Учет всех книг ведется через единую систему, поэтому можно проанализировать, какие из них наиболее популярны среди читателей.

Лидеры в июне—июле 2020 года (по данным data.mos.ru):
• сатирический роман Андрея Волоса «Шапка Шпаковского» — у взрослой аудитории.
• «Конь с розовой гривой» Виктора Астафьева — у детей до 16 лет. Недавно произведение было включено в школьную программу.

В топе-10 самых популярных книг за 2014–2019 годы — современная российская проза. Первое место — «Авиатор» Евгения Водолазкина, второе — «Зулейха открывает глаза» Гузель Яхиной, а третье место делят «Любовь к трем цукербринам» Виктора Пелевина и «Обитель» Захара Прилепина. Из зарубежной литературы в рейтинг попал только роман «Сто лет одиночества» Габриэля Гарсиа Маркеса.

https://sysblok.ru/dataviz/markes-i-shest-let-rossijskih-pisatelej/

Павел Лебедев

706 viewsedited 13:30

Открыть/Комментировать

2021-02-25 20:55:22 Почему искусственный интеллект врет и как его от этого отучить
Седьмой выпуск подкаста Неопознанный Искусственный Интеллект — с Давидом Дале
#podcasts

Давид закончил экономфак, строил модели кредитного скоринга в Альфа-банке, делал проекты в Data Factory «Яндекса», а потом работал над «Алисой». Теперь Давид — фриланс-разработчик чатботов, преподаватель Y-DATA (филиал ШАД Яндекса в Тель-Авиве) и научный сотрудник «Сколтеха».

В этом выпуске

01:24 — Путь датасайнтиста из корпорации во фриланс
06:34 — Как устроен мир разработки чат-ботов и персональных ассистентов
09:06 — Что такое «навыки» чатботов и как их программируют?
11:33 — Можно ли придумать для персональных ассистентов единый протокол
16:39 — Почему всех впечатляет нейросеть GPT-3
22:43 — Как работает GPT-3 и что позволяет ей порождать связный текст
28:00 — Как тестировать интеллектуальность нейросетей
32:54 — Где нужны гибридные подходы к построению интеллектуальных систем
44:34 — Зачем делать студию разработки персональных ассистентов
46:30 — Как устроено преподавание в Y-DATA

Хайлайты выпуска

1. Меньше обучения

Разработчики моделей машинного обучения стремятся урезать этап обучения, иногда почти до нуля. Языковая модель BERT перевернула область NLP, потому что умеет дообучаться с относительно небольшого количества примеров за счет тех знаний, которые она уже накопила. Происходит few-shot learning, когда с нескольких примеров модель может подхватить задачу.

Создатели моделей GPT ещё амбициозней — они хотят сделать zero-shot learning. Модель ни разу не пыталась решить конкретную задачу в процессе обучения (например, задачу машинного перевода), но улавливает эту поставленную задачу на лету с первого примера.

2. Современный рынок диалоговых агентов

Разработка чат-ботов, персональных ассистентов и навыков к ним — растущая область. Особенно в области автоматизации колл-центров, запросов к сервисам покупки билетов и другим масштабируемым сервисам. Но часто чат-боты и навыки — это не про Data Science, а про то, чтобы сделать хороший продукт с диалоговым интерфейсом. Data Science там может и не быть.

Где нас слушать или читать

Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.

Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».

355 viewsedited 17:55

Открыть/Комментировать

2021-02-23 14:57:44 По словам их узнаете их: как вычисляли автора «Беовульфа»
#philology #nlp

Древнеанглийская поэма «Беовульф» — цельная работа одного автора или комбинация нескольких текстов? Чтобы ответить на этот вопрос, ученые проанализировали древнеанглийскую литературу количественными методами компьютерной лингвистики.

I. Что говорят количественные методы?

Анализ пауз

Сначала проанализировали смысловые паузы. Исследователи подсчитали отношение внутристрочных и смысловых пауз в обеих частях «Беовульфа» Получилось, что отношения для первой и второй части находятся в пределах 4% друг от друга. Чтобы подтвердить результаты, их также сравнили с другими древнеанглийскими поэмами и древнегреческим эпосом.

Анализ метра

Затем проанализировали метр «Беовульфа». Для этого использовалась классификация, предложенная Сиверсом, который делит полустроки на пять основных звуковых паттернов. Были исследованы как общая частота пяти типов, так и их последовательность в «Беовульфе». Оказалось, что уровень использования каждого типа остается линейным по всему тексту, без заметного сдвига в районе строки 2300 (конец первой части поэмы).

Анализ сложных существительных

Наконец, рассмотрели распределение сложных (составных) существительных по тексту «Беовульфа» и по всему корпусу древнеанглйской поэзии. Сложные существительные — такие как hran-rád «море» (букв. «дорога китов») и bán-hús «тело» (букв. «дом костей») — типичны для древнеанглийской поэзии.

Для определения авторства особенно важно подсчитать использование гапаксов — слов, встретившееся в некотором корпусе текстов только один раз. Доля гапаксов в текстах разных авторов сильно разнится, а в «Беовульфе» линейна по всему тексту, без изменений в области строки 2300. Небольшая нелинейность около строки 1500 соответствует битве Беовульфа с матерью Гренделя. Это место в поэме изобилует сложными словами.

II. Критика исследования

Воспроизводимость — важное свойство научных экспериментов. Группа ученых попыталась воспроизвести это исследование и пришла к выводу, что все четыре главных характеристики, которые были использованы для «количественного профилирования» древнеанглийской поэзии, либо имеют методологически сомнительные параметры (что ведет к неверной интерпретации результатов атрибуции текстов), либо неоптимальное воплощение, либо и то, и другое.

Критики также нашли серьезные ошибки в коде и никак не объясненные пропуски в данных, а одну часть результатов не получилось воспроизвести. Недостатки методологии ставят под вопрос главные выводы исследования.

https://sysblok.ru/philology/po-slovam-ih-uznaete-ih-kak-vychisljali-avtora-beovulfa/

Ксения Кашлева

538 views11:57

Открыть/Комментировать

2021-02-21 17:54:55 ЕГЭ для нейросетей: какую языковую модель можно назвать «умной»?
#nlp #linguistics

С развитием автоматической обработки языка (NLP) языковые модели решают все более сложные задачи. Нейросеть должна научиться понимать запрос пользователя и выдавать на него правильный и адекватный ответ. Компания OpenAi предложила решение: формулировать любую задачу ИИ как продолжение текста, введенного пользователем. Так можно делать и машинные переводчики, и вопросно-ответные системы, и вообще почти что угодно в NLP.

В языковых моделях слова представлены в виде векторов-эмбеддингов. И если на начальном этапе развития NLP эмбеддинги хранили информацию только о частотных контекстах употребления слов, то сейчас модели создают векторные представления слов с синтаксической и морфологической информацией. Ученые пытаются понять природу эмбеддингов, чтобы разобраться, почему одни модели успешны, а другие нет.

Как устроен тест

SentEval — универсальный набор тестов для оценки качества моделей, разработанный в 2018 году в Facebook. Чтобы пройти «экзамен», нужно ответить на 10 вопросов из 3 концептуальных групп: внешняя, синтаксическая и семантическая информация.
— Задания из первой группы содержат простые вопросы, например, посчитать количество слов в предложении.
— Синтаксические вопросы уже сложнее: языковой модели нужно рассчитать глубину синтаксического древа или перечислить верхнеуровневые составляющие.
— Третья часть использует синтаксические свойства предложения. Модель должна определить время глагола, число подлежащего или ответить, в каких предложениях было заменено слово.

Будущее «экзамена»

Тестирование моделей и изучение их неявных свойств постепенно становится отдельной областью науки. При изучении языковой модели BERT ученые выяснили, что внутри модели можно найти разные уровни «освоения» языка. Нижние слои специализируются на внешней информации, средние уровни лучше справляются с вопросами синтаксической группы, а верхние слои сохраняют информацию для специального задания, на которое обучается модель.

Однако пока эти выводы разделяют не все исследователи — внутреннее устройство нейросетей во многом остается «черным ящиком».

https://sysblok.ru/linguistics/egje-dlja-nejrosetej-kak-testirujut-usvoenie-jazyka-mashinami/

Анна Аксёнова

951 viewsedited 14:54

Открыть/Комментировать

2021-02-20 20:18:39 Измеряя гендерный разрыв: data-исследование про женщин в науке
#society

Как увидеть гендерное неравенство в науке? Зайти на сайт своего университета и посмотреть руководство — там наверняка будет много мужчин и 1-2 женщины на вторых ролях. Но от таких примеров можно отмахнуться, вспомнив ректоров-женщин — например, в МИСиС или РГСУ.

А вот от статистики уже не отмахнешься: всего по России 75% руководителей вузов — мужчины. А академиков-мужчин — 93%. Журнал DOXA @doxajournal и «Важные истории» сделали data-исследование о том, почему в науке так мало женщин и в каких еще цифрах это проявляется.

https://doxajournal.ru/uni/washing-machine-and-glass-ceiling

1.2K views17:18

Открыть/Комментировать