Kali Novskaya

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 6.89K

Описание канала:

Нейросети, искусство, мысли. Поехали!
Разрабатываю LLM и веду команды
chatGPT, GPT-3, GPT-4

▲ Vote (1)

Рейтинги и Отзывы

3.33

3 отзыва

Оценить канал rybolos_channel и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения

2022-08-01 13:51:12

Ручной сбор датасета in the wild

1.0K viewsTatiana Shavrina, 10:51

Открыть/Комментировать

2022-07-31 11:49:07 Сегодня воскресенье, время #female_vocals

Делюсь с вами сокровище мировой музыкальной культуры из Тувы: Сайнхо Намчылак.

Хоомей + джаз = полный авангард!

1.2K viewsTatiana Shavrina, 08:49

Открыть/Комментировать

2022-07-30 19:48:48

Купила на книжном развале. Угадаете, о чем она?

1.4K viewsTatiana Shavrina, 16:48

Открыть/Комментировать

2022-07-30 15:32:44 #про_nlp #nlp #синтез_речи #история_nlp

Хотела вам что-то рассказать образовательное, но настроение слишком несерьезное.
Поэтому сегодня будет пост про моё любимое нецелевое использование речевых технологий — пупы.

Муд утра: RYTP Morrowind

"Там же нет никакого text to speech", — могли бы сказать вы. Но нет, старый синтез речи так и выглядел по сути.
Еще в 2000-х акустический синтез речи осуществлялся двумя способами:
1) либо в виде формантного синтеза по правилам,
2) либо в виде конкатенативного синтеза — и опять с элементами правил.

Последний тип еще называется компилятивным синтезом и состоит в том, чтобы собрать и аккуратно склеить уже готовые акустические образцы речи диктора, которые в совокупности покрывают все акустически значимые типы коартикуляционного взаимодействия звуковых единиц.

Использовались обычно такие типы акустических образцов:
- дифоны (отрезки, которые начинаются в середине одного звука и заканчиваются в середине другого),
- полуслоги,
- слоги,
- фрагменты фонемной размерности (акустические аллофоны)
- и образцы смешанных типов.

Во всех кусочках обязательно сохраняются переходные участки, на которых происходит акустическое взаимодействие звуков.

После склеивания полученная "акустическая основа" подвергается обработке на правилах, чтобы выровнять частоту основного тона, длительность и энергию в склеенных фрагментах. (В пупах этого этапа как раз не происходит, что вы можете наблюдать, слушая обрывистую речь, для которой нужны субтитры. Хотя я выбираю ей наслаждаться)

Такой способ синтеза речи активно использовался довольно долго, и даже породил новые инженерные задачи:
1) какие минимальные кусочки необходимо включать в базу для получения естественного "склеивания"
2) как правилами производить просодическую модификацию и склейку с наименьшими потерями для естественности синтезированной речи.

А как сейчас?
Как обычно бывает, первая проблема потерялась вылечилась удешевлением мощностей и дискового пространства, а вторая сломалась вылечилась deep learning.

Если тема старого синтеза вам интересна, могу посоветовать учебник "Общая фонетика" С.В. Кодзасов, О.Ф. Кривнова. Вот, например, глава из него.
В нем много интересного о том, как был устроен синтез речи в СССР и технологии 2000х для русского языка.

Все, серьезная часть закончилась, присылайте в комменты свои любимые пупы!

12.8K viewsTatiana Shavrina, edited 12:32

Открыть/Комментировать

2022-07-30 15:27:30 Сейчас будет #длиннопост и #шитпост одновременно — новый жанр

1.4K viewsTatiana Shavrina, 12:27

Открыть/Комментировать

2022-07-29 19:36:05

В отпуск!

1.4K viewsTatiana Shavrina, 16:36

Открыть/Комментировать

2022-07-27 12:54:16

Сегодня весь день занимаюсь тем, что порождаю кучу текстов — и случайно выяснила, что по Google Scholar у меня недавно был юбилей: 200 цитирований статей!

1.9K viewsTatiana Shavrina, 09:54

Открыть/Комментировать

2022-07-26 10:52:41 Думала, какую интересную подборку для вас сделать, но в комментах многие темы всплывают сами в ходе обсуждения, и вот:

Подкаст Неопознанный Искусственный Интеллект (НИИ) от издания «Системный Блокъ».

Так вышло, что в середине 2020 это был один из первых подкастов ever, к которым я готовилась, писала себе заметки для интересной беседы и выстраивала тезисы. А когда приехала, пошел сильный дождь, и пришлось перенастраивать весь звук маленькой комнатки, чтобы беседа состоялась.
Сейчас у НИИ вышло 10 выпусков со специалистами из индустрии, и, хотя моей записи 2 года, темы, которые поднимаются в этих беседах — это все те же актуальные вопросы, которые все еще нас занимают в обсуждениях.

Татьяна Шаврина. Как лингвисты делают искусственный интеллект link

Денис Кирьянов. Виден ли конец «нейронного блицкрига»: компьютерные лингвисты между вычислением и теорией link

Давид Дале. Почему искусственный интеллект врет и как его от этого отучить link

Дмитрий Ветров. Что не так с современным машинным обучением? link

Остальные беседы: Яндекс.Музыка

2.4K viewsTatiana Shavrina, 07:52

Открыть/Комментировать

2022-07-25 10:59:38

Употребление терминов "artificial intelligence", "machine learning", "deep learning" во времени по Google NGrams

1.9K viewsTatiana Shavrina, 07:59

Открыть/Комментировать

2022-07-24 21:01:01