Время Валеры

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 19.71K

Описание канала:

Мне платят за то, что я говорю другим людям что им делать.
Автор книги https://www.manning.com/books/machine-learning-system-design
https://www.linkedin.com/in/venheads

▲ Vote (1)

Рейтинги и Отзывы

2.00

2 отзыва

Оценить канал cryptovalerii и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 10

2022-11-15 12:55:31 Потребовались уволить 11 тысяч человек в Мете, чтобы комп, который они отказались забирать год назад, когда я увольнялся, перестал работать.

7.7K viewsedited 09:55

Открыть/Комментировать

2022-11-14 12:15:58 В этом твиттер треде Dan Luu рассказывает про мудрых руководителей Майкрософта, которые доносили всегда ровно одно сообщение до своих сотрудников. Даже если им была нужна скорость и надежность, они сначала давили на скорость, затем спустя некоторое время давили на надежность. Если просить сразу и то и то, ничего не будет сделано. Отсутствие надежности будут объяснять необходимостью делать быстро, а медленную разработку - необходимостью надежности.

Meanwhile, the only message VPs communicated was the need for high velocity. When I asked why there was no communication about the thing considered the highest risk to the business, the answer was if they sent out a mixed message that included reliability, nothing would get done.

Затем он делает вывод, с которым я согласен полностью и который в очередной раз подтвердился на прошлой неделе - большинство комментаторов в интернете не способны понять конструкцию включающую И. Если в конструкции присутствует XOR (исключающее ИЛИ) - дело 100% гиблое

As noted previously, most internet commenters can't follow constructions as simple as an AND, and I don't want to be in the business of trying to convey what I'd like to convey to people who won't bother to understand an AND since I'd rather convey nuance

На прошлой неделе я выложил очень простое объявление:

We are hiring Data Engineers, Data Scientists and Machine Learning Engineers in the UK, EU, US, and Argentina. Please write to me.

Unfortunately, we do not provide any visa support at the moment.
You can work remotely, but the we can employ people only from country where we have an entity

За 12 часов написало примерно человек 300. Подавляющее большинство из них, безусловно, никакого права на работу не имеет.
- Право на работу есть?
- Нет, но ведь написано Remote
- Работать можно Remote, но ведь куда-то тебя надо нанять. Нанимать мы можем только там, где у нас есть Юр Лицо, список я приложил
- Понял, спасибо.

Кто то после этого еще писал, но у меня есть шенген, или что то подобное

Еще одна категория людей спрашивала есть ли visa support - и если мы наймем человека, это ведь достаточно чтобы получить визу?
Существенная часть людей писала по тем вакансиям, которых не было в посте, например - Data Analyst

Или
- Hi XXX, is it correct to assume that you have a right to work in US/UK/EU?
- No I need visa sponsorship.

С другой стороны, это отличное тестовое задание, не смог прочитать и понять пять строчек - не прошел.
А если смог написать сообщение из разряда: Я Петян, имею право на работу в месте из списка, вот мое резюме - то ты уже прошел первый этап, который отсеял 99% кандидатов

8.4K views09:15

Открыть/Комментировать

2022-11-11 11:38:47 Вышла запись пробного behavioral интервью, проведенного между мной и техническим директором Карпов Курсес.

5.2K views08:38

Открыть/Комментировать

2022-11-10 15:58:44 Вышла небольшая статья-интервью по результатам общения

6.6K views12:58

Открыть/Комментировать

2022-11-09 17:45:06 Интересные вещи происходят в крипто мире

FTX - 3-я по размеру крипто биржа в мире (объем около 20 млрд в день) призналась в отсутствии достаточного количества активов, чтобы покрыть свои обязательства и сейчас находится в процессе поглощения Binance (крупнейшей в мире крипто биржей и одним из первых инвесторов FTX), как же это случилось?

8 дней назад, 2 ноября, на Coindesk была опубликована информация про текущий баланс компании Alameda Research. Оказалось что между Хэдж Фондом, коим является Alameda и FTX есть очень прочная связь. Кроме того, корректность информации была подтверждена СЕО Alameda Кesearch.

В чем суть? Alameda Research основана тем же челом, что и FTX. Alameda была основана раньше и являлась крайнем успешным Хэдж Фондом, который заработал много денег на арбитраже Japanese Bitcoin premium. Затем они пивотнулись в Маркет Мейкеры, как только арбитраж пропал и заработали много денег на различных стратегиях, приобрели репутаци чуваков, которые делают отличную прибыль, но так себе работают с retail client.

Изначально FTX была создана как платформа for traders by traders, где Alameda стала первым Маркет Мейкером на FTX, предоставляя обменнику ликвидность. Их отношения на этом не закончились. Alameda также получила приоритет в своих ордерах, что по факту превращает тебя в идеальную машину по зарабатыванию денег, когда в твоем распоряжении одна из крупнейших бирж.

Это уже плохо, но дальше хуже. FTX стал для Alameda не только источником данных, но и банком. Сложно устоять, если у тебя есть мега выигрышные стратегии, но не хватает денег, а тут рядом крайне прибыльная биржа, которая тоже принадлежит тебе

Опубликованный баланс Alameda показал следующее: 5.8 млрд долларов из 14.6 лежали в токенах FTT, которые принадлежат FTX, практически все остальное лежало в токенах Solana. FTT токены давали следующие преимущества: уменьшение комиссией на торговлю, вывод денег без комиссий, вип доступ и всякие другие плюшки.

1/3 Дохода FTX использовались для покупки и сжигания токенов FTT, при этом ликвидность FTT была очень низкой. То есть, если бы Alameda понадобилось продать FTT на 5.8 млрд, они бы не смогли этого сделать, так у них токенов в 2-3 раза больше, чем их циркулирует суммарно в продаже. Интересно, что и с другими их активами творится тоже самое. Самое забавное, что основатель FTX и Alameda в одном из подкастов цинично описал такую скам стратегию как способо заработка.

Также это позволяет при аудите показать что у нас все хорошо, мы работаем порознь друг от друга, это вполне себе легальные отношения кредитор-заемщик. Единственное что может сломать эту схему, это если вдруг кто то начнет продавать огромное количество FTT и его цена пойдет вниз. Именно это и сделал владелец Binance, CZ.

6 ноября CZ заявил что продаст все FTT что у него есть, а это 500+ млн долларов.

Alameda публично предложили купить FTT over the counter по цене 22 доллара. Довольно странно так делать публично, учитывая что могли бы купить и дешевле. На что CZ отказался, что тоже довольно странно, учитывая что он в итоге продаст за меньшую цену. Очевидно это было сделано, чтобы понизить стоимость активов, что и случилось

Начались продажи, уровень в 22 доллара держался какое то время, но пал в 8 вечера по Нью Йорку, 7 ноября. Утром 8 ноября FTX остановила вывод всех средств с биржи. Alameda и сообщtство вокруг FTX пытались удержать доверие, вкидываю ликвидность в вывод денег, а энергию и силы в мемы.

Опасения что FTX и Alameda повязаны привели к кризису ликвидности и предложению о покупке FTX. Однако зачем было пытаться защищать отметку в 22 доллара? Alameda были должны не только FTX, которые бы простили им все что угодно, но кроме были Voyager и Blockfi. Теперь понятно почему летом они выкупали неудачливых крипто заемщиков, им было необходимо поддержать собственные структуры и у них было достаточно ликвидности чтобы это сделать

С дыркой в миллиарды долларов FTX вынуждены были побежать к Binance за помощью и теперь у нас есть император крипты
Больше подробностей здесь

3.3K viewsedited 14:45

Открыть/Комментировать

2022-11-07 12:49:16 Ходят слухи что у тик тока хорошие рекомендации контента.

Прочитал статью от пацанов из tik-tok Monolith: Real Time Recommendation System WithCollisionless Embedding Table. Как мы знаем, прочитать статью - задача посильная не каждому директору

Решают две проблемы: Первая - разреженность признаков, то есть огромное число комбинацией(интеракции пользователи/видео) и соотвественно относительная редкость появления каждой конкретной комбинации.Вторая - динамичность среды, быстрая смена интересов, трендов и паттернов

Первая проблема часто приводит к коллизиями, так как комбинации путем хитрых манипуляций представляется в виде эмбедингов, а эмбединги хранятся в таблице конечного размера, соответсвенно будут коллизии и не все комбинации получат уникальные эмбединги. Следовательно надо создать collisionless hash table, которая поддерживала бы удаление неактуальных фичей.

Для того чтобы избежать коллизий используется Сuckoo Hashmap - сложность O(1) для просмотров/удалений и средняя амортизация до O(1) на вставку. Для того чтобы снизить размер таблицы - исключают редко встречаемые сущности, кроме того очищают от устаревших сущностей (что такое часто и что такое старый - настраиваемые параметры)

Обучение модели идет в две стадии.
1. Batch - всего 1 проход!
2. Online - ловят на лету, обновляют модель, обновленную модель переодически пушат в лайв

Вот пожалуй и все. Из интересного следующие тонкости:

Online Joiner - признаки и конечный результат действий - несихнронны. Пользователь может купить товар через несколько дней после его показа. Если фичи держать в памяти и ждать результата, никакого железа не хватит, поэтому большую часть грузим на диск, что то держим в памяти, когда приходит результат - смотрим и в диск и в память, затем джойним.

Negative Sampling - очень большой дисбаланс классов приводит к тому что нет смысла брать все негативные семплы. Но если брать не все - пойдет смещение в модели, чтобы это избежать, используют поправку из Nonuniform Negative Sampling and Log Odds Correction with Rare Events Data (хотя можно и проще калибровать, так мне кажется)

Модель тяжелая, весит террабайты, перекидывать всю модель после пары онлайн обновлений - довольно непрактично. К счастью, как мы помним, очень много разреженных признаков, соответсвенно обновлять нужно в каждый отдельный момент времени лишь небольшие их количество, а не всю модель. Те признаки, которые разреженными не являются - часто обновлять не надо, там дрифт происходит медленно

Результаты

Хэши проверяли офлайн, хэш без коллизий победил везде
Data sparsity caused by collisionless embedding table will
not lead to model overfitting
Обновление модели раз в час лучше, чем раз в 5 часов и даже чуть лучше, чем раз в 30 минут (правда не стат значимо) и всегда лучше чем без обновления, на горизонте в 50 часов
Онлайн обновление побило Batch training на 14-18% AUC в аб тесте (странная метрика для аб)

Хорошая инженерная статья и видимо именно поэтому рекомендаци Тик Тока хороши, не поленились и сделали онлайн обновления

Обучали DeepFM - DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

P.S. лично для меня пару Фейсбук - Инстаграм побить тяжело. Но не по контенту, а по рекламе, сложно оценить сколько классных вещей я купил, увидев рекламу на этих площадках

5.2K viewsedited 09:49

Открыть/Комментировать

2022-11-02 12:16:40 Оказывается, недавно вышло вот такое видео, как раз после конференции на Кипре

1.6K views09:16

Открыть/Комментировать

2022-11-01 18:39:58

Исправился. Заменил any на only, может и статью прочитал?

4.9K viewsedited 15:39

Открыть/Комментировать

2022-11-01 12:09:43

Как раз планировал сегодня выложить небольшой разбор статьи про рекомендации от Тик Тока, как наткнулся на пост от директора из Гугла. Зато теперь знаю что статьи он не читает

6.3K views09:09

Открыть/Комментировать

2022-10-28 13:22:37 Я люблю читать и слушать различные вещи, связанные с историей.

Регулярно делаю это на ночь, потому что первые 30-60 минут все равно не могу заснуть

На русском языке мне больше всего понравились подкасты от Bushwacker

В какой-то момент я заметил, что слушаю их по десятому разу. Прослушал я не только его: Родину Слонов, Все Так на Эхо Москвы, Час Истории и т.д., поэтому решил посмотреть, может есть что-то интересное на английском языке.

Сказать что там оказалось гораздо больше материала, это ничего не сказать. Количество, детализированность и разнообразие - несравнимы.

После краткой разведки, выбор пал на Дэна Карлина и его Hardcore History Series. Вообще его подкаст платный, но всегда есть 5-7 бесплатных выпусков. Сейчас слушаю 13-часовой (3 эпизода) экскурс в персидскую империю, затем будет 25 часов (6 эпизодов) про Японию в 37-45 годах.

Затем попробую British History Podcast, 400 эпизодов по 30-60 минут. Начинают с того, что было 70 000 лет назад и уже подбираются ко временам нормандского завоевания. Про них пока ничего не знаю, а Дэна Карлина советую

6.5K viewsedited 10:22

Открыть/Комментировать