Получи случайную криптовалюту за регистрацию!

Смотришь на сосиску — думай о производстве фарша. Алексей Бере | Мы и Жо

Смотришь на сосиску — думай о производстве фарша. Алексей Березовой недавно опубликовал перевод статьи из рассылки TJCX программиста Тома Кливленда об использовании A/B-тестирования в The New York Times.

Я всячески рекомендую как подписаться на канал Алексея, так и прочесть статью, в обоих местах много интересного. Но поговорить хотел бы о другом.

Статья написана с точки зрения программиста. Он наблюдает явление, собирает данные и подкладывает под замеченные взаимосвязи свою программистскую логику. Например, он делает вывод, что наличие функции A/B-тестирования заголовков означает широкое внедрение этого процесса в редакции.

Затем автор удивляется: почему же они так редко используют инструмент. Он признается, что изначально предполагал, будто редакторы NYT требуют от авторов присылать черновки с несколькими возможными заголовками. Затем автоматизированная система бы определила победителя в первый час. Данные показали, что он ошибается, но сама форма предположения показывает, насколько слабо редакционная логика видна снаружи.

Вывод, который делает автор — возможно, A/B-тестирование мало применяется, потому что газете не так уж нужен кликбейт. Он напоминает, что 62% выручки NYT получает от подписчиков, а кликбейт может отпугнуть платников.

Здесь уже видно фундаментальное непонимание процесса A/B-тестирования с продуктовой точки зрения. Он не обязан быть связан с посещаемостью статьи. При размерах NYT мы вполне можем протестировать статьи, например, на значимые для воронки действия — оформление платной подписки, шеринг, простую подписку на рассылку и так далее.

Мы не знаем, как именно устроен этот процесс в NYT, но благодаря недавно уволившемуся Дональду Макнилу точно знаем, что это «редакторская газета». Автор вряд ли может настоять на заголовке, он зачастую не может настоять на сохранении текста в неприкосновенности (Макнил приводит безумный пример, где редактор изменил упоминание слова vaccines на drugs).

Насколько можно судить, одну треть наблюдаемых тестов можно объяснить правками, вторую — развитием сюжета, требующего уточнения без нового материала, а последнюю — передачей материала по цепочке от редактора к редактору (например, в рамках смены или из отдела в отдел). Автоматизированная система может здесь причудиться только тому, кто хотел бы наблюдать автоматизированные системы больше, чем реальность.

Что я хочу сказать? Всякий раз, когда вы наблюдаете определенное поведение системы извне, бейте себя по рукам, если пытаетесь объяснить его со стороны своего опыта. Качественная аналитика появляется только если вы допускаете, что существует невидимая внутренняя логика. Или внутренняя логика отсутствует вообще. Или она непостижима с имеющимися данными.

Последнее больше всего похоже на кейс, разобранный в TJCX. Данных было маловато, они подавали смешанные сигналы, но не оставлять же проделанную работу без правдоподобного вывода, да?