2021-03-12 10:27:01
Хочется
Open Source тулзы, которые структурируют все подряд: вебсайты, картинки, аудио, временные ряды, ... То есть на выходе возвращают огромный JSON с кучей полезной информацией. Пусть выдают все, что можно, а пользователь уже сам решит, что ему нужно. Пусть работают долго, зато будет экономить кучу времени на старте. Оформить это все в идеале в виде микросервиса (докер с REST API), чтобы можно было недумая запустить это куда-нибудь крутиться (например, бесплатный Heroku) и сразу пользоваться.
Например, есть ссылка на вебсайт. Тулза на выходе для него выдает кучу фичей:
Скорость скачки, вес страницы, айпишник
Необходим ли доп рендеринг браузером
Исходящие ссылки + их классификация: вот linkedin, вот github, вот facebook
Метаданные, keywords, most freq words in text
Стек технологий?
Для картинки:
Есть ли лицо
Если есть, то предсказать демографию, выдать вектор для измерения похожести с другими юзерами
Есть ли объекты на фото
Метаданные картинки
И это только вершина айсберга, я думаю, списки можно сильно дополнить. Во многих проектах некоторые из этих задач делаются с нуля, что порой отнимает много времени на дебаг, хендлинг ошибок и гугление. Было бы очень полезно иметь инструмент, который бы структурировал данные по-максимому, позволив творцам творить.
663 views07:27