Получи случайную криптовалюту за регистрацию!

Big Data, Data Science, и тому подобные базворды сейчас звучат | Pro WEB & IT

Big Data, Data Science, и тому подобные базворды сейчас звучат часто и окружают нас. Сразу вспоминаются Spark, Hadoop и прочие гигантокомбайны. Но на самом деле часть задач можно решать прямо в консоли линукса и для этого понадобятся базовые утлиты шела (ну иногда нужно что-то доставить).

Например, какие задачи можно решать:
- семплирование;
- фильтрация набора записей по какому-то критерию;
- извлечение конкретных колонок либо сортировка по ним;
- замена значений, их формата либо же заполнение пропусков;
- подсчет базовых статистических показателей и операции GroupBy.

Команды на каждый день:
- seq — генерирует последовательность чисел с заданным шагом
- tr — производит простейшую замену символов во входном потоке
- zcat / gzcat / gunzip -c — то же, что cat, но для файлов, сжатых в gzip-архив
- head — выводит несколько (по умолчанию десять) строк с начала файла
- tail — то же самое, только выводит строки не с начала, а n последних
- zgrep — аналог grep для поиска по содержимому файлов в архивах
- uniq — передать на вывод только неповторяющиеся строки
- shuf — делает случайную выборку из переданных на вход строк

И еще куча всего, чего стоит sed и awk

И даже графики можно строить прямо в консоли:

$some_data | awk '{ print $2 "\t" $1 }' | gnuplot -p -e "set term png; set xtic rotate; plot '-' using (column(0)):2:xtic(1) smooth freq with boxes" > plot.png