Получи случайную криптовалюту за регистрацию!

Про BI и не только

Логотип телеграм канала @aboutbi_etc — Про BI и не только П
Логотип телеграм канала @aboutbi_etc — Про BI и не только
Адрес канала: @aboutbi_etc
Категории: Технологии
Язык: Русский
Количество подписчиков: 657
Описание канала:

→ все про BI и около него
→ для профессионалов, новичков и бывалых
по вопросам:@alexpbi

Рейтинги и Отзывы

3.33

3 отзыва

Оценить канал aboutbi_etc и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

0

4 звезд

1

3 звезд

2

2 звезд

0

1 звезд

0


Последние сообщения

2023-03-28 18:35:08
Про индексы. Или как ускорить запрос к данным в 100 раз?!

В SQL индексы используются для повышения производительности запросов к базе данных, предоставляя способ быстрого поиска данных в таблице. Существует два основных типа индексов: кластеризованные и некластеризованные.

Кластеризованный индекс определяет физический порядок данных в таблице. Другими словами, строки таблицы хранятся на диске в том же порядке, что и кластеризованный индекс. Таблица может иметь только один кластеризованный индекс, и обычно он создается для столбца первичного ключа таблицы. Благодаря такому физическому порядку кластеризованные индексы часто работают быстрее для запросов диапазона и для извлечения большого количества строк.

Пример создания кластеризованного индекса:
CREATE CLUSTERED INDEX ix_OrderID ON dbo.SalesOrders (OrderID);



Некластеризованный индекс — это отдельная от данных таблицы структура, которая содержит отсортированный список ключевых значений и указатель на соответствующую строку в таблице. Таблица может иметь несколько некластеризованных индексов, и они могут быть созданы для любого столбца (столбцов) таблицы. Некластеризованные индексы полезны для запросов, требующих сортировки или поиска на основе столбцов, не являющихся частью кластеризованного индекса.

Пример создания некластеризованного индекса:
CREATE NONCLUSTERED INDEX ix_TerritoryName ON dbo.Terriroties (TerritoryName);



Таким образом, кластеризованные индексы определяют физический порядок данных в таблице, тогда как некластеризованные индексы обеспечивают отдельную структуру для быстрого поиска данных на основе определенных столбцов. Оба типа индексов могут значительно повысить производительность запросов, но при выборе типа индекса важно тщательно учитывать требования ваших запросов и данные в вашей таблице.

А тут маленький подробный пример, как же работают эти индексы на практике)
111 viewsedited  15:35
Открыть/Комментировать
2023-03-14 17:17:07
Про Python для аналитики.

Python — очень популярный язык для анализа данных благодаря его простоте, универсальности и большому количеству библиотек и инструментов, связанных с данными. Некоторые из ключевых библиотек для анализа данных в Python:

Pandas: самая популярная и мощная библиотека для обработки и анализа данных, предоставляющая структуры данных и функции для работы со структурированными данными, сворачивая их в датафреймы и временные ряды.

Numpy: библиотека для числовых вычислений на Python, обеспечивающая поддержку больших многомерных массивов и матриц, а также математических функций для работы с ними.

Matplotlib: популярная библиотека для создания визуализаций и графиков на Python, включая линейные диаграммы, гистограммы и точечные диаграммы.

Seaborn: библиотека, построенная на основе Matplotlib, которая предоставляет высокоуровневый интерфейс для создания статистических визуализаций.

Scikit-learn: библиотека для машинного обучения на Python, предоставляющая широкий спектр алгоритмов классификации, регрессии, кластеризации и снижения размерности.

Эти и многие другие библиотеки делают Python мощным и универсальным языком для анализа данных, и он широко используется не только для решения повседневных задачах для бизнеса но и в научных кругах.

А тут для новичков решили показать очень простую аналитику на Python.
248 views14:17
Открыть/Комментировать
2023-03-06 19:54:57 Про BI и не только pinned a photo
16:54
Открыть/Комментировать
2023-03-06 19:54:31
Про модели.

Многомерные и табличные (табулярные) модели — это два разных подхода к организации, анализу и хранении данных, но для всех это просто - кубы)

Давайте немного изучим эти типы моделей?!
- Многомерные модели организуют данные в виде многомерного куба с измерениями, представляющими различные измерения данных, такие как: дата, локация или продукт. Затем меры связываются с каждым пересечением измерений.
- Табличные модели, с другой стороны, организуют данные в виде реляционной табличной структуры, похожей на традиционную базу данных.

В многомерных моделях запросы обрабатываются с помощью многомерных выражений (MDX), которые позволяют выполнять сложные запросы, включающие несколько измерений и показателей. Табличные модели, используют выражения анализа данных (DAX) для запросов, которые представляют собой язык на основе формул для создания вычисляемых столбцов и мер.

Многомерные модели лучше подходят для больших объемов данных, поскольку они могут выполнять сложные вычисления и агрегации более эффективно, чем табличные модели. А табличные модели, наоборот, эффективны при использовании небольших объемов данных.

Создать табличную модель быстрее и проще, чем многомерную модель, поскольку они требуют меньше предварительных усилий по моделированию и проектированию.

Табличные модели более гибкие с точки зрения моделирования данных, поскольку они могут поддерживать более широкий спектр структур данных и связей.

А тут мы создали небольшой урок по созданию табличной модели в SSAS.
705 viewsedited  16:54
Открыть/Комментировать
2023-03-01 20:35:17 Про BI и не только pinned a file
17:35
Открыть/Комментировать
2023-03-01 19:57:42
SQL Server Analysis Services (SSAS) — это компонент системы управления реляционными базами данных Microsoft SQL Server, который поддерживает оперативную аналитическую обработку данных (OLAP) и функции анализа данных для BI приложений.

SSAS позволяет пользователям создавать и управлять многомерными структурами данных, известными как аналитические кубы, которые выделяются в измерения и меры. Эти кубы можно использовать для выполнения сложных вычислений и агрегирования больших наборов данных.

SSAS — это мощный инструмент для оперативного анализа и извлечения информации из больших объемов данных.

Далее сравним многомерные и табулярные модели, а после посмотрим, как их создавать с помощью SSAS.
714 viewsedited  16:57
Открыть/Комментировать
2023-02-27 19:49:44 Для тех кому хочется изучить SQL. Ловите крутую книгу. Очень легко и подробно описаны все детали.
682 viewsedited  16:49
Открыть/Комментировать
2023-02-26 16:21:05
Про СУРБД для SQL.

SQL является стандартным языком для взаимодействия с базами данных и поддерживается большинством систем управления реляционными базами данных (СУРБД), такими как: Microsoft SQL Server, MySQL, PostgreSQL, Firebird, Oracle и SQLite.

Описание MS SQL Server:
используется для хранения, извлечения и управления данными для веб-сервисов, сервисов бизнес-аналитики и систем онлайн-обработки транзакций (OLTP).

Основной утилитой для работы с MS SQL Server является - SQL Server Management Studio (SSMS).
Как установить и настроить SSMS можно научиться по видео.

После установки можете попробовать создать подключение к созданному локальному серверу и попробовать создать базу данных и повторить примеры из поста про SQL выше.

Успехов!
804 viewsedited  13:21
Открыть/Комментировать
2023-02-26 16:18:34 Про язык программирования – SQL.

SQL — это язык программирования, используемый для управления реляционными БД (База данных) и управления ими. Он используется для создания БД, таблиц и записей в них, а также для изменения, удаления и запроса данных из БД. Лично мое мнение: в аналитике без знаний SQL или Python - никак, если вы работаете с данными более 1 млн. записей, и не пытайтесь доказать обратное)

Существует 4 типа команд в SQL: DDL, DML, DCL, TCL.

Коротко для чего каждая из них:
DDL (Data Definition Language) – группа команд для создания (CREATE), изменения (ALTER) и удаления (DROP) БД и объектов БД. Объекты БД: таблицы, представления, функции, процедуры и т.д.

- Пример команды для создания базы с названием - salesDB:
CREATE DATABASE salesDB;

- Пример команды для создания таблицы customers в базе данных salesDB с колонками: customerID, customerName, city:
CREATE TABLE customers(
customerID int,
customerName varchar(20) NOT NULL,
city varchar(20) NOT NULL,
);


DML (Data Manipulation Language) – группа команд для управления данными в БД, а именно: извлечения данных (SELECT), добавления записи (INSERT), изменения записи (UPDATE) и удаления записи (DELETE).

- Пример команды для извлечения данных из таблицы customers:
SELECT customerID, customerName, city
FROM customers;


DCL (Data Control Language) - группа команд для выдачи (GRANT) и отзыва (REVOKE) прав на операции с объектами БД, а также для запрета (DENY) использования прав доступа.

- Пример команды для предоставления доступа к таблице customers для пользователя user1:
GRANT SELECT ON customers TO user1;


TCL (Transaction Control Language) – группа команд для определения начала транзакции (BEGIN TRANSACTION), завершения транзакции (COMMIT TRANSACTION), отмены транзакции (ROLLBACK TRANSACTION) и фиксации транзакции (SAVE TRANSACTION).

- Пример команды для начала и завершения транзакции обновления города у покупателя c customerID = 123 в таблице customers:
BEGIN TRAN
UPDATE customers
SET city = ‘Moscow’
WHERE customerID = 123
COMMIT TRAN


Достаточно освоить первые 2 группы, чтобы создать маленький бэкенд для лендингов с опросами/формами записи без регистрации пользователей и далее использовать это в качестве источника для анализа данных с дальнейшим подключением его к системам BI.
А потренировать свои навыки можно тут.

Успехов!
743 views13:18
Открыть/Комментировать
2023-02-23 19:07:08
Про вакансии и требования к ним.

Потратив несколько часов на выгрузку требований из вакансий связанных с аналитикой данных среди топовых компаний в РФ с требованием опыта от 1 до 3 лет. Получилось сделать некий свод требований и опыт по каждому скиллу. Конечно же основными требованиями также является наличие образования (необязательно техническое, лишь 2 из 31 вакансий просят только техническое) и коммуникативные навыки, но мы этот момент опустим т.к. пост про хард скиллы, все же);

- навыки обработки и выгрузки данных;
Тут без этого скилла никак и знание SQL – обязательно! Необходимый уровень – средний (написание сложных запросов с использованием оконных функций, индексы, хранимые процедуры и табличные функции и т.д.). Пост про SQL в печи и будет скоро!
А также обязательно - Power Query, а базовые навыки Python, R и API будет плюсом (так и пишут в 19 из 31)!

- опыт работы с источниками данных:
PostgreSQL, MS SQL, Excel, Access, Oracle, SAP, Google Sheets. (во всех вакансиях)

- знание систем визуализации данных;
Это требование есть во всех проанализированных мною вакансиях. Обязательно практический опыт работы на одном из систем, но основные: Tableau, Power BI, Qlik, DataLens, FineBI и Visiology.

- Excel;
А особняком тут стоит конечно же знание Excel)) Требуют везде!
Обязательно знание сложных функций, немного VBA, Power Pivot.

- Работа с моделями данных;
Знание технологий OLAP и табулярных моделей требуется в 9 из 31. Про них мы позже тоже напишем.

Если же вы обладаете всеми этими навыками, то вы наверняка не пропадете на рынке труда, т.к. вакансий под эти требования на hh.ru более 4 тыс на момент этой публикации.
Ну и конечно же про зарплаты! Они, к сожалению, указаны только в 6 вакансиях из 31 и в среднем от 160 тыс. рублей.
612 viewsedited  16:07
Открыть/Комментировать