Original size 1240x1750

Визуализация данных

PROTECT STATUS: not protected
3

Вводная часть

В качестве источника визуализации и анализа была выбрана база данных автомобилей. Источник — GitHub.

Данные: ID_MARK Марка Марка кириллица Популярная марка Страна MODEL_ID Модель Модель кириллица Класс Год от Год до

Наиболее подходящей она является в связи со своей полнотой данных и удобством использования.

Были визуализированы такие типы графиков, как: - Столбчатый - Линейный - Точечный

Этапы работы

Этап 1: Загрузка и первичный осмотр данных

Учитывая опыт работы с библиотеками для построения графиков — баз данных, были импортированы дополнительные Python-библиотеки.

big
Original size 776x158

Этап 2: Обработка пропущенных значений

Здесь мы очистили данные: -Пропущенные значения начала выпуска заменили средним значением. -Пропущенные значения конца выпуска заменили максимальным (наиболее поздним) годом. -Удалили строки без значения «Класс», так как эта информация важна для анализа.

big
Original size 776x104

Этап 3: Настройка визуального стиля

Используем единый стиль оформления инфографики — whitegrid от seaborn, чтобы графики выглядели консистентно и удобно читались.

Original size 777x54

Этап 4: Визуализация данных

Этот график показывает, в каких странах производится наибольшее количество уникальных автомобильных марок.

Original size 1079x208

Здесь мы визуализируем, какие классы автомобилей (A, B, C, D, S и т. д.) наиболее популярны в выборке.

Original size 1078x225

Линейный график показывает, в какие годы в среднем производились автомобили той или иной марки.

Original size 1083x177

Точечный график помогает сравнить, как долго производились модели, и как это связано с их классом.

Визуализация графиков в коде была настроена с использованием Seaborn и Matplotlib.

Для разных графиков использовались различные цветовые палитры Seaborn, чтобы создать визуальное разнообразие и стильность, такие как: «viridis» — является плавной цветовой шкалой, известной своей читаемостью и визуальной привлекательностью, «Set2» — состоит из мягких, приглушенных цветов, идеально подходящих для категориальных данных, «deep» — присваивает уникальные цвета для разных классов автомобилей, выделяя их с помощью разных оттенков.

Использовал tight_layout () для автоматической оптимизации размещения элементов на графике.

Каждый график был масштабирован с использованием параметра figsize, чтобы улучшить визуализацию и обеспечить достаточно пространства для всех элементов.

Для графика с точками (scatter plot), который сравнивает годы начала и конца производства, я использовал параметр hue, который позволяет визуально выделить разные категории (в данном случае — разные классы автомобилей) с помощью разных цветов.

Итоговые графики

Original size 1184x784
Original size 984x584
Original size 1184x784
Original size 984x584

Блокнот с кодом и датасет — https://drive.google.com/drive/folders/15XfzuedKfIWTh1mI-vUYN09MnaDanadZ?usp=drive_link

Использованные источники: GitHub — https://github.com/

Визуализация данных
3
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more