
Вступление
Темой моего проекта стал анализ использованных автомобилей. Анализировать автомобили интересно, потому что это сочетает в себе технологии, дизайн, маркетинг и поведение потребителей. Автомобили отражают тенденции в экономике, инновациях и даже культуре. Через анализ можно понять, почему одни модели становятся культовыми, а другие исчезают с рынка, какие технологии определяют будущее транспорта и как меняются предпочтения водителей в разных странах. Датасет я нашел на сайте Kaggle. Я решил создать визуализации в ярких, но при этом «серьезных» цветах, которые характеризуют автомобили как престижный, удобный, но при этом очень опасный вид транспорта. Сначала я запустил среду разработки, импортировал нужные библиотеки. Потом с помощью matplotlib создал подходящую палитру.
Описание работы


Теперь нужно посмотреть данные, которые находятся в датасете.

В датасете хранятся 7251 наблюдений о машинах и 14 колонок с признаками. Нужно удостовериться, что в данных нет пропусков.

В данных довольно много пропусков в колонке Новая цена. Поэтому этот признак я решил удалить.
Я удалил неинформативный признак и колонку Новая цена, также в данных есть один дубликат. В итоге я убрал пропущенные значения и дубликат. В результате у меня получился датасет из 5975 наблюдений. Этих данных достаточно, чтобы начать их анализировать и создавать графики. В первую очередь я решил узнать топ-5 городов, которые встречаются в выборке. Датасет содержит только индийские города. Столбец Местоположение означает место текущего нахождения автомобиля (где его можно осмотреть и купить)
Город, где на данный момент представлено наибольшее количество автомобилей — Мумбаи. Там находятся 784 автомобиля. Сочетание масштабов города, его экономической активности и развитого автомобильного рынка делает Мумбаи логичным лидером по количеству машин в выборке. Потом мне стало интересно как распределяются по годам автомобили по типу трансмиссии.
С 2010 года наблюдается рост автомобилей с автоматической трансмиссией, однако механика остаётся доминирующей во всех годах. Это может указывать на ценовую чувствительность покупателей и предпочтение более дешёвого обслуживания механических коробок передач. Следующим шагом я решил посмотреть зависимость цены от пробега. Для этого лучше всего подойдет график рассеяния.
При пробеге до 50 000 км цена может быть высокой, но после 100 000 км большинство автомобилей стоят менее 10 лакхов. Это подтверждает, что рынок воспринимает большой пробег как фактор износа и риска, снижая стоимость даже у дорогих моделей. Последним шагом я решил узнать, как распределены доли автомобилей по типу топлива. Для этого графика я выбрал круговую диаграмму.
Большинство автомобилей работает на дизельном топливе (53.5%), бензин занимает второе место (45.4%). Альтернативные виды топлива (CNG и LPG) используются крайне редко. Это говорит о традиционной структуре автопарка, где доминируют дизель и бензин.
Вывод
Анализ рынка подержанных автомобилей показал ряд ключевых закономерностей. Большая часть объявлений приходится на крупные города, особенно на Мумбаи, что объясняется масштабом и экономической активностью мегаполиса. Распределение по типу трансмиссии демонстрирует доминирование механики, хотя интерес к «автомату» заметно растёт в последние годы. Цены на автомобили ожидаемо снижаются с увеличением пробега, что подчёркивает важность этого параметра при формировании стоимости. По типу топлива лидируют дизель и бензин, а доля альтернативных вариантов остаётся незначительной.
Программы, использованные при создании проекта
Я использовал нейросеть ChatGPT чтобы создать обложку. Мой запрос состоял в создании изображения, содержащего тематику автомобилей и абстракцию, а также обложка должна соответствовать цветам палитры.
Для улучшения качества обложки я обратился на сайт https://airbrush.com/ru/image-enhancer
Ссылка на блокнот с кодом и датасет