

Описание проекта
Для данного проекта был выбран датасет Disney Movies, содержащий информацию о фильмах, выпущенных компанией Disney, с 1937 по 2016 год. Датасет был найден на платформе Kaggle и включает такие параметры, как:
Анализ данных о фильмах Disney представляет собой увлекательную задачу по нескольким причинам:
Виды диаграмм
Для анализа датасета были выбраны следующие типы графиков:
Выбор этих графиков обусловлен их способностью предоставить четкую и информативную визуализацию данных, позволяющую выявить ключевые тренды и закономерности в кассовых сборах фильмов Disney.
Этапы работы
Выбор цветовой палитры для проекта был тщательно продуман и основан на желании отразить суть контента Disney, при этом создавая визуально привлекательные и информативные графики.
Вместо использования стандартных или случайных наборов цветов, я решила создать уникальную палитру на Adobe Color, вдохновленную ключевыми персонажами Disney. Этот подход позволяет установить более глубокую связь между визуализацией данных и брендом Disney, делая графики более узнаваемыми и запоминающимися.
Эти цвета были выбраны не только за их связь с конкретными персонажами, но и за их способность хорошо сочетаться друг с другом, создавая гармоничную и сбалансированную палитру.
Первым шагом был импорт библиотеки, с которыми будет проводиться работа. Далее с помощью библиотеки pandas происходит загрузка датасета и выполнение первичного анализа.
Этот код позволяет увидеть структуру данных, типы столбцов и наличие пропущенных значений.
Были выявлены проблемы с данными:
1. release_date хранится как строка (object) — следует преобразовать в datetime 2. Отсутствующие значения в genre и mpaa_rating
На этапе предобработки были выполнены следующие шаги.
Преобразование столбца release_date в тип datetime:
Заполнение пропущенных значений в столбцах genre и mpaa_rating:
Эти шаги необходимы для корректного анализа данных и построения графиков.
Для стилизации графиков была использована библиотека Plotly, вдохновленная визуальной стилистикой Disney. Был выбран шрифт Liberation Sans для обеспечения читаемости и единообразия. Цветовая палитра была выбрана из узнаваемых и ярких цветов, ассоциирующихся с брендом Disney:
Код для создания и применения шаблона:
Дополнительно, были заданы фиксированные размеры графиков для улучшения их визуального восприятия.
После предобработки данных и стилизации графиков были созданы следующие визуализации.
Линейный график доходов по годам
В качестве декоративного элемента также были добавлены звездочки в точках линейного графика. Это помогло отобразить сказочную атмосферу киноиндустрии Disney.
1. Видно, что с течением времени общий валовой доход фильмов значительно вырос, особенно начиная с 1980-х и 1990-х годов. Это может отражать рост киноиндустрии, увеличение числа фильмов, рост цен на билеты и расширение аудитории.
2. Есть периоды с резкими скачками доходов, что может быть связано с выходом особенно успешных фильмов.
Гистограмма жанров
1. Наиболее популярными жанрами в датасете являются комедии, приключения и драмы. 2. Менее представлены жанры, такие как хоррор, вестерны и документальные фильмы.
Это может говорить о предпочтениях аудитории или о том, какие фильмы чаще всего производились и собирали кассу.
Столбчатая диаграмма MPAA:
1. Фильмы с рейтингом G (для всех возрастов) имеют самый высокий средний доход. 2. Рейтинги PG и PG-13 также показывают высокий средний доход, что говорит о популярности фильмов, доступных широкой аудитории. 3. Фильмы с рейтингом R (ограничение по возрасту) имеют значительно меньший средний доход, возможно из-за более узкой аудитории.
Круговая диаграмма жанров
1. Комедии занимают значительную часть. 2. Приключения и драмы также широко представлены.
Описание применения генеративной модели
Chat GPT — обращения с целью генерации инструкций и рекомендаций по улучшению кода, а также помощь в написании вводной и заключительной части.
Adobe Color — генерация цветовой палитры и ее редактирование на основе загруженного изображения
Заключение
1. Динамика кассовых сборов Disney демонстрирует тенденцию к росту с течением времени, что свидетельствует об устойчивом успехе компании в индустрии развлечений. 2. Распределение фильмов по жанрам неравномерно, при этом наиболее популярными являются анимационные фильмы, приключения и комедии. 3. Средние кассовые сборы фильмов с разными рейтингами MPAA существенно различаются, что может быть связано с целевой аудиторией и возрастными ограничениями.
Проект анализа датасета Disney Movies позволил получить ценные знания о мире киноиндустрии и продемонстрировать возможности визуализации данных с использованием креативного подхода. Уникальная цветовая палитра, вдохновленная персонажами Disney, сделала графики не только информативными, но и эстетически привлекательными, что способствовало лучшему восприятию и запоминанию результатов анализа.