Фильмы из рейтинга TMDB: Анализ данных на HSE Design

Концепция

TMDB — одно из популярных приложений для просмотра фильмов и шоу, основанное на API базы данных фильмов. Это исследование основано на базе, включающей почти тысячу заметок о различных фильмах с несколькими аспектами. Мы анализируем десятилетия кинопроизводства: от растущих бюджетов до колебаний рейтингов, от всплесков популярности до спадов в творчестве. Каждый график здесь — это не просто визуализация, а окно в эпоху, во вкусы аудитории, в эволюцию самой индустрии.

Исходный размер 4060x1065

Вдохновение — фильмы TMDB

Главным вдохновением для оформления исследования и графиков стала сама площадка и фильмы, публикуемые в ней, прекрасные актрисы и вечеринки, которые они могли бы посещать. Я постаралась представить, какими цветами мне откликается фильмография TMDB и выбрала заглавный красный оттенок, как целеустремленный, яркий и интересный цвет, подходящий творческому проекту. Второй цвет — светло-розовый — отлично подошел красному как контрастирующий, на его фоне красный сияет и является центром композиции.

Исходный размер 4060x1065

Мудборд в стиле афтепати

Датасет с информацией про фильмы я нашла на сайте kaggle.com. Там было много баз данных на эту тему, однако в большинстве из них количество строк в таблице приближалось к миллиону, что было бы слишком большим объемом для легкого учебного анализа. Поэтому я выбрала датасет всего на 3211 строк и начала работу с ним. Для анализа и визуализации я выбрала несколько типов графиков: столбчатые, точечные, круговые и гексагональные. Однако изобразить их получилось даже интереснее.

Корректировка датасета

Раз я собиралась анализировать табличные данные, сначала мне нужно было загрузить датасет в директорию, а также скачать несколько библиотек, которые помогут мне в работе с таблицами, графиками, визуализацией и большими числовыми массивами, если потребуется. Так, я скачала pandas, matplotlib, seaborn и numpy первым блоком кода. После этого я вывела на экран первые три строчки таблицы (инд. 0-2) и с помощью функции info проверила типы данных в колонках и наличие пустых данных.

Исходный размер 4273x854

Вторым этапом подготовки я решила привести данные в опрятный и удобный для конструирования в графики вид. Мне очень понравилось, что в таблице год выпуска фильма сохранился в формате год-месяц-день, однако для анализа нужен был только год, слишком точные данные бы усложнили визуализацию, поэтому я создала отдельную колонку с годом выпуска, а предыдущую удалила. Также в строке с оценкой я привела ее значение к округленному до одного знака после запятой — знакомый всем зрителям формат средней оценки.

Исходный размер 4273x854

Визуализация данных

Перед началом работы с графиками я назначила параметры, которые будут работать для каждого из них, так называемый стиль графиков, включающий размер текста, его цвет, а также цвет фона, на котором он располагается.

Исходный размер 4273x1484

С самого начала я решила показать базовую информацию, постоянно сопровождающую сервисы по просмотру фильмов, то есть рейтинг самых популярных фильмов, в этом случае топ-10. Среди данных, предоставленных мне сайтом Kaggle, оказалось, что самый высокий показатель популярности у фильма «Годзилла минус один», а десятое место в свою очередь занимают «Пришельцы».

Исходный размер 3833x2334

Топ 10 популярных фильмов. Столбчатая диаграмма

Исходный размер 4273x1409

После того, как я увидела результаты первого графика, я немного удивилась, поскольку ожидала увидеть фильмы более стабильно-популярные. Далее я решила проанализировать, насколько популярность влияет на среднюю оценку фильма. В целом, после первого графика результат не поразил: популярность дает примерно равномерное распределение оценок, а очень высоко оцененные фильмы имеют крестики внизу оси популярности.

Исходный размер 3833x2334

Зависимость популярности фильма от его рейтинга. Точечная диаграмма (крестики)

Исходный размер 4273x1109

Но разве система оценивания на стриминговых сервисах правильная? Проставляя оценку фильму, зритель часто хочет занизить ее, ведь, возможно, видел что-то лучшее. Задавшись этим вопросом, я построила еще один столбчатый график, в котором фильмы распределяются в категории по оценкам, чтобы понять, какие оценки зрители ставили чаще. оказалось, что зрители не ставили оценок ниже 7, что странно, ведь даже на Кинопоиске можно встретить фильмы с оценкой 4 и около того, а еще одна популярная оценка очень близка к 8, что, как мне кажется, показывает, что зрителям удобнее ставить округленные оценки, поэтому частый выбор будет своим пиком приближаться к натуральному числу.

Исходный размер 3833x2334

Распределение оценок фильмов. Столбчатая диаграмма

Исходный размер 4273x959

В последнем графике я хотела показать отношение между годом релиза, оценкой и количеством фильмов, однако для этого нужно было произвести еще одну визуализацию, которая распределила бы фильмы по годам, а точнее периодам времени по 5 лет. Так я узнала, что с 2005 производство фильмов значительно увеличилось, а также, что, кажется, таблице недостает данных о кинематографе последних лет. Однако это не помешало бы мне в расчетах для последнего графика.

Исходный размер 3833x2334

Распределение по периодам. График-пончик (круговая диаграмма)

Исходный размер 4273x2159

И вот она — вершина исследования. Что же такого произошло со временем и как это связано с количеством выпускаемых фильмов? Для того, чтобы узнать это я построила гексагональный график рассеяния, очень красивый и интересный для рассматривания, ведь он работает практически трехмерно, определяя градиентом дополнительную переменную. С помощью этого графика я выяснила, что самое большое количество фильмов пришло уже в 2010-2020х, однако они не отличаются хорошими оценками. Последняя запись об оценках выше 8.7 была представлена еще до начала нулевых. Повод задуматься о тенденциях в фильмопроизводстве.

Исходный размер 3833x2334

Распределение рейтингов фильмов по годам релиза. Гексагональный график рассеяния

Исходный размер 4273x1559

Описание применения генеративной модели

В данном исследовании я использовала нейросеть только для генерации картинки для обложки проекта. Картинка была сгенерирована с помощью leonardo.ai, а также промпта «In a quiet room filled with pink clouds, a lone viewer explores digital memories through a dreamy interface — where cinema meets data, and stories float in soft surreal space.»

Источник датасета

Ссылка на код и базу данных