Original size 896x1344

Анализ фильмов 2024 года

PROTECT STATUS: not protected
5

Описание

На втором курсе меня начало интересовать кино — для изучения я выбирала дисциплины, связанные с историей кино, и старалась много смотреть фильмов во внеучебное время. Поэтому при выборе темы для этого проекта я тоже обратилась к интересующей меня теме, и для анализа выбрала датасет о фильмах, вышедших в 2024 году.

Датасет я нашла на сайте kaggle. Датасет содержит в себе 501 фильм, вышедший в 2024 году и имеющий страницу на сайте IMDb.

big
Original size 1539x548

Внешний вид графиков и самого проекта вдохновлен сайтов IMDb, в частности сочетанием черного и желтого. Для разнообразия цветовой гаммы я использовала несколько оттенков желтого.

Для визуализации данных я решила выбрать три вида графиков — столбчатые графики (хорошо отображают числовые значения), точечные графики (ярко демонстрируют не только данные в сравнении, но и количество фильмов) и круговые диаграммы (для удобного отображения процентного соотношения жанров).

Обработка данных

Для начала я импортировала необходимые мне библиотеки matplotlib.pyplot и pandas, после чего считала скачанный csv-файл датасета. Также я указала путь к используемому шрифту.

big
Original size 3120x1792

Для удобной работы мне было необходимо отредактировать датасет: привести строки жанра, каста, оригинального языка, продакшн компании к более простому виду.

Так, с помощью кода я привела строки вида " ['Fantasy', 'Horror', 'Mystery'] " к строкам вида " Fantasy, Horror, Mystery "

Это значительно упростило мне работу и облегчило дальнейший код.

0

Далее мне нужно было привести данные о доходах фильма к одному виду. Я не планировала использовать для анализа данные о бюджете каждого фильма, поэтому приведение чисел к виду миллионов долларов ($M) коснулось только доходов фильма.

Чтобы не запутаться в значениях, я попросила Deepseek написать функцию, которая привела бы значения дохода к одному виду.


промпт нейросети Deepseek: напиши функцию, которая приведет к виду «160» миллионов долларов значения «160», «160K», «160M», «160B»

Original size 2320x2016

Приведя датасет к удобному для работы виду, я сохранила изменения в новом файле, с которым в дальнейшем работала.

Original size 2320x824

Дальше я проанализировала популярность разных жанров в круговой диаграмме.

Несмотря на предыдущую редактуру датасета, над списком жанров пришлось постараться вновь. Некоторые фильмы относятся сразу к нескольким жанрам, поэтому необходимо было разделить список жанров, отделенных друг от друга запятой. C этой задачей я обратилась к нейросети Deepseek, которая подсказала мне, как лучше отредактировать эти данные.


промпт нейросети Deepseek: как преобразовать данные в списке через запятую в отдельные данные в строке?

Original size 3120x900

Далее я привела данные о количестве фильмов разных жанров к процентному виду и выделила в отдельную группу все жанры, число которых было меньше 2%.

Original size 3120x1720

Визуализация данных

0

Круговая диаграмма популярности жанров

Помимо подтвердившихся гипотез о популярности драмы, триллеров и комедии, меня удивило положение хорроров. Нельзя сказать, что они непопулярны, но я однозначно ожидала большего количества фильмов в этом жанре.

0

Точечная диаграмма зависимости рейтинга фильма от выручки

Также было интересно посмотреть, насколько рейтинг фильма отображает успех в прокате. Случилось интересное открытие — фильмы с рейтингом около 9 не принесли огромные богатства своим создателям.

Наибольший успех получили фильмы рейтингом около 6 и 7 — несмотря на то, что невероятных высот в доходе они не достигли, их количество позволяет им занять значительную позицию в доходе.

Самых же больших высот достиг фильм с рейтингом 8, что логично: скорее всего он понравился широкой аудитории.

0

Облако частотности слов в названиях фильмов

С помощью облака частотности слов удалось выяснить, какие слова чаще всего оказываются в названии фильмов. Большой популярностью пользуются слова «Girl', „Man“, „One“, „Love“, „Night“. Популярность этих слов не стала для меня открытием, а вот крупность слов „Night“ и „Murder“ удивила. Все-таки хорроры занимают большую часть в списке фильмов.

0

Столбчатый график количества фильмов выпущенными 20 компаниями

Через датасет удалость проанализировать самые большие компании и количество фильмов, которые они выпустили. В качестве выборки я взяла 20 компаний. Из них лидерами по количеству выпущенных фильмов оказались Paramount Pictures, Netflix и A24 с 11 фильмами у каждого.

Удивили Universal Pictures — у них оказалось всего 4 выпущенных фильма за год.

Как и в случае с круговой диаграммой, здесь я применила функцию explode (), чтобы разделить несколько названий компаний через запятую в одном столбце на несколько строк.

0

Точечный график распределения рейтинга по жанрам фильмов

Самых низких оценок удостоились только фильмы в жанре комедия и хоррор — и, как правило, они действительно самые противоречивые!

В остальном же все жанры удостаиваются примерно одинакового диапазона оценок.

Здесь я применила функцию explode (), чтобы разделить несколько жанров одного фильма, разделенных запятой, на несколько строк.

Описание применения генеративной модели

Deepseek — обращения с целью исправления багов в коде, получения инструкций и вопросы по тому, как правильно преобразовать данные в списке и привести значения дохода к одному виду.

Leonardo AI — генерация изображения для обложки проекта. промпт: create an illustration with vintage camera in black white and yellow colors

Список источников

IMDb 2024 (Movies and TV Shows) / [Электронный ресурс] // Kaggle: [сайт]. — URL: https://www.kaggle.com/datasets/sanadalali/imdb-2024-movies-and-tv-shows (дата обращения: 22.03.2025).

Анализ фильмов 2024 года
5
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more