

ОПИСАНИЕ ПРОЕКТА актуальность и используемые данные
В ожидании грядущей церемонии вручения, вероятно, главной кинематографической премии, каждый, кто более или менее близок к миру экранного искусства, выдвигал свои предположения о будущих обладателях «Оскара». Более того, на номинантов ставили ставки, соревнуясь в количестве угаданных победителей. Я и сама спорила с друзьями.
Но вот в чем вопрос: на чем были основаны предположения кино-критиков и популярных медиа? Можно ли из года в год проследить закономерность, вооружившись которой, будет проще угадать будущих оскароносцев. Чаще всего, выдвигая такие гипотезы, люди основываются на победителях прошлых лет. Это я и решила сделать самостоятельно, проанализировав данные, содержащие в себе различную информацию о прошлых церемониях.

промпт для midjourney: oscar award fashion shoot, hipper realism, proffesional camera, soffit light, minimal details, black and white colors
В своем анализе я использовала две базы данных (Oscar-Winning Directors Analysis и Oscar Best Picture Movies), которые я нашла на сатйе Kaggle, так как посчитала датасеты достаточно содержательными, чтобы сделать определенные выводы. В ходе обработки данных я поставила перед собой следующие вопросы: 1/ Киностудии: какие компании чаще всего получают «Оскар» и как их доля менялась со временем. 2/ Пол и раса режиссёров: насколько гендерные и этнические факторы влияют на вероятность победы. 3/ Продолжительность фильма: существует ли зависимость между длительностью фильма и его шансами на победу. 4/ Рейтинги фильмов: как оценки зрителей и критиков коррелируют с наградами. 5/ Корреляционный анализ: выявление зависимостей между различными числовыми характеристиками номинированных фильмов.
В ходе анализа я посчитала подходящими следующие виды графиков, поскольку нашла их наиболее релевантными и наглядными для визуализации данных: / Столбчатый барчарт (удобен для количественного сравнения) / Линейная диаграмма (используется для наглядной демонстрации корреляции двух факторов) / Тепловая карта (для презентации распределения и выявления новых закономерностей)
В оформлении графиков я использовала строгое сочетание черного и белого, которое у меня ассоциируется с четкостью данных и официальностью самой награды, о которой идет речь. В то же время я не могла не задействовать золотистый оттенок, отсылающий к желанной статуэтке.
ОБРАБОТКА ДАННЫХ подготовительный этап
Для начала необходимо было импортировать требующиеся библиотеки и настроить стиль диаграмм с помощью созданной функции.
Следующим этапом стало считывание баз данных в формате csv и обработка их с помощью методов drop (чтобы убрать лишние строки) и head (чтобы убедиться в корректности).
АНАЛИЗ ПОБЕДИТЕЛЕЙ ПО КИНОСТУДИЯМ
Для начала интересно отследить статистку побед различных крупных кинокомпаний. Наглядно визуализировать ее помогает функция barplot.
// Крупные киностудии, такие как MGM и Fox, лидируют по количеству побед на «Оскаре». // Независимые студии выигрывают реже, но их присутствие в номинациях со временем увеличивается, что может говорить о росте влияния авторского кино.
АНАЛИЗ ВЛИЯНИЯ ПОЛА РЕЖИССЕРА НА ВЕРОЯТНОСТЬ ПОБЕДЫ
Далее визуализировано соотношение женщин и мужчин победителей в номинациях за режиссуру.
// Данные исчерпывающе демонстрируют абсолютное превосходство мужчин в отношении количества статуэток.
АНАЛИЗ ВЛИЯНИЯ ДЛИТЕЛЬНОСТИ ФИЛЬМА НА ВЕРОЯТНОСТЬ ПОБЕДЫ
В следующем графике демонстрируется соотношение победы в фильме с его хронометражом. Используется функция histplot.
// Фильмы-победители чаще всего имеют длительность в диапазоне 110-130 минут. // Короткие фильмы (менее 90 минут) практически не выигрывают «Оскар», что может говорить о предпочтении академии к более развернутым кинолентам. // Длительность фильма не является определяющим фактором для победы, но слишком короткие или чрезмерно длинные фильмы встречаются среди победителей реже.
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ РАЗНЫХ ФАКТОРОВ
С помощью функции heatmap создана таблица, по которой можно выявить определенные закономерности при анализе фильмов-обладателей статуэтки.
Сильная корреляция между «Oscar Year» и «Year of Release» (~0.999): Это ожидаемо, так как год проведения церемонии «Оскар» почти полностью соответствует году выпуска фильмов. Связь между продолжительностью фильма («Movie Time») и рейтингами: Корреляция между «Movie Time» и «IMDB Rating» составляет 0.29, что говорит о небольшой положительной зависимости: длинные фильмы немного чаще получают более высокие оценки зрителей. Однако связь между «Movie Time» и «Tomatometer Rating» отрицательная (-0.19), что может указывать на то, что критики могут оценивать длинные фильмы более критично. Связь между «IMDB Rating» и «Tomatometer Rating» (0.47): Фильмы с более высокими оценками зрителей на IMDb, как правило, также получают более высокие оценки критиков.
Взаимосвязь между числом рецензий и рейтингами: Количество рецензий на Rotten Tomatoes («Tomatometer Count») имеет высокую корреляцию с «Oscar Year» (0.80), что может указывать на растущий интерес аудитории и критиков к фильмам с годами. Количество отзывов критиков («Tomatometer Top Critics Count») также имеет сильную корреляцию с «Oscar Year» (0.84), что может свидетельствовать об увеличении количества кинокритиков, участвующих в оценке фильмов. Низкая связь между «Tomatometer Rating» и победой в «Оскаре»: «Tomatometer Rating» имеет очень слабую корреляцию (0.03) с «Oscar Year», что указывает на то, что высокая оценка критиков не является явным предиктором победы в «Оскаре». Связь между «IMDB Rating» и «Audience Rating» (0.85): Ожидаемая сильная положительная корреляция между рейтингами зрителей на IMDb и аудиторной оценкой на Rotten Tomatoes. Это говорит о том, что зрительские предпочтения на разных платформах схожи.
// Высокий рейтинг на IMDb или Rotten Tomatoes не является гарантом победы в «Оскаре». Корреляция между рейтингами и «Oscar Year» либо слабая, либо отсутствует. Это подтверждает, что академия учитывает не только популярность фильма, но и другие факторы (художественную ценность, социальный контекст, политические аспекты). // Длина фильма имеет умеренную связь с оценками зрителей, но критики могут быть к ним более требовательны. // Количество рецензий и участие критиков растёт с годами, что может говорить о развитии индустрии и увеличении внимания к номинированным фильмам.
АНАЛИЗ ЗАВИСИМОСТИ МЕЖДУ РЕЙТИНГОМ IMDB ФИЛЬМА И ЕГО НАГРАДОЙ
В графике, созданном с помощью функции boxplot, анализируется зависимость между рейтингом IMDb и получением премии «Оскар». Интересно проверить общепринятое мнение, действительно ли фильмы с более высоким рейтингом чаще получают награду.
// Видно, что победители в среднем имеют немного более высокие рейтинги, но разница не критическая. Это означает, что высокая оценка зрителей не всегда гарантирует победу в «Оскаре». // Можно заметить, что крайне низкие рейтинги практически не встречаются среди победителей.
ОБЩИЕ ВЫВОДЫ
// Крупные киностудии, такие как MGM и Fox, исторически доминируют среди победителей, что объясняется их ресурсами, маркетинговыми возможностями и влиянием в индустрии. Однако с развитием независимого кино и стриминговых платформ влияние традиционных студий постепенно снижается. // Гендерное и расовое разнообразие среди победителей остаётся ограниченным, хотя в последние годы наблюдается рост числа победителей среди женщин и представителей различных этнических групп. //Продолжительность фильма имеет умеренное влияние — большинство победителей находятся в диапазоне 110-130 минут, тогда как слишком короткие или чрезмерно длинные фильмы получают награды реже.
// Рейтинги IMDb и Rotten Tomatoes не являются ключевыми предикторами победы — победители «Оскара» имеют лишь незначительно более высокие рейтинги, что подтверждает, что академия руководствуется не только популярностью фильма среди зрителей и критиков, но и другими факторами. // Корреляционный анализ показал слабую связь между рейтингами фильмов и их шансами на победу, а также рост количества рецензий критиков с годами, что может свидетельствовать об увеличении интереса к номинированным фильмам.
Анализ актуален в предверии церемонии 2025 года и помогает определить некоторые тенденции, на которые можно опираться при предсказании будущих победителей.
В работе я также использовала DeepSeek для поиска ответов на некоторые вопросы, возникающие в процессе написания кода, а так же Midjourney для генерации изображений мудборда.