Original size 528x730

Визуализация данных

Данные

Я выбрала данные о фильмах с платформы IMDb. Этот датасет содержит информацию о рейтингах фильмов, жанрах, годах выпуска, режиссерах и других характеристиках.

Важность

Эти данные интересны, потому что они позволяют проанализировать, какие жанры фильмов наиболее популярны, как менялись предпочтения зрителей с течением времени и какие режиссеры или годы выпуска лидируют по рейтингам и оценкам.

Виды графиков

1 Столбчатая диаграмма — для сравнения количества фильмов по жанрам или рейтингов фильмов по режиссерам. 2 Линейный график — для анализа динамики среднего рейтинга фильмов по годам выпуска. 3 Круговая диаграмма — для отображения распределения фильмов по жанрам или другим категориям.

Этапы работы

Начальный код import pandas as pd import matplotlib.pyplot as plt import seaborn as sns

Устанавливаем общий стиль для всех графиков

sns.set_style («whitegrid»)

Загрузка данных

df = pd.read_csv ('imdb_top_1000.csv')

Для генерации идей по визуализации и анализу данных я использовала ChatGPT. Вот примеры промитов:

1 Промит: «Какие типы графиков лучше всего подойдут для анализа рейтингов фильмов?»

Ответ: ChatGPT предложил использовать столбчатые диаграммы для сравнения средних рейтингов по жанрам, линейные графики для анализа динамики рейтингов по годам и круговые диаграммы для отображения распределения фильмов по жанрам.

2 Промит: «Какие данные можно собрать и проанализировать для создания проекта по анализу популярности фильмов?»

Ответ: ChatGPT предложил включить в проект следующие данные: Название фильма — основная информация о фильме. Год выпуска — для анализа трендов по годам. Жанр — чтобы определить популярные жанры. Режиссер и актеры — для оценки влияния известных личностей на успех фильма. Рейтинг фильма — средняя оценка на платформах (например, IMDb, Кинопоиск). Кассовые сборы — данные о доходах фильма. Бюджет фильма — для анализа окупаемости. Отзывы

Основной код

1. Столбчатый график: Топ-10 режиссеров по количеству фильмов в топ-1000

#установка размера и выбор данных plt.figure (figsize=(10, 6)) top_directors = df['Director'].value_counts ().head (10) #стилизация графика sns.barplot (x=top_directors.index, y=top_directors.values, palette="Blues_d») plt.title ('Топ-10 режиссеров по количеству фильмов в топ-1000', fontsize=14) plt.xlabel ('Режиссеры', fontsize=12) plt.ylabel ('Количество фильмов', fontsize=12) plt.xticks (rotation=45) plt.tight_layout () plt.show ()

Original size 1000x600

2. Линейный график: Средний рейтинг IMDb по годам выпуска

#установка размера и выбор данных plt.figure (figsize=(14, 6)) yearly_ratings = df.groupby ('Released_Year')['IMDB_Rating'].mean () #стилизация графика sns.lineplot (x=yearly_ratings.index, y=yearly_ratings.values, color='green', marker='o') # Зеленый цвет plt.title ('Средний рейтинг IMDb по годам выпуска', fontsize=14) plt.xlabel ('Год выпуска', fontsize=12) plt.ylabel ('Средний рейтинг IMDb', fontsize=12) plt.xticks (ticks=yearly_ratings.index[: 10], rotation=90) plt.grid (True) plt.tight_layout () plt.show ()

Original size 1280x549

3. Столбчатый график: Топ-10 фильмов с самым высоким рейтингом IMDb

#установка размера и выбор данных plt.figure (figsize=(10, 6)) top_movies = df.nlargest (10, 'IMDB_Rating')[['Series_Title', 'IMDB_Rating']] #стилизация графика sns.barplot (x='IMDB_Rating', y='Series_Title', data=top_movies, palette="Reds_d») # Красная палитра plt.title ('Топ-10 фильмов с самым высоким рейтингом IMDb', fontsize=14) plt.xlabel ('Рейтинг IMDb', fontsize=12) plt.ylabel ('Название фильма', fontsize=12) plt.tight_layout () plt.show ()

Original size 1000x600

4. Круговая диаграмма: Распределение фильмов по жанрам

#установка размера и выбор данных plt.figure (figsize=(8, 8)) genres = df['Genre'].str.split (', ', expand=True).stack () genre_counts = genres.value_counts ().head (10) #стилизация графика plt.pie (genre_counts, labels=genre_counts.index, autopct='%1.1f%%', startangle=140, colors=sns.color_palette («Purples_d»)) # Фиолетовая палитра plt.title ('Распределение фильмов по жанрам (топ-10)', fontsize=14) plt.show ()

Original size 800x800

Проект на Google colab

https://colab.research.google.com/drive/1hoay7hpg9nPh-LLeSVd2HdaJ3aDF3_jE?usp=sharing

Визуализация данных

Nadezhda Lebedeva

data visualization

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...