
Вводная часть
Для проекта я выбрала базу данных «Top 250 Korean Dramas (KDrama) Dataset» с сайта Kaggle. Это рейтинг из 250 дорам (корейских сериалов), в котором также указаны подробности о жанрах, годах выпуска, производственной студии и оценке зрителей на ресурсе MyDramaList.
Эти данные я искала намеренно, так как эта тема интересна мне лично. Доскональный анализ корейских дорам поможет понять, как за эти несколько лет эта индустрия смогла вырасти до таких огромных масштабов, распространяясь по всему миру. Какие жанры, рейтинги содержания смогли зацепить зрителей наибольше всего, в какие года начался рост индустрии, а также какие режиссеры наиболее часто руководят созданием этих сериалов. Этот анализ поможет в будущем предсказать, насколько та или иная дорама станет популярной.
Я выбрала для анализа несколько графиков, а именно гистограмму, линейный график, столбчатую и круговую диаграммы. Каждый тип был выбран в соответствии с тем, насколько качественно он иллюстрирует те или иные необходимые данные.
Этапы работы
Для начала я загрузила датасет, проверила его, определила типы данных, а также загрузила необходимые библиотеки.
from google.colab import files uploaded = files.upload ()
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns
df = pd.read_csv ('kdrama.csv') df.head ()
df.info ()
Далее для каждого индивидуально, но в целом все строилось на такой схеме.
Сначала был подсчет количества, сортировка, перевод в необходимый формат или выборка необходимых столбцов. Ниже несколько примеров строк, используемых для создания разных графиков.
year_counts = df['Year of release'].value_counts ().sort_index ()
content_ratings = df['Content Rating'].value_counts ()
director_counts = df['Director'].value_counts ().reset_index () director_counts.columns = ['Director', 'Count']
df_exploded = df.explode ('Genre') df_exploded['Rating'] = pd.to_numeric (df_exploded['Rating'], errors='coerce')
При создании гистограммы также понадобилось очистить и заполнить пустые данные в представленном датасете.
df['Genre'] = df['Genre'].fillna ('').astype (str) df['Genre'] = df['Genre'].str.strip () df['Genre'] = df['Genre'].str.split (', ')
Далее шло создание самого графика и его визуализация. Ниже представлен пример из создания линейного графика.
plt.figure (figsize=(12, 6)) plt.plot (year_counts.index, year_counts.values, marker='o', linestyle='-', color='#DB7E27', linewidth=2, markersize=6)
И завершающим этапом стала стилизация графиков под собственные запросы.
plt.title ('Динамика выхода дорам по годам') plt.xlabel ('Год выпуска') plt.ylabel ('Количество дорам') plt.grid (True, linestyle='--', alpha=0.5) plt.xticks (rotation=45) plt.tight_layout ()
Итоговые графики
Подводя итог, по графикам видно, что:
1. Рост индустрии начался в 2010 году, но резкий скачок популярности наблюдается в 2016 году. 2. Самый популярный рейтинг контента — 15+ 3. Ким Ву Шик снял целых пять дорам из списка «250 самых популярных дорам». 4. Драма и романтика почти на равных занимают первые два места по рейтингу зрителей.