
Концепция
Для анализа были использованы данные с открытого набора данных IMDb, доступные по адресу https://datasets.imdbws.com/.
Я решила использовать для проекта данные IMDb, поскольку они предоставляют уникальную возможность исследовать и анализировать фильмы с разных точек зрения. Эта база данных актуальна и обширна, содержит подробную информацию о фильмах, их жанрах, рейтингах, годах выпуска, режиссерах, актерах. Все это позволит мне получить интересные и полезные инсайты о результатах работы и развития киноиндустрии.
Типы графиков: 1. Облако слов для названий фильмов 2. Круговая диаграмма для распределения по жанрам 3. Столбчатая диаграмма для режиссеров 4. Точечная диаграмма для детских мультфильмов
Эти виды графиков позволяют наиболее эффективно представить и интерпретировать данные под конкретную задачу, обеспечивая как количественный, так и качественный анализ аспектов киноиндустрии.
Предварительная подготовка
Для стилизации инфографики и создания цветовой палитры я опиралась на фирменные элементы стиля IMDb, указанные на сайте https://brand.imdb.com/imdb

Обработка данных
Для проекта были выбраны следующие файлы с данными:
title.basics.tsv: Содержит основную информацию о фильмах, включая их названия, годы выпуска, продолжительность, жанры. title.crew.tsv и name.basics.tsv : Включает информацию о режиссерах и сценаристах фильмов. title.ratings.tsv: содержит рейтинги фильмов IMDb.
1. Самые частые слова в названиях фильмов
2. Распределение фильмов по жанрам
3. Топ-10 режиссеров по количеству фильмов (рейтинг IMBD 8.0+)
4. Количество фильмов для детей
Подводя итог, выяснилось, что самыми часто встречающимися словами в названиях стали «project», «untitled», «little», «american», «secret», «journey», «family», «documentary» и «christmas». Жанр драмы охватывает 41,0% всех фильмов и является самым распространенным. Режиссер Дилан Веррекия может похвастаться 30+ фильмами с высоким рейтингом (IMDb 8.0+). А количество детских фильмов за последние 10 лет успело как стремительно взлететь в показателях, так и значительно уменьшиться к 2025 году. Это указывает на то, что на данный момент дети не являются приоритетной аудиторией для киноиндустрии.
Описание применения генеративной модели
Обложка Recraft https://www.recraft.ai/projects prompt: a large golden IMDb logo The logo is surrounded by movie stills
Для редактирования кода и стилизации графиков, а также поиска и исправления ошибок был использован Open Ai 4.0 https://chatgpt.com/c/67dc19b2-d0a0-800e-8b35-038b811f1911