Original size 816x1200

Аналитика финансовых данных аукционного дома Sotheby

PROTECT STATUS: not protected
4

ОПИСАНИЕ:

Я выбрала для анализа финансовые данные одного главного аукционного дома: Sotheby Для данного проекта я использовала базу данных с сайта Kaggle.com, который включает список художников, цены и времена покупки и продажи картин. https://www.kaggle.com/datasets/amaboh/masterworks-top-10-1m-artists-20182022

тема моей работы — анализ рынка искусства на основе датасета с информацией о покупках и продажах произведений. Целью моего проекта было выявить основные закономерности в ценообразовании, определить факторы, влияющие на стоимость произведений искусства, и, в конечном итоге, построить модель, прогнозирующую цену продажи на основе цены покупки.На протяжении долгого исторического периода искусство всегда находится рядом с человеком, и я решила изучить, насколько же эта связь близка.

big
Original size 2892x1540

ЭТАПЫ РАБОТЫ:

1. Загрузка данных из файла CSV. 2. Выбор интересующих столбцов. 3. Преобразование значений столбцов в числовой формат. 4. Очистка данных от некорректных записей. 5. Агрегация данных. 6. Обработка выбросов. 7. Статистический анализ. 8. Корреляционный анализ. 9. Построение предиктивной модели. 10. Визуализация на каждом этапе работы.

big
Original size 1648x442

Первым шагом было загрузить данные, представленные в виде нескольких CSV-файлов, хранящихся в папке ‘artworks’(файл с данными прикреплен во вложении).

Для этого я использовала библиотеки pandas, numpy, os и glob. С помощью glob я нашел все CSV-файлы в указанной папке. Затем, используя цикл, я прочитала каждый файл в отдельный DataFrame с помощью pd.read_csv () и добавила его в список dfs. Наконец, я объединила все DataFrame’ы из списка dfs в один общий DataFrame под названием df с помощью функции pd.concat ().

ИТОГОВЫЕ ГРАФИКИ:

ФИЛЬТРАЦИЯ И СОРТИРОВКА

Я применила два подхода:

Фильтрация с одним условием: Я отобрала произведения искусства, проданные по цене выше 1 миллиона долларов, и отсортировала их по цене продажи в убывающем порядке. На графике 1 вы видите зависимость цены покупки от цены продажи для этих работ, с цветовой кодировкой по художникам.

Фильтрация по нескольким условиям: Я отобрала работы, проданные по цене выше 500 тысяч долларов, с периодом владения менее 10 лет, и отсортировала их по цене продажи. График 2 демонстрирует среднюю цену продажи по художникам для данной категории работ.

НОВЫЕ ПРИЗНАКИ

Original size 1000x600
Original size 850x547

Отношение цены продажи к цене покупки: Я использовала анонимную функцию для вычисления отношения цены продажи к цене покупки для каждого произведения искусства.

Годовая доходность: Я определила именованную функцию, которая вычисляет годовую доходность инвестиции в произведение искусства, учитывая период владения.

Original size 1652x952

СВОДНЫЕ ТАБЛИЦЫ

0

1.Средняя цена продажи по художникам. 2.Средняя цена продажи по топ-10 художникам и категориям периода владения (тепловая карта). Использование sns.heatmap позволило визуально оценить зависимость средней цены продажи от художника и периода владения. Чтобы тепловая карта была более читаемой, я применила маску для скрытия нулевых значений, и настроила аннотации и цветовую схему. 3. Средние цены покупки и продажи по художникам. 4.Различные статистики (среднее, медиана, количество) по цене продажи по художникам (тепловая карта). 5.Различные статистики (среднее, максимум, медиана, минимум) по ценам покупки и продажи по художникам (тепловая карта).»

ЗАМЕНА ПРОПУСКОВ

Пропуски до обработки: title 0 artist 0 purchase_price 0 sale_price 0 holding_period_years 0 price_ratio 0 annual_return 0 holding_period_category 0 dtype: int64

Пропуски после обработки: title 0 artist 0 purchase_price 0 sale_price 0 holding_period_years 0 price_ratio 0 annual_return 0 holding_period_category 0

Original size 1632x276

УДАЛЕНИЕ ВЫБРОСОВ

Original size 1000x600
Original size 1000x600

Я применила два метода для удаления выбросов:

Метод N стандартных отклонений для одной целевой переменной. Я удалила все значения, находящиеся на расстоянии более 3 стандартных отклонений от среднего.

Метод межквартильного размаха (IQR) для одного предиктора. Я удалила все значения, находящиеся за пределами 1.5*IQR от первого и третьего квартилей. Графики до и после обработки выбросов демонстрируют эффект очистки данных.

0

ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ

Original size 1000x600

Меры центральной тенденции: Я вычислила среднее и медиану цены продажи и визуализировала их на гистограмме

Original size 1000x600

Квартили: Я определила квартили распределения цены продажи и представила их в виде ящика с усами

Original size 1268x547

Я определила самого часто встречающегося художника (моду) и количество уникальных художников в коллекции. Распределение количества работ по художникам представлено на графике

0

КОРРЕЛЯЦИЯ ПИРСОНА

Original size 1000x800

Я вычислила матрицу корреляции Пирсона для своих признаков и визуализировала ее на тепловой карте

Original size 1000x600

Также, я вывела информацию о самой сильной корреляции между признаками. Данная диаграмма рассеяния иллюстрирует связь между двумя признаками с самой сильной корреляцией.

Original size 1656x912

ЛИНЕЙНАЯ РЕГРЕССИЯ

Original size 1000x600

На заключительном этапе я построила модель линейной регрессии для прогнозирования цены продажи на основе цены покупки.

Original size 1654x1480

ИСПОЛЬЗОВАННЫЕ РЕСУРСЫ:

В данном проекте использовались нейросети ChatGPT и DeepSeek для генерации кода и помощи в анализе данных.

Все использованные ресурсы: pandas, chatgpt, DeepSeek, Kaggle.com

ИТОГОВЫЙ КОД ПРОЕКТА:

Аналитика финансовых данных аукционного дома Sotheby
4
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more