Главная страница

проект. Проект. Датасета kp all movies csv


Скачать 16.46 Kb.
НазваниеДатасета kp all movies csv
Анкорпроект
Дата14.04.2021
Размер16.46 Kb.
Формат файлаdocx
Имя файлаПроект.docx
ТипДокументы
#194684

# Название проекта:

Предсказание рейтингов фильмов.

# Название команды:

Рекламодатели.

#1. Цель проекта:

Научить нейросеть используя информацию о бюджете, жанре и рейтинге на извесных киноплатформах о вышедших фильмах. предсказывать рейтинг будующих фильмов имея информацию о стране производства, бюджете и жанре.

Использовали информацию с сайта: https://github.com/

# Данные

## 2.1.1.

В датасете находится информация о бюджетах, жанрах, странах производства, о рейтинге и кол-во людей, поставивших рейтинг на извесных киноплатформах(KinoPoisk, IMDB) про вышедшие фильмы.

Название датасета: kp_all_movies.csv

URL: https://raw.githubusercontent.com/miptgirl/kinopoisk_data/master/kp_all_movies.csv

Данный датасет подходит нам, так как в нём содержится информация, с помощью которой мы сможем достигнуть цели проекта.

##2.1.2

Датасет был отредактирован в первую очередь по количеству, в итоге он стал меньше и с ним стало удобнее работать. Также мы убрали ненужные нам столбцы с помощью алгоритма. Если понадобится ещё информация, мы можем загрузить ещё примеров, и с помощью того же алгоритма, он выберет нам только нужные столбцы.

##2.1.3

%matplotlib inline

# импорт библиотек

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from google.colab import drive

drive.mount('/content/drive', force_remount=True)

dataframe = pd.read_csv('/content/drive/Shared drives/Campus_K4/Рекламодатели/films_dataset.csv')

data = pd.read_csv(

'/content/drive/Shared drives/Campus_K4/Рекламодатели/films_dataset.csv',

)

data.sample(10)

features = [

'kp_rating', 'kp_rating_count', 'imdb_rating', 'imdb_rating_count', 'budget'

]

features

dataframe = data[features].dropna()

pd.set_option('float_format', '{:f}'.format)

dataframe.describe(include='all')

import warnings

warnings.filterwarnings('ignore')

# pd.set_option('float_format', '{:f}'.format)

sns.pairplot(data=dataframe);

# 2.2

## Модель.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(

dataframe[['kp_rating', 'imdb_rating']],

dataframe['budget'],

test_size=0.2,

random_state=1

)

len(X_train)

X_train

len(X_test)

X_test

len(y_train)

y_train

len(y_test)

# y_test

from sklearn.neural_network import MLPRegressor

from sklearn.preprocessing import StandardScaler

scaler_x = StandardScaler().fit(X_train)

scaler_y = StandardScaler().fit(y_train.values.reshape(-1, 1))

regressor = MLPRegressor(

hidden_layer_sizes=[1000, 8824],

random_state=1

).fit(

scaler_x.transform(X_train),

scaler_y.transform(y_train.values.reshape(-1, 1))

)

regressor.score(

scaler_x.transform(X_train),

scaler_y.transform(y_train.values.reshape(-1, 1))

), regressor.score(

scaler_x.transform(X_test),

scaler_y.transform(y_test.values.reshape(-1, 1))

)

scaler_y.inverse_transform(

[1.]

)[0]

#3. Интерпретация результатов.

Пришли к тому, что при помощи бюджета можно узнать его будующий рейтинг, но проблема в том, что бывает, что такое правило не рабает, так как некоторые фильмы с малым бюджетом могут получить огромный рейтинг, который не будет равен нашему ответу. Но также, если вы вдруг не гений и не можете создавать лучшие и запоминающиеся фильмы за минимальный бюджет, вам понадобится наша помощь.

#4. Практическое применение.

Если вы вдруг захотите снять ваш первый фильм, но у вас нет спонсоров и богатых дядь, а деньги идут исключительно из вашего кармана,но вы также хотите получить неплохой рейтинг на извесных киноплощадках, то вы можете обратиться к нам.

Вы также можете узнавать зависимость рейтинга от количества проголосовавших людей.

Чтобы развивать наш проект, нам нужно пополнять наш датасет новыми данными про современные фильмы, так как цена денег меняется ежегодно.

## 5.Приложения.

## 5.1 Ссылка на финальный датасет на Google Drive.

https://drive.google.com/file/d/1k_csz1CU_PYvm_DB7gaTg3C1ALEuElHa/view

## 5.2 Список членов команды.

* Александр Моисеев (k4-n112-140@opencu.info)

* Артём Синицин (k4-ke23-249@opencu.info)

* Дарья Баянова (k4-ke7-011@opencu.info)

* Дмитрий Кудряшов (k4-ke1-060@opencu.info)

* Костя Хандрамай (k4-ke23-255@opencu.info)

* Ксения Мартинович (k4-111-108@opencu.info)

* Никита Коврижных (k4-ke23-234@opencu.info)

* Эдуард Баженов (k4-n112-149@opencu.info)

* Галина Кульпина (k4-ke7-018@opencu.info)

* Марина Ильницкая (k4-n112-153@opencu.info)

# Заключение

Рейтинг фильма часто зависит от его бюджета, но также бывают исключения.

# Наставник

Иванов Матвей (dkk-s10@opencu.info)


написать администратору сайта