проект. Проект. Датасета kp all movies csv
Скачать 16.46 Kb.
|
# Название проекта: Предсказание рейтингов фильмов. # Название команды: Рекламодатели. #1. Цель проекта: Научить нейросеть используя информацию о бюджете, жанре и рейтинге на извесных киноплатформах о вышедших фильмах. предсказывать рейтинг будующих фильмов имея информацию о стране производства, бюджете и жанре. Использовали информацию с сайта: https://github.com/ # Данные ## 2.1.1. В датасете находится информация о бюджетах, жанрах, странах производства, о рейтинге и кол-во людей, поставивших рейтинг на извесных киноплатформах(KinoPoisk, IMDB) про вышедшие фильмы. Название датасета: kp_all_movies.csv URL: https://raw.githubusercontent.com/miptgirl/kinopoisk_data/master/kp_all_movies.csv Данный датасет подходит нам, так как в нём содержится информация, с помощью которой мы сможем достигнуть цели проекта. ##2.1.2 Датасет был отредактирован в первую очередь по количеству, в итоге он стал меньше и с ним стало удобнее работать. Также мы убрали ненужные нам столбцы с помощью алгоритма. Если понадобится ещё информация, мы можем загрузить ещё примеров, и с помощью того же алгоритма, он выберет нам только нужные столбцы. ##2.1.3 %matplotlib inline # импорт библиотек import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from google.colab import drive drive.mount('/content/drive', force_remount=True) dataframe = pd.read_csv('/content/drive/Shared drives/Campus_K4/Рекламодатели/films_dataset.csv') data = pd.read_csv( '/content/drive/Shared drives/Campus_K4/Рекламодатели/films_dataset.csv', ) data.sample(10) features = [ 'kp_rating', 'kp_rating_count', 'imdb_rating', 'imdb_rating_count', 'budget' ] features dataframe = data[features].dropna() pd.set_option('float_format', '{:f}'.format) dataframe.describe(include='all') import warnings warnings.filterwarnings('ignore') # pd.set_option('float_format', '{:f}'.format) sns.pairplot(data=dataframe); # 2.2 ## Модель. from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split( dataframe[['kp_rating', 'imdb_rating']], dataframe['budget'], test_size=0.2, random_state=1 ) len(X_train) X_train len(X_test) X_test len(y_train) y_train len(y_test) # y_test from sklearn.neural_network import MLPRegressor from sklearn.preprocessing import StandardScaler scaler_x = StandardScaler().fit(X_train) scaler_y = StandardScaler().fit(y_train.values.reshape(-1, 1)) regressor = MLPRegressor( hidden_layer_sizes=[1000, 8824], random_state=1 ).fit( scaler_x.transform(X_train), scaler_y.transform(y_train.values.reshape(-1, 1)) ) regressor.score( scaler_x.transform(X_train), scaler_y.transform(y_train.values.reshape(-1, 1)) ), regressor.score( scaler_x.transform(X_test), scaler_y.transform(y_test.values.reshape(-1, 1)) ) scaler_y.inverse_transform( [1.] )[0] #3. Интерпретация результатов. Пришли к тому, что при помощи бюджета можно узнать его будующий рейтинг, но проблема в том, что бывает, что такое правило не рабает, так как некоторые фильмы с малым бюджетом могут получить огромный рейтинг, который не будет равен нашему ответу. Но также, если вы вдруг не гений и не можете создавать лучшие и запоминающиеся фильмы за минимальный бюджет, вам понадобится наша помощь. #4. Практическое применение. Если вы вдруг захотите снять ваш первый фильм, но у вас нет спонсоров и богатых дядь, а деньги идут исключительно из вашего кармана,но вы также хотите получить неплохой рейтинг на извесных киноплощадках, то вы можете обратиться к нам. Вы также можете узнавать зависимость рейтинга от количества проголосовавших людей. Чтобы развивать наш проект, нам нужно пополнять наш датасет новыми данными про современные фильмы, так как цена денег меняется ежегодно. ## 5.Приложения. ## 5.1 Ссылка на финальный датасет на Google Drive. https://drive.google.com/file/d/1k_csz1CU_PYvm_DB7gaTg3C1ALEuElHa/view ## 5.2 Список членов команды. * Александр Моисеев (k4-n112-140@opencu.info) * Артём Синицин (k4-ke23-249@opencu.info) * Дарья Баянова (k4-ke7-011@opencu.info) * Дмитрий Кудряшов (k4-ke1-060@opencu.info) * Костя Хандрамай (k4-ke23-255@opencu.info) * Ксения Мартинович (k4-111-108@opencu.info) * Никита Коврижных (k4-ke23-234@opencu.info) * Эдуард Баженов (k4-n112-149@opencu.info) * Галина Кульпина (k4-ke7-018@opencu.info) * Марина Ильницкая (k4-n112-153@opencu.info) # Заключение Рейтинг фильма часто зависит от его бюджета, но также бывают исключения. # Наставник Иванов Матвей (dkk-s10@opencu.info) |