星星重新排列：改善IMDb评分系统

本文概述

IMDb评分系统：过滤IMDb的数据
IMDb数据分析
IMDb评级系统替代方案：最终结果

电影观众有时会使用排名来选择要观看的内容。自己做完这些之后, 我注意到许多排名最高的电影属于同一类型：戏剧。这使我认为该排名可能会有某种体裁偏见。

我当时是电影爱好者最喜欢的网站之一, IMDb涵盖了来自世界各地以及任何年份的电影。它的著名排名是基于大量评论。对于此IMDb数据分析, 我决定下载那里可用的所有信息以对其进行分析, 并尝试创建一个新的精确排名, 以考虑更广泛的标准。

IMDb评分系统：过滤IMDb的数据

我能够下载1970年至2019年之间发行的242, 528部电影的信息。 IMDb给我的每一个信息是：等级, 标题, ID, 年份, 证书, 等级, 投票, Metascore, 简介, 运行时, 类型, 毛额和SearchYear。

为了有足够的信息进行分析, 我需要每部电影的评论数量最少, 所以我要做的第一件事是过滤评论少于500条的电影。这产生了33, 296部电影, 在下表中, 我们可以看到其领域的摘要分析：

领域	类型	空计数	意思	中位数
秩	因子	0
标题	因子	0
ID	因子	0
年	int	0	2003	2006
证书	因子	17587
评分	int	0	6.1	6.3
投票数	int	0	21040	2017
元分数	int	22350	55.3	56
概要	因子	0
运行	int	132	104.9	100
类型	因子	0
毛	因子	21415
搜寻年份	int	0	2003	2006

注意：在R中, Factor表示字符串。在原始IMDb数据集中, 由于具有例如数千个分隔符, 因此Rank和Gross就是这种方式。

在开始改善分数之前, 我必须进一步分析此数据集。对于初学者来说, “证书”, ” Metascore”和”总值”字段的空值超过50％, 因此它们没有用。排名本质上取决于评分(要细化的变量), 因此它不包含任何有用的信息。 ID也是一样, 因为ID是每部电影的唯一标识符。

最后, 标题和大纲是短文本字段。可以通过某种NLP技术使用它们, 但是由于文本数量有限, 因此我决定在此任务中不考虑它们。

经过第一个过滤器后, 我剩下的类型, 等级, 年份, 投票, SearchYear和运行时。在流派字段中, 每部电影有一种以上的流派, 以逗号分隔。因此, 为了捕捉具有多种流派的累加效果, 我使用单热编码对其进行了转换。这样就产生了22个新的布尔字段(每种类型一个), 如果电影具有这种类型, 则值为1；否则为0。

IMDb数据分析

为了查看变量之间的相关性, 我计算了相关矩阵。

所有其余的原始列和新类型列之间的相关矩阵。接近零的数字会在网格中产生空白。负相关导致红色点，正相关导致蓝色点。点越大和越黑，相关性越强。 (主要文章中介绍了视觉亮点。)

在此, 接近1的值表示强的正相关, 接近-1的值表示强的负相关。通过这张图, 我做了很多观察：

Year和SearchYear是绝对相关的。这意味着它们可能具有相同的值, 并且两者都具有相同的值, 因此我仅保留Year。
一些字段具有预期的正相关性, 例如：
- 音乐与音乐
- 冒险行动
- 冒险动画
对于负相关也是如此：
- 戏剧与恐怖
- 喜剧与恐怖
- 恐怖与浪漫
与我注意到的关键变量(评级)有关：
- 它与”运行时”和”戏剧”具有积极而重要的关联。
- 它与投票, 传记和历史的相关性较低。
- 它与恐怖有着显着的负相关, 而与惊悚, 动作, 科幻和年份则具有较低的负相关。
- 它没有任何其他重要的相关性。

似乎长剧的收视率很高, 而恐怖短片则没有。我认为-我没有数据可检查-它与产生更多利润的电影类型无关, 例如漫威或皮克斯电影。

在此站点上投票的人可能不是一般人标准的最佳代表。这是有道理的, 因为那些花时间在网站上提交评论的人可能是某种具有更具体标准的电影评论家。无论如何, 我的目标是消除常见电影功能的影响, 因此我尝试消除这一过程中的偏见。

IMDb评分系统中的体裁分布

下一步是分析每种类型在评级中的分布。为此, 我根据原始流派字段中出现的第一个流派创建了一个名为Principal_Genre的新字段。为了可视化, 我制作了一个小提琴图。

再过一次, 我可以看到话剧与高收视率相关, 而恐怖与低收视率相关。但是, 此图还显示了其他得分较高的流派：传记和动画。他们的相关性未出现在先前的矩阵中, 可能是因为这些类型的电影太少了。因此, 接下来我按类型创建了频率条形图。

条形图显示数据库中每种流派的电影数量。喜剧，戏剧和动作的频率大约为6,000或更高；犯罪和恐怖超过2,000；其余的都在1,000以下。

实际上, 传记和动画电影很少, 体育和成人电影也很少。因此, 它们与评级之间的相关性不是很好。

IMDb评级系统中的其他变量

之后, 我开始分析连续的协变量：年份, 投票和运行时间。在散点图中, 你可以看到评级和年份之间的关系。

如我们先前所见, Year似乎与Rating负相关：随着年份的增加, 评级方差也增加, 在较新的电影中达到了更多的负值。

接下来, 我为投票制作了相同的剧情。

在这里, 相关性更加清晰：票数越高, 排名越高。但是, 大多数电影的票数都不多, 在这种情况下, Rating的差异更大。

最后, 我研究了与Runtime的关系。

同样, 我们有一个相似的模式, 但甚至更强大：运行时间越长, 评级越高, 但是运行时间越长的情况就越少。

IMDb评级系统优化

经过所有这些分析之后, 我对正在处理的数据有了更好的了解, 因此我决定测试一些模型以根据这些字段预测收视率。我的想法是, 最好的模型预测结果与实际评分之间的差异会消除共同特征的影响, 并反映出使电影比其他电影更好的特定特征。

我从最简单的模型开始, 即线性模型。为了评估哪种模型效果更好, 我观察了均方根(RMSE)和平均绝对(MAE)误差。它们是用于此类任务的标准措施。而且, 它们与预测变量的范围相同, 因此易于解释。

在第一个模型中, RMSE为1.03, MAE为0.78。但是线性模型假设误差的独立性, 中位数为零以及方差恒定。如果正确, 则”残差与预测值”图应看起来像没有结构的云。因此, 我决定用图形来证实这一点。

我可以看到预测值中最多有7个具有非结构化的形状, 但是在此值之后, 它具有清晰的线性下降形状。因此, 模型的假设很糟糕, 而且我在预测值上有一个”溢出”, 因为实际上, 评分不能超过10。

在以前的IMDb数据分析中, 由于投票数的增加, 评分得到了提高；但是, 这种情况在少数情况下并需要大量选票。这可能会导致模型失真并产生此额定值溢出。为了检查这一点, 我评估了相同模型的结果, 删除了Votes字段。

这样好多了！它具有更清晰, 非结构化的形状, 没有溢出预测值。 “投票”字段还取决于评论者的活动, 并且不是电影的功能, 因此我决定也放弃该字段。删除后的错误在RMSE上为1.06, 在MAE上为0.81-稍差一些, 但没有那么多, 我宁愿有更好的假设和特征选择, 而不是训练集上有更好的性能。

IMDb数据分析：其他模型的工作情况如何？

我要做的下一件事是尝试使用不同的模型来分析哪种模型效果更好。对于每个模型, 我使用随机搜索技术来优化超参数值和5倍交叉验证以防止模型偏差。下表列出了估计的误差：

模型	RMSE	多
神经网络	1.044596	0.795699
助推	1.046639	0.7971921
推理树	1.05704	0.8054783
GAM	1.0615108	0.8119555
线性模型	1.066539	0.8152524
罚线性规	1.066607	0.8153331
KNN	1.066714	0.8123369
贝叶斯岭	1.068995	0.8148692
SVM	1.073491	0.8092725

如你所见, 所有模型的性能都相似, 因此我使用了其中一些来分析更多数据。我想知道每个领域对评级的影响。最简单的方法是观察线性模型的参数。但是为了避免之前的失真, 我对数据进行了缩放, 然后重新训练了线性模型。砝码如图所示。

在这张图中, 很明显, 两个最重要的变量是恐怖和戏剧性, 其中第一个对评分产生负面影响, 第二个对正面产生影响。还有其他领域也会产生积极影响, 例如动画和传记, 而动作, 科幻和年份则产生负面影响。此外, Principal_Genre不会产生重大影响, 因此, 电影具有哪种类型比其主要类型更重要。

使用广义加性模型(GAM), 我还可以看到对连续变量(在本例中为Year)的更详细的影响。

使用广义加性模型的年与s(年)的关系图。 s(年)值遵循一条曲线，从1970年的0.6开始，在2010年触底至0以下，到2019年再次增加至0附近。

在这里, 我们有一些更有趣的东西。的确, 对于最近的电影, 收视率趋于降低, 但效果并不恒定。它在2010年的价值最低, 然后似乎”恢复”。找出那一年之后电影制作中可能发生这种变化的事情会很有趣。

最好的模型是神经网络, 它具有最低的RMSE和MAE, 但是如你所见, 没有模型能达到理想的性能。但是, 就我的目标而言, 这并不是一个坏消息。现有的信息使我对性能进行了一些估算, 但还不够。我无法从IMDb获得其他一些信息, 这些信息使Rating与基于流派, 运行时和年份的预期得分有所不同。它可能是演员的表演, 电影剧本, 摄影或许多其他事情。

从我的角度来看, 这些其他特征在选择观看内容时真正重要。我不在乎给定的电影是戏剧, 动作还是科幻小说。我希望它有一些特别的东西, 可以让我度过快乐的时光, 可以让我学习一些东西, 可以让我反思现实, 或者只是娱乐我。

因此, 我通过采用IMDb评级并减去最佳模型的预测评级, 创建了一个新的精确评级。通过这样做, 我消除了流派, 运行时和年份的影响, 并保留了对我来说更重要的其他未知信息。

IMDb评级系统替代方案：最终结果

现在让我们来看看按我的新评级与按真实IMDb评级的10部最佳电影：

IMDb

标题	类型	IMDb评分	细化评分
谁在那里唱歌	冒险, 喜剧, 戏剧	8.9	1.90
第2号	冒险, 家庭	8.9	3.14
指环王：国王的归来	冒险, 戏剧, 幻想	8.9	2.67
指环王：指环王	冒险, 戏剧, 幻想	8.8	2.55
安贝·西瓦姆(Anbe Sivam)	冒险, 喜剧, 戏剧	8.8	2.38
我班正在休假	冒险, 喜剧, 戏剧	8.7	1.66
指环王：两座塔	冒险, 戏剧, 幻想	8.7	2.46
手印召唤	冒险, 戏剧, 浪漫	8.7	2.34
星际	冒险, 戏剧, 科幻	8.6	2.83
回到未来	冒险, 喜剧, 科幻	8.5	2.32

矿

标题	类型	IMDb评分	细化评分
第2号	冒险, 家庭	8.9	3.14
星际	冒险, 戏剧, 科幻	8.6	2.83
指环王：国王的归来	冒险, 戏剧, 幻想	8.9	2.67
指环王：指环王	冒险, 戏剧, 幻想	8.8	2.55
Kolah Ghermezi VA Pesar Khale	冒险, 喜剧, 家庭	8.1	2.49
指环王：两座塔	冒险, 戏剧, 幻想	8.7	2.46
安贝·西瓦姆(Anbe Sivam)	冒险, 喜剧, 戏剧	8.8	2.38
方桌骑士	冒险, 喜剧, 幻想	8.2	2.35
手印召唤	冒险, 戏剧, 浪漫	8.7	2.34
回到未来	冒险, 喜剧, 科幻	8.5	2.32

如你所见, 领奖台并没有发生根本变化。这是预料之中的, 因为RMSE不太高, 在这里我们正在关注顶部。让我们看看后10位发生了什么：

IMDb

标题	类型	IMDb评分	细化评分
明天发生了-大报	喜剧, 悬疑	1	-4.86
Cumali Ceber：愿真主带领你	喜剧	1	-4.57
巴当	喜剧, 幻想	1	-4.74
Yyyreek！空间提名	喜剧	1.1	-4.52
骄傲的美国人	戏剧	1.1	-5.49
棕色外套：独立战争	动作, 科幻, 战争	1.1	-3.71
生活的周末	喜剧, 恐怖, 悬疑	1.2	-4.53
玻利瓦尔：英雄	动画, 传记	1.2	-5.34
黑蝙蝠的崛起	动作, 科幻	1.2	-3.65
初恋	戏剧	1.2	-5.38

矿

标题	类型	IMDb评分	细化评分
骄傲的美国人	戏剧	1.1	-5.49
圣诞老人和冰淇淋兔子	家庭, 幻想	1.3	-5.42
初恋	戏剧	1.2	-5.38
出差	传记, 戏剧	1.5	-5.35
玻利瓦尔：英雄	动画, 传记	1.2	-5.34
哈努姆与朗格：信仰与城市	戏剧, 浪漫	1.2	-5.28
上个赛季之后	动画, 戏剧, 科幻	1.7	-5.27
巴歇尔-日内瓦谋杀案	戏剧	1.6	-5.23
拉舒·莱夫	戏剧	1.5	-5.08
校园	戏剧	1.5	-5.08

同样的事情在这里发生了, 但是现在我们可以看到, 精致的情况比IMDb的情况更多, 这表明某些戏剧可能只是作为戏剧而被高估了。

也许最有趣的登上领奖台的是10部电影, 它们之间的IMDb评分系统的评分与我的精选评分之间的差异最大。这些电影对未知特征的重视程度更高, 并使电影比已知特征好(或差)。

标题	IMDb评分	细化评分	区别
金志美	7.4	-0.71	8.11
耶稣基督超级巨星	7.4	-0.69	8.09
平克·弗洛伊德·沃尔	8.1	0.03	8.06
Tenshi no tamago	7.6	-0.42	8.02
Jibon Theke Neya	9.4	1.52	7.87
舞蹈	7.8	0.00	7.80
圣诞老人和三只熊	7.1	-0.70	7.80
Scrooge的欢乐故事	7.5	-0.24	7.74
驴皮	7	-0.74	7.74
1776	7.6	-0.11	7.71

如果我是电影导演并且必须制作一部新电影, 那么在完成所有IMDb数据分析之后, 我可以更好地了解制作哪种电影才能获得更好的IMDb排名。这将是一部历时长久的动画传记戏剧, 将是一部旧电影(例如, Amadeus)的翻拍。也许可以确保获得良好的IMDb排名, 但是我不确定利润…

你如何看待采用这种新措施的电影？你喜欢他们吗？还是你更喜欢原始的？在下面的评论中让我知道！

本文概述

IMDb评分系统：过滤IMDb的数据