【数据分析第一弹更新】爬了一下近一年的微博热搜数据,女流量(女演员)数据分析

【数据分析第一弹更新】爬了一下近一年的微博热搜数据,女流量(女演员)数据分析

作者:D

原文地址:https://www.douban.com/group/topic/143272078/

【数据分析第三弹】娱乐圈女星/火箭少女101微博热搜热度分析

添加了杨颖的数据,并且更新了总影响力的计算模型(使用了幂律分布)。

为了方便阅读,删除了上一次的更新日志。

—————————————————-

更新炒团妹妹以及几位桃太郎的数据:《数据分析》第二弹,炒团内部热搜大解析 — 谁才是“热搜”下位圈?

从热搜神器上爬了从101播出以来的所有热搜数据(2018年4月21日起,截止至2019年6月16日)。从85花开始,90花,95花,女流量(女演员)的数据都爬了一遍,队里只爬了top3的数据。如果有遗漏的女星大家提醒我一下,我再加上。

我会把主要的分析放在队里面的三个人上。队外的人,如果数据比较特别的我也会提及。注意:这篇文章主要分析的是微博热搜所带来的影响力,与粉丝数量无关,更不是实绩。

热搜总数

【数据分析第一弹更新】爬了一下近一年的微博热搜数据,女流量(女演员)数据分析

热搜总数,杨幂与杨超越第一档(100+),孟美岐,杨紫,迪丽热巴,杨颖第二档(75+),赵丽颖,欧阳娜娜,郑爽,关晓彤,吴宣仪第三档(50+)。与之前别人统计的数据一致,孟美岐的热搜数量在女性艺人里面排第三位,并且在数量上明显多于宣仪。

这里需要打破洗脑包,默念三遍,“孟美岐的热搜数量女明星中前三”,“孟美岐的热搜数量女明星中前三”,“孟美岐的热搜数量女明星中前三”。这个数据我们后面还用的到。

热搜平均排名:

【数据分析第一弹更新】爬了一下近一年的微博热搜数据,女流量(女演员)数据分析

如何从热搜看出一个艺人的影响力,数量是其一,更重要的是质量。上面这个图是热搜的平均排名。从这张图我们可以看出,孟美岐虽然热搜数量不少,但是质量很糟糕,很多热搜都是低位热搜。宣仪的热搜质量也较其他的明星流量差一些,但是比孟美岐要好很多。杨超越在个数据里表现的很正常,算是平均水平。

周冬雨的数据非常亮眼,虽然热搜数量少,但是质量很不错,这可能与她是“电影演员”的定位有关。杨幂不愧是女顶流,不仅热搜的数量最多,而且质量也属于靠前的。

TOP热搜分析:

【数据分析第一弹更新】爬了一下近一年的微博热搜数据,女流量(女演员)数据分析

看完了热搜的平均排名,我们再来看一下这些女明星们,热3,热2,热1的次数。因为很多时候,热搜的前三的影响力要远大于后面的热搜。这里要注意的是,有不少人的热三是广告,我没有剔除出去。

从这张图可以看出,杨幂与杨超越一骑绝尘,同属第一档。杨紫,关晓彤,迪丽热巴,赵丽颖,欧阳娜娜算是第二档,差距不算太大。

孟美岐与宣仪的高位热搜数量比我想的还要差,仅比沈月,宋祖儿略好(其中热一与沈月相当,三人都是14条),基本属于女明星里比较差的那一档了。我们回想一下,梦美岐的热搜数量是全女明星中第三位,高位热搜却排到了后面,有点令人意想不到。这个数据可以说明,公司愿意给孟美岐买热搜,但奈何本身热度不够,所以热搜很难达到高位。

这里我又想到,仅仅是看排名,可能不是很客观,我们需要看一下“热搜的在榜时间“。试想一下,一个24小时的榜五热搜,要比一个榜四一个小时的热搜会更有影响力一些。

”热搜平均在榜时间“:

【数据分析第一弹更新】爬了一下近一年的微博热搜数据,女流量(女演员)数据分析

这个热搜平均在榜时间相对来说比较平均,一条热搜平均会在榜大约11,12个小时左右。其中超越的平均在榜时间在这些女星里面属于“上位圈”,略高于梦美岐和宣仪(平均每条热搜在榜时间比梦美岐和吴宣仪多一小时左右)。这么多明星里面,赵丽颖的平均在榜时间要稍微多一些,而周冬雨杨紫的在榜时间都较短。因为这个时间大家的差距不算特别大,所以就不再具体分析了。

“热搜总影响力”

下面通过这些微博的热搜数据,来谈一下“总影响力”。这个总影响力需要反映出,明星在热搜上刷脸的次数,热搜的排名,以及热搜持续的时间。

由于没有一个统一的计算公式,我个人使用了下面的计算方法来计算“单条热搜的影响力”:

热搜持续时间 *该条热搜的权重

之前的文章中,热搜权重使用了简单线性分布来计算。如果排名第一的热搜影响力为50的话,排名第二的热搜影响力为49,并以此类推。评论区有朋友指出,这种计算方式并不合理。实际上,热1的影响力与热二影响力的差别,要远比50/49大的多。经考虑,现把模型修改为幂律分布(长尾分布)。热搜位置与对应权重可由下图表示:

【数据分析第一弹更新】爬了一下近一年的微博热搜数据,女流量(女演员)数据分析

注:此模型不是最优模型(与实际影响力有差别),但个人认为比简单的线性模型要准确很多,可以大概的反映出一个趋势。

下图为考虑到热搜的持续时间,热搜的最高位置,以及热搜数量的“热搜总影响力”:

【数据分析第一弹更新】爬了一下近一年的微博热搜数据,女流量(女演员)数据分析

由于算出来的数值太大,上图中y轴数据缩放了1,000,000,不过不影响最终的结果。来看一下数据:

这里需要再重复一遍这个数据的有效区间,从2018年4月21日至2019年6月16日。通过这段时间的微博影响力数据,杨幂,杨超越称之为女顶流毫不夸张,并且断层第二档。

杨颖,杨紫为第二档,但并未与第三档拉开差距。过去一年的热度,大杨王朝实锤了,包揽前四。

迪丽热巴,赵丽颖,孟美岐第三档。这个数据很有意思,为什么一个热搜总数排第三的艺人(与前二差别并不大),总影响力才排到第五,且被第一第二名断层那么多(倍杀)?

大胆推测,尽管孟美岐本身热度不够,很难上到热搜高位,但是公司强捧,以数量弥补质量的不足。

整体来看,宣仪的微博热搜数据要比孟美岐还要差一些。所以以后不要再发孟美岐是鹅弃,乐华弃这种洗脑包了。最起码从数据上来看,公司对孟美岐更上心一些。

总影响力最低的是宋祖儿,由于作品还没有播,也不算女流量,所以这个数据不是很好看可以理解。周冬雨沈月数据也不是很好,但这两位都是有作品的演员(非流量),只需要没事儿用热搜刷一下脸来保持存在感。

但这是过去一年中总体的流量,考虑到创造101的红利,我在另外的一篇文章按照不同的时间讨论了过去一年中女星的热度。详情参见《《数据分析》第三弹,101过去一年了,她们还“火”吗?》。

男性流量我大概也做了一些,其中蔡徐坤,周杰伦,四字(排名分先后)在热搜数量上一骑绝尘。但是男星高位热搜的占比普遍要比女星低一些,所以像杨幂杨超越的top热搜数量在男星里也是位列前茅的。介于我们组的性质,我就不废话列举男星的数据了。

发表评论

电子邮件地址不会被公开。 必填项已用*标注