首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~但是有些时候的确令人疑惑,为什么wyb随随便便发一条微博(不管是推广还是自拍)都可以有一百万加的转发量,这有点强哈~~~所以今天我们就选一条微博爬取其转发用户数据分析一下。
本人本着客观的态度分析,如果不正确的地方欢迎批评指正。
文章目录
- 1 数据说明
- 2 粉丝结构初步分析
- 2.1 是否存在水军转发现象?
- 2.2 实际参与的粉丝统计
- 3 粉丝画像
- 最后的话
- 数据源:王一博12月9日发的微博,截图时间为12月12日晚。即短短三天时间王一博发的一条广告转发量就达到了91.7万。本文爬取该微博的转发用户及其转发文案进行分析。
- 数据获取方法:浏览器抓包+python利用scrapy框架爬虫,获取过去24小时左右的转发数据。 说明:浏览器抓包得到的json数据是以时间倒序排列的,如“刚刚”、“1分钟前”、“5分钟前”……这样的数据排列方式导致抓取时间较早的数据比较困难。比如理论上91万条用户转发数据应该有9万多个page(一个page一般有9到10个数据),但是当我们page参数填入80000的时候会以极大几率返回空白信息。经本人多次验证,page小于19999的时候大几率能够获得有效信息,而19999page的时间大致为24小时,即12月11日晚上到12月12日晚上之间产生的数据。
- 数据获取时间:12月12日晚上开始爬取。
- 样本数量:30632(在过去24小时内产生的数据中随机抽取30632个作为样本,随机的方式为爬虫的时候是将page打乱进行爬取的)
- 数据结构初步浏览:
- 在进行数据清洗后,保留以下有用字段用于后续进行数据分析:
关于每个字段的含义,这里不详述(以后本人再写一篇关于微博字段的文章说明吧)
首先提出两个问题:
- 91.7万的巨大转发量是否存在雇佣水军转发的嫌疑?
- 是否有粉丝多次重复转发以及重复转发占比量多少?
判断是否有水军,只能通过假设检验的方式(反证法),即先提出一个假设,再寻找特征来反驳这个假设,若无法拒绝假设,只能说明这个命题无法证明。。在这里,我们可以假设没有水军,没有水军的情况下数据表现出来的特征是:
- 男女比例符合常理(女生粉丝比男生多)
- 转发源差异不会特别大
- 转发文案中没有重复率较高且不太正常的文案(如一些与王一博毫无关联的诗句等等)
因此若数据有以下特征之一,可以判断为有水军参与转发的嫌疑:
- 男女比例不协调
- 转发设备比例差异较大
- 转发文案有奇怪的特点
我们先来看一下3万转发量中的性别比例分布(如下图),女生数量为21657,男生数量为8975。女生偏多,符合我们一般的认知。
再看看3万转发量的转发源统计(如下图)。iPhone客户端使用率是最高的,令人惊讶的是微博国际版(微博国际版使用率已经这么高了吗???),而且竟然很多是通过微博小程序转发的。。。噢大家都不下载APP了嘛???
我们再粗略看一下转发文案的粗略统计(如下图),图中文案后面的数字代表出现的该文案再3万条转发数据中出现的次数。可见“转发微博”出现次数最多4108次,因为这是微博默认转发文案,(是否可以说明刷流量或做数据的成分较大。。。)。从这个粗略统计中还可以看出有某些号的再转发量较大,比如有很多转发都是源于@王一博数据组、@一笑给伯伯搓澡、@王一博专属bot等等号,进一步显示3万多转发量中粉丝做数据的成分较大。且在转发文案统计中没有看到奇奇怪怪的文案。
目前来看,数据呈现的特点都没有太离谱,所以直观上不能判断粉丝是否掺假,我们不妨给假粉丝一个更加明确的定义。
- 假粉丝定义:(关注数<=5 || 粉丝数量<=5) && 个人描述为空 &&评论数为0 && 点赞数为0 && 转发数为0 )
- 由于目前微博取消了账户等级,因此判断条件中不加入账户等级限制。
- 从结果看,3万多条转发中只有1204条转发是来自于嫌疑用户转发的。我们在把1204条转发数据从账号的角度统计以下(如下图)发现有些账号转发了八九十次。本人特意去微博搜索了前三个账号,发现他们都是关注1、粉丝500+,微博全都是转发王一博的微博且一条微博转发几十遍,看起来像是粉丝为了打榜而开的小号。
- 看看排名第一的账号明细,几乎每个小时都在转发,只能说疯狂。。。
综合上述的男女比例分布、转发源、转发文案这三个特征,数据呈现出的结果都处于合理的和可接受范围内,因此并不能拒绝“转发量数据中没有水军参与”这个假设,即根据目前数据我们无法证明该转发量是水军伪造,只能稍微看出多多少少有些粉丝做数据的嫌疑(即粉丝为了提高转发量多次转发同一条微博)注意:“粉丝多次转发”与“有水军”是两个概念。水军一般指的是通过一定钱购买的大量陌生用户转发微博以营造广泛传播的假象,而且这些转发使用的账号一般有很多是低级别的僵尸号
但是这就引出另一个问题了:三万多的转发量中有多少是粉丝为了打榜刷流量而重复转发的呢?
既然粉丝可以多次转发同一条微博,那么参与这3万次转发的实际粉丝数量是多少呢?我们将3万多数据的用户id去重并统计出现次数,结果如下:
可见有很多重复转发的,实际参与转发的账号只有5125个(包括大号和消耗),这么说,少于或等于5125个粉丝创造了三万多的转发量。因此实际上最多只有五千多位粉丝在转发并不是三万多粉丝转发,信息的实际传播量仅仅是数据显示的1/6根据账号转发次数计算频数,得到下面的频数图,从图中可以看出,超过三千的账号只转发了微博一次,有500多账号转发微博两次,大致两百多用户转发微博三次。剩下接近两千的粉丝转发几十次到一百次,硬生生地拉高了平均转发量~
画一个饼状图可以更加直观地观察结果,如下图所示:
说实话,现在得到的结果是我没有预想到的。。。本以为可以得到结论是一堆假粉或水军转发,没想到真正的结论是没看到明显的水军,是有某些疯狂的粉丝实在是太努力刷流量。那我们干脆就用尝试利用这五千多个粉丝做一个粉丝画像分析吧~
先看看参与转发的账户的真正男女比例结构(如下图),总共5125个账号,女生4074个,占比约80%:
统计这五千多个账号的转发源,发现有17.9%都是从明星实力榜转发的,进一步验证了疯狂的粉丝为了打榜多次转发微博的结论。
那么同样是王一博的粉丝,他们的微博昵称会不会有共同特征呢?我们可以使用分词+词云图看一下:
这个词云图。。。真的一看就知道来自于王一博粉丝。粉丝的微博账户名称中使用率最多的几个词是“王一博”、“85”、“甜甜”、“百里”、“摩托”、“酷盖”等等。“85”这个数字我之前一直想不懂跟王一博有什么关系,查了一下才知道原来王一博生日是0805,所以词云中也包含了0805、9785、970805这些关键词。看一下他们微博账号写的简介“王一博”这个关键词占了绝大多数,然后是跟王一博相关联的词语“平安”“喜乐”“唯粉”等等。还有不少的正面积极词语,例如“努力”、“守护”、“加油”、“不负”等等,看得出来王一博给粉丝的正面影响还是挺大的。
我们再关注一下粉丝的其他基本数据,计算得出这五千多个粉丝的平均粉丝数为581,平均关注量为274.
对他们的主页背景统计一下,发现除了微博的默认背景外,其他几乎都是使用王一博相关的图作为背景:
其中下面这张是使用最多的(75频次)
王一博微博转发量分析就到这啦。总的来看,王一博给粉丝的能量还是挺积极的,有个别粉丝为了给王一博刷流量比较疯狂,但整体上看还好。
初学Python数据分析,而且这是本人第一次写这种类型的分析文章,有不对的地方欢迎批评指正,也欢迎留言讨论,谢谢大家阅读~
喜欢的点个赞呗~想要博主写其他内容也可以留言哦~
以上就是本篇文章【微博热点话题聚类python金融大数据挖掘与分析 微博数据分析案例】的全部内容了,欢迎阅览 ! 文章地址:http://www.cs-ej.cn/news/189.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 成事e家移动站 http://shsunc.cs-ej.cn/ , 查看更多