寻找推特的关注者

寻找推特的关注者

你在Twitter或者Instagram上被你不认识的人关注过嘛?不知道你们的情况,但是至少我总是被很多不认识的人关注。为了避免被认为是不礼貌的人,我只能也开始关注他们。 后来,我厌倦了这么做,因为我发现这些关注我的帐户中有一些帐户只想增加被关注的人数而并没有发任何东西或者做任何事情。 那么问题就来了,为什么会有人不辞辛苦的来关注你,然后希望你因此能回粉他?而且为什么会有人会为了这件事情而在网上浪费这么多时间?

后来呢,我发现了这些帐户大部分都不是个人账户,这才意识到了问题的答案。很多这些帐户的内容都是关于食物,关于海滩度假,或者有时候还是关于一些有伤风化的内容。

广告已经开始渗透我们的社交网络。以前公司想做广告的时候,一般都是会拉横幅上或者在广告牌上写一些标语,但现在一些新的公司开始在社交媒体上聘请人来转发或者传播他们的产品或活动。 这些公司花大价钱去聘请一些名人,想吸引这些名人的粉丝群,从而得以提高它们品牌的知名度。比如说,一个公司在2013的时候通过一个Kloe Kardashian的推文,赚到了高达13,000美元。名人有众多粉丝团体,而且他们可以通过帮助赞助商发广告而得到大笔收入。所以人们可能会想到创建社交网络帐户然后积累粉丝,这样他们也许最终能够得到一些公司的赞助,靠发广告来赚钱。从这个现象中,我们可以看出这些赞助商可能会寻找除了粉丝数量之外的其他一些因素。

在一个社交网络中,一个链接可以代表Facebook中的一个人际关系,或者是在Twitter中转发的一个推文。这些链接决定了信息的流动,因此是用来判断一个用户的影响力的良好指标。现在我将来介绍两种在网络中找到潜在的很有影响力的人的方法。一个是通过提取单个用户的影响力来寻找,另一个是通过使用网络图来寻找。

我在Followthehashtag.com上发现了一个大型数据库。该数据库包含一系列推特上的数据,其中包括从2016年3月28日至2016年6月15日期间,从推特网上提取的跟纳斯达克100股股票话题相关的推特。我收集了这些数据,因为它很好地包含融合了组织和个人的帐户。这个数据库同样也包含了其他数据,比如一条推特信息(tweet)被转发了多少次,以及最开始这个tweet是谁发出来的等有关这条推特的来源信息。在众多数据流中,转发的信息可以被识别出来:它们的开头有“RT @user”或“via @ user”。这个数据流还包含有关“提到xx”的信息。在推特中,“提到xx”指的是用户们之间的公开对话。一个用户通过在tweet中提到另一个用户,是想来引起这另一个用户的注意。“提到xx”的推文一般是含有由以“@user”开头的推文。

从数据流中我们可以提取的一些标杆来衡量一个人的影响力,比如说:粉丝(数量),转发(数量)和被他人提及的(数量)。 我们选择这些标杆是因为它们影响网络信息流动的方式。 粉丝的数量可以用来衡量用户的知名度。 这点可以很容易从数据中提取出来,就是数据里面一个用户拥有的粉丝数量。 一个账号的关注者的数量可以显示出这个用户的粉丝群体的大小。 而转发数量显示出这个用户有能力创造一些能被其他人认为值得他们去转发和分享的内容。 当另一个用户转发分享一个推文时,这个推文就会被一个更大的用户关系网里的人们看到,从而再一次被转发。 对于这项数据,我们是通过计算每个用户的转发消息数量来得到的。第三个因素是被他人提及的次数,这个是通过计算提及某个用户的推特的数量而得出的。 这种影响因素可以体现出这名用户与其他人沟通交谈的能力。

在我们的数据中,这段时间内,共有96,613名用户的推特是有关纳斯达克100股股票的。 在他们之间,播出了超过68万条推文。 这些数据展示出在纳斯达克市场上苹果公司和它的股票AAPL是被提及最多的,这表明在这个群体里面,这只股票是在推特中上镜率最高的股票。

1

图1:股票的代码们的图股票符号图

4月27号是用户们最活跃的一天,他们大概发了20800个相关推特。这是因为那天AAPL股票的股价大幅下跌,而下跌的原因是有人猜测,与去年同期相比,iPhone手机销售量可能会下降多达6000万台。 苹果股票的下跌拖累了科技股纳斯达克股市的上涨。

2
图2. tweet的频率图。

这个图显示出推特用户在这一天中最活跃的时候是在股票交易市场开盘的时段,即13:30至20:30 UTC。

3
图3. 2016年4月27日的频率图。

每个用户在三个影响值里的综合排名是通过分别看它在三项影响值中单独的排名得来的。 例如,在研究粉丝数目的排名时,第一名的用户指的是有最多粉丝的的用户,而 具有相同数量的追随者的用户获得相同的排名。表1显示了三个影响因素中的前30名用户。每个影响因素中我们可以看到会出现一些重叠。 第一个出现在所有三个影响值的是“华尔街日报”。

表1.基于粉丝数目,转发数量和提及数量的排名

4
为了知道三个影响因素中有多少用户是重叠的,我们用排名中前100名的用户画一个维恩图。 图4显示,在排名列表中的239位用户中,只有10位用户是在这三个因素中都有排名的。图4.三个影响因素的维恩图。

5
下面的图5是一个相关矩阵图,它展现出用户的排名在三种不同的影响因素之间如何变化。 相关矩阵表示两种排名之间关联的强度。 该矩阵是通过比较数据库中所有96,613个用户的相对影响级别得出的。图5.三项影响因素的相关图。

这个图显示出转发因素和提及因素之间有很强的相关性。 粉丝数目这项和其他两项措施之间的低相关性表明,按照粉丝数量的排名标准可能与其他排名标准不大相关。

从相关图还可以得出其他的一些结论。 首先,我们可以说,在大多数情况下,经常被转发的用户也经常被提及,反之亦然。 然后,我们可以说,粉丝最多的用户可能不是最具吸引力的用户。 因此,用户的受欢迎程度并不能代表这个用户散播信息的能力。

     转发和被提到是有方向的。转发呈现了用户A到用户B的思想传递的路径。用户A发布了推特,然后用户B读到了这个推文。用户B认为这篇推文是值得分享的,于是转发了这个推文。这篇推文会被其他那些跟用户A没有直接好友关系的,也不能直接访问A的用户看到和转发。当用户A提及用户B时,这又是从用户A到用户B的链接。考虑到这一点,我们有足够的数据将我们的twitter流转换为方向性的网状图。所有用户将成为我们图中的一个结点,所有方向性的链接都将是一条边。 igraph将被用来提取我们得到的网络图的信息。

快速浏览一番从全部数据流得到的网络图,我们发现我们能够创造一个有96613个结点和168519条边的图。因为这个图太大,我们将不会展示最后得到的图。这是因为产生这个图所需要花费的时间和计算能力实在太多了。实在要展现出来,这个图也只不过是一系列混乱的点和线段。即便如此,我们还是可以从这个图中得到一些信息。

网络的密度指的是现有的边在所有可能的边中占的百分比。我们现有的图的密度是2.799118e-05. 这样一个非常低的密度代表了我们的用户间的互动很少。

网络图的直径指的是所有独特的结点和边之间的最长路径。考虑到链接的方向,我们的网络直径是14。这个说明了我们可以在15个用户间找到一条没有断裂的路径。

John kleinberg 开发了枢纽结点和权威性算法,用来检验一个网页内容的相关性。他把网页分成了枢纽结点和权威性网页。枢纽结点有更多的向外的链接,它们就像是互联网的目录。这就像是早期的雅虎,当时雅虎自夸是互联网的黄页。权威性网页则有更多的导向自己的链接,而这应该是因为它们有高质量的网页内容。把这些概念放在推特活动这个范畴来看的话,枢纽结点网页就像是一个有着极高转推影响力的用户,而权威性网页就类似于一个有着高提及影响力的用户。

枢纽结点和权威性评分是由一个简单的igraph函数推导出来的。最后,得到最高的枢纽结点评分的是”markbsiegel”,而得到最高权威性评分的是”Benzinga”. 这个和排名表格正好相反,:在表格中,被再推送最多的是”philstockworld”, 被提及最多的是”jimcramer”.

为了能够找到不协调性的来源,我们调查了每个结点。虽然,如果我们考虑并且加起来所有的独特边的比重,看起来”markbspiegel” 比”philstockworld” 有更多独特的边,但最后”philstockworld” 仍然打败了”markbspiegel”。当比较这两者的边时,我们可以观察到同样的结果。这个不协调性和网络评估的方法相一致,这种方法认为链接的数目比每个链接被激活的次数更重要。枢纽结点和权威评分也没有考虑结点的比重特征。

为了能够看到一个真正的网络图,我们把选择范围变小,只选择了推文关于CA技术的推特用户流。

表2展示了从我们的排名方法得到的前几名有影响的用户。第一个囊括三个影响力范畴的用户是”Benzinga”.

表格2. CA数据流的前几名有影响力的用户

最后由这个更小的推特数据流得到的网络图有431个结点和131个边。

和我们之前的密度为 0.0009550531的 网络比起来,这次用户间有更多的互动。这次的直径更小:只有10个结点,9次跳跃。

最后得到的枢纽结点评分和权威性评分显现出了一个和表格排名 更一致的结果,因为现实上的回推数和提及数都很少。这次,独特的边的数目并不比边的总重少很多。

图7和图8展示了根据枢纽结点 和 权威性分数调整结点后的网络图。

结点越大,分数越高。

6
CA stream network graph showing the diameter path.

7

Closeup of network graph with node sizes adjusted based on hub score.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

Closeup of network graph with node sizes adjusted based on authority score.

 

 

 

 

 

 

 

 

 

 

 

 

根据每个标准来分别排名 的方法看来是一个更实用的的用来衡量推特用户影响力的方法。即使是面对一群通常,固定的观众,当衡量影响力时,用户间互动的频率也必须被考虑到。这个恰恰说明了这个用户一直以来都在制造高质量的,拥有传播价值的内容。

对于更小的网络,网络图示的方法可能产生按每个标准分别排名 所不能推导出来的新信息。这儿的关键点就是去检查边的总数除以总比重是否接近1。当这个比值接近零时,排名方法和 网络图示的不协调性就越来越大。