分析了WhatsApp上跟女朋友的52163条消息聊天记录,我发现了这个秘密
2020年情人节已经过去了。这是一年中情侣们秀恩爱,社交媒体被发帖、照片、对另一半的赞扬所席卷的一天。对于被完美关系的描绘刷屏的身狗来说,这是一年中非常难熬的时刻。虽然我不是单身狗,但我也已经受够了在网络上看到不切实际的恋情描绘。所以今年我决定要用冰冷的数据反击。为此我决定牺牲我的隐私,用我和我女朋友Whatsapp聊天记录写一篇文章。
我最近发现我们能将Whatsapp上的完整聊天记录下载成一个文本文件。我突然想到这也许是一个能呈现真实、独特的恋爱关系的有趣的数据源。所以在这篇文章里我会将我的数据开诚布公,希望你会觉得这是个有趣的分析,或者能启发你去:
1)思考数据能如何反驳社交媒体上呈现的虚假现实 2)深入分析一下你自己产生的数据
3)给你的另一半一个书呆子气的数据科学主题情人节礼物
太阳出来了
就像我所说的,你能够非常容易地从Whatsapp软件上下载你任何对话的完整聊天记录,然后导出能一个文本文件。我接着用R语言对这个文本文件进行了处理和分析。我和我女朋友的聊天记录是从2016年10月开始的(从我上一次换手机开始,我和我女朋友实际2016年3月就在一起了。)Whatsapp是我们主要的聊天工具(我们很少发短信和用Facebook),于是它产生了一个包含5,2163条消息的数据集,平均每天43条消息。我还没开始深入分析,就已经被震惊了。
数据的力量
这个分析的目的是为了总结我们的恋情,所以我们马上开始整合数据,然后看一些高层次的数据。这是一个简短的概况:
● 1212天 – 从2016年10月18日到2020年2月12日
● 其中980天(81%)是“活跃的”(有发消息)
● 5,2163条消息。我比我女朋友多发了1495条消息。- 这也是我没有预想到的
● 使用了1,1670个非重复单词(其中很多都不是真实存在的词语)。我使用了8844个词汇,我女朋友使用了7043个词汇。
● 2个参与者 – 我和我女朋友,两个二十岁出头住在英国的人。
我一个字都不想打
我们在一起之后,每天发的消息数,平均来说,不断下降。
这主要是由于我们刚在一起的时候我们还在上大学,并且不住在一起,所以我们更常在软件上聊天。你可以看到在2017年年中的时候,我们大学毕业了以后住到一起,而且那时我们还没开始全职工作。那个时候我们每天都几乎呆在一起,所以我们当时没怎么互相发信息。从2017年9月起,我们开始工作了,于是又开始频繁的发消息了(oops)。如果你仔细看的话,你会发现每年圣诞节都会有一个高峰,那是因为我们分开和自己家人去过节了;然后紧接着会在新年的时候有一个下降,那是因为我们通常一起过新年。
周五,我在热恋
接下来这张图跟一周内士气高低是一致的。比起周末,我们在工作日里发更多的信息。
我们聊天的规律好像能反应我们对每天的大体情绪。我们的聊天密度在周五会达到顶峰,因为周五我们通常都忙着在社交,这通常会包含制定计划和交流相关信息(所以更多聊天消息了)。星期日通常是一周中我们会一起过的一天,所以我们大量减少了给对方发的信息。
一次又一次
继发现我们工作日聊天聊地更多以后,我们来看看我们是否真的在拖延呢,还是我能挽回一点颜面。
你可以看到,我们的聊天消息在整个上午逐渐增加,在中午时到达一个顶峰(并不惊讶)。午饭后我们回到工作岗位,于是聊天消息稍微的减少了一点,然后又在差不多我们的下班时间,四点后再度回升。晚上消息减少,又一次的印证了我们呆在一起的时候不会互相发信息。
言语之外
现在该看看我们最常用的单词了。为此,我移除了所有停止词 (stopwords, ‘a’, ‘the’, ‘and’等)。我们十大最常用的词如下图所示:
由此看来,我们大多数时候都是认可对方的。我敢肯定,我的爸爸作为一个英语老师,肯定对我高频率使用’gonna’非常失望。并且可以清楚的看到,‘ah’是我最喜欢用的填充词。我感到最有趣的是,‘time’是我们俩都常用到的词,可能都是用在试图整理或计划一些事情(’what time?’ ‘if we have time‘ 等等)。我们中谁更常说晚安和早安也非常明显。
心已全蚀(Emoji)
Emoji是现在极度流行的一种交流方式,它能产生喜剧效果,或是能免于打字来表达心情。我们一起来看下我们最常用的Emojis来圆满结束这个与女友的聊天记录分析吧:
我们最常用的几个表情都在我们的意料之中。我只是对我使用翻白眼的表情之频繁感到非常惊讶。特别是我发现它的使用次数是我女朋友使用任何表情,除了前两名的表情之外,两倍还多。
另一个有趣的现象是这个图表反映了我们俩使用表情包的不同方式。我更偏向于使用更多不同的表情。虽然有几个很明显是我的最爱,但其余表情的使用频次都相对平均。但我女朋友却是很明显有两个日常使用的表情:非礼勿视的猴子和笑哭了的表情。
这篇文章里使用的代码可以在我的GitHub(https://github.com/chrisbrownlie/whatsapp-analysis-blogpost)里找到。
原文作者:Chris Brownlie
翻译作者:Shuang Lu
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://medium.com/data-slice/3-5-years-of-a-relationship-in-whatsapp-messages-4f4c95073c9d