纽约 Airbnb 开房全攻略,Welcome to New York!

纽约 Airbnb 开房全攻略,Welcome to New York!

Airbnb 自08年创立以来,每年的业绩都呈指数式增长。可以说,Airbnb成功打破了传统食宿行业的经营方式。现如今,由于人民生活水平的提高,各地的游客也越来越多,Airbnb不仅成为游客的首选,也成为了商业出行的首选,甚至也成全了那些手上有房,想躺着挣钱的人。

在纽约,Airbnb的发展如日中天,仅仅08年11月,就有52,000份订单。这意味着,每一平方千米就有40间房子通过Airbnb进行租赁!由于纽约居高不下的房价,几乎没有人选择去住宾馆。

今天,我们就通过对Airbnb的探索性分析和数据可视化来具体了解一下纽约Airbnb租房市场的现状。这个分析是通过R语言来做的。点击阅读原文,可查看code。

这个数据集由出租房屋、评价和日历三个表单组成。

让我们先简单了解一下这个数据集:

  • 在08年11月,纽约一共有50,968份订单,在Airbnb上出租第一间房屋发生在08年4月的曼哈顿
  • 至今为止,已经有房客写了超过100万份评论
  • 房价从10刀一晚到10,000刀一晚不等,10,000刀一晚的房源出现在:Greenpoint, Brooklyn, Astoria, Queens, Upper and West Side, Manhattan 等地区

Airbnb之所以成功,就是得益于它上至城市,下至乡村的广泛房源。所以这几年,无论是出租房屋的人还是租房的游客,都在快速增长。在纽约,第一个订单在08年的哈莱姆河,仅仅第一年,Airbnb就增长到将近600个房源,主要集中在曼哈顿和布鲁克林地区。市中心地区往往是房源最多的,这也是由于市中心高昂的租金导致的。

那之后的几年,基本每年房源都会大概翻一倍,到2015年,基本上曼哈顿的每个街区都有好几个Airbnb的房源了。2016年,Airbnb的业务甚至已经扩展到了Staten island。可以想象,2020年实现70000房源,对纽约来说不是梦。

因为权限原因,我们拿不到Airbnb过去的交易数据。不过幸运的是,我们可以通过Airbnb网站上的评论的推测。在所有在Airbnb订过房的人中,大概有一半的顾客进行了评论,所以根据这些评论,我们可以对Airbnb房子的需求有一个大致的推测。和房源的发展趋势一样,过去几年的订单也是持续稳定增长,预示了Airbnb良好的发展前景。

Airbnb的用户通常依据房源的位置,整洁度和一些其他标准对房源进行评价。这里我们对位置的评价进行了分析。由下图可见,位置是房源吸引力的一个重要衡量指标,好评的房源一般都地处交通要道,或者在地铁口附近,通常去一些城市地标性建筑或者大型商圈都非常方便(比如时代广场,帝国大厦等)。

在纽约市中心,曼哈顿地区的房源评价最高;在state island,离state park比较近的地方评价很高;离曼哈顿比较近的布鲁克林街区评价也一路走高。还可以确认一个有趣的现象,离地铁站越近,交通越方便的地方,评价往往越高。毕竟大家都是正儿八经来玩儿的,不想把时间都花在通勤上。

可想而知,房租价格往往与价格成正比,评价越高的房源往往价格也越高。这种现象一方面是受位置影响,另一方面也很大程度上受供需关系的影响,物以稀为贵嘛。

然而,我们还是发现了一些异常值

第一种是:不仅评价高,房租还低。比如state island的state park附近和布鲁克林东北部。

第二种是:不仅评价低,房租还高。比如state island 的Elm park和布朗克斯北部地区。

商业分析的意义就是发现异常,分析异常,正常现象也不怎么需要分析,用肉眼就可以肉出来。那么我们就以片区分类,分析一下各个地区房源的特点。

除了staten island,别的四个房源都是公寓房型最多,这也很容易理解,毕竟staten island地广人稀,遍地都是大别野(墅)。

正如之前提到的,我们会使用用户的评论来分析房源的需求与定价规律。通常选择那些用户在住宿后两周之内的评论进行分析,这样得出的结果会比较准确。从之前展示的Airbnb受欢迎程度的图表中我们可以看到,每年的用户需求都是有高峰期和低谷期的。从下图👇可以看出,需求量往往在一月最低,之后一直稳步增长到10月份达到顶峰,之后又开始下降。

那么,房源价格方面有没有什么规律呢?从下图👇可以看到,和市场需求状况非常相似,1月开始上升,到11月达到顶峰,然后又开始下降。

再来看一下周末与工作日房源价格有没有什么不同。通过下图可以很明显的看出,周五周六的房源更贵一些,应该是因为很多游客选择周末外出度假,周五出发,周日返程。

我们还可以通过calendar表单中下一年的数据来看下一年的房源预订规律。根据每个月数据的颜色可以看出,一月最冷清,11月最火爆。这和我们之前对市场需求和房源价格的分析是一致的。

数据集里包含了很多数据,但是它往往并不能直接给我们很多有效的结论。如果我们将它进行适当地处理,就可以得到很多有价值的洞察,可以知道顾客的评论是好评还是差评,他们的期待是什么。为了使最后的结果可以用于之后的商业决策,需要对这些评论进行清理,进行词性还原,删除标点以及一些对情感分析没有影响的stopWords。

将所得结果绘制成一个词云图,就可以看到很多有意义的结果。位置是用户选择房源的关键因素,因为neighborhood,location和area这些和位置相关的词都在词云图中非常显眼;和交通有关的词汇比如subway,walk也在评论中频繁出现。另外有趣的是,Airbnb通常都是短租,然而顾客们仍然非常看重房子居住的舒适程度,比如kitchen,这告诉我们用户更倾向于做饭而不是出去吃;bathrooms和beds也多次出现;房东的背景也在顾客的考虑范围之内。

不仅如此,词向量还可以把词义相近的词汇放到一起,绘制一个词义相近的词云图来获得一些结论。

左边的词云图是comfortable,和它比较符合的词有quiet,walkable,clean,spotless,再次印证了周边环境,位置和整洁度的重要性。热心肠的房东和愉快的交流也意味着舒适。

相似的,右边的词云图是uncomfortable,和它比较符合的词有cramped,crowded,small,stuffy,cluttered,说明居住空间不大是顾客不满的一个重要原因;dusty,dirty,unclean容易让顾客抱怨;nervous,unsafe,stressful的房源容易被顾客红牌罚下。

原文作者:Sarang Gupta

翻译作者:Zihuan

美工编辑:喝豆奶的Narcia

校对审稿:喝豆奶的Narcia

原文链接:https://towardsdatascience.com/airbnb-rental-listings-dataset-mining-f972ed08ddec