假期将近——旅游行业是如何应用数据分析的?

假期将近——旅游行业是如何应用数据分析的?

刚过了感恩节,相信大家在年底假期多多少少都会有一些旅游安排,我们也就避免不了会浏览一些旅游相关网站,如常见的Expedia、Booking、Hotels等等;可能还有一些比价网站,比如Priceline,或者这几年比较火的Airbnb也属于在线旅游相关行业。本文将为你介绍旅游业的数据分析应用。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
假期将至!旅游业常见的7个数据科学应用

刚过了感恩节,相信大家在年底假期多多少少都会有一些旅游安排,我们也就避免不了会浏览一些旅游相关网站,如常见的Expedia、Booking、Hotels等等;可能还有一些比价网站,比如Priceline,或者这几年比较火的Airbnb也属于在线旅游相关行业。本文将为你介绍旅游业的数据分析应用。如果你想了解更多数据分析相关内容,可以阅读以下这些文章:
假期将至!旅游业常见的7个数据科学应用
疫情统计:全球公众情绪随时间变化数据
想去Airbnb捣腾数据吗?
有人说Airbnb是家流氓公司,可它竟然用这样的手段打败传统酒店?

在这些网站中,你可以通过搜索一些关键词,提出自己的需求、大概目的地,就会看到哪个城市有哪些相关的景点以及关于这些景点的其他用户评论,可以根据大家的建议决定出行计划,所以在线旅游行业其实是相当大的市场,有很多公司参与其中。

推荐系统(Recommendation System)

不同的公司有不同的侧重点,但无论如何,所有的这类公司都需要进行数据分析。最常见的推荐系统,在很多领域都会有所涉及,比如Amazon这类大的电商会经常用到,可能有时候像逛商场一样没有明确的目的想买东西,会希望系统能主动推荐一些顾客可能感兴趣的商品或者服务。

有的视频网站也会举办很多推荐系统相关的大型比赛,比如,用户看完某个电影或视频后可能会对其他的哪些电影或视频片段感兴趣,如今,短视频十分流行,像抖音、快手、西瓜视频这些公司,也会想尽办法吸引用户短时间内的关注度。不一样的需求,对推荐算法的要求也不一样,需要的用户数据和模型都会变。总而言之,要在推荐系统方面下功夫,才可以提升用户的黏度,尤其抖音之类用户注意力比较短的小视频平台,如果推荐系统做得不好,用户觉得没有意思自然不会继续刷了,用户黏度也就会降低,对公司业务是很大的伤害。

旅游行业也是一样,当用户没有明确旅游目的地的时候,输入关键词,系统就会推荐一些合适的目的地。一些做的更好的公司,可能会收集老用户大概在哪个时间点和哪些人喜欢去哪一类的地方等等因素的数据,来推荐更适合用户出行计划,这个也是一门学问。

机票及酒店价格预测
(Flight Fare and Hotel Price Forecasting)

机票和酒店的价格预测,对于一些中间商盈利相对来说比较重要,比如,预计机票或酒店的价格持续走低的话,就需要把当前的一些票尽快销售出去,或者预测未来价格走高,中间商就可以囤一些票,在将来以较高的价格销售出去,所以,这个预测对于中间商来说比较重要。

智能旅游助手(Intelligent Travel Assistants)

这个蛮有趣的,现在越来越多的语音助手出现在我们生活中,比如语音助手项目。比如大家有了解Watson的话应该会比较熟悉,它现在已经变成一个品牌,之前它是一个叫Watson的机器人,还参加了电视节目拿到了冠军(这个节目主持人会提很多知识型的问题,然后大家PK,答对更多题目的晋级)。Watson对于IBM来说是一种品牌的宣传,它收集了网络上大量的事实类知识库和数据库,这样的话如果问“哪些国家的首都在哪里”,“哪一年发生哪些事”这样的问题,Watson都能对答如流,因为它的背后有很强大的系统在处理。

当时我在IBM工作的时候,就做过一个Watson系统怎样处理旅游行业的相关需求的工作,当时和一些航空公司进行合作和研发,怎样通过Watson给用户提供旅游建议,或者通过用户提供的关键词,去进行合适的目的地推荐以及酒店和机票的推荐。要做到这样一整个流程,我们需要研究怎样将一些常见的、热门的旅游景点的信息导入这个系统,并且系统可以进行分析和推荐。还需要识别用户的意图,比如,用户只是询问旅游景点的相关信息,还是已经确定行程需要订票或者订酒店。要完成这些流程,数据科学在其中扮演着一个非常重要的角色。

社交媒体中的情感分析
(Sentiment Analyst in Social Media)

通过系统分析用户的情感和观点,常见案例有总统选举,民调等等,按之前的传统方式会通过打电话或者调查问卷,但现在,如果我们能有网络的电子化数据,就可以直接进行分析,可以看到大家对某个政党或者候选人的看法是什么。同样,对于旅游行业也是一样,比如分析某个航空公司或者酒店的口碑怎么样,这方面有很多有趣的话题可以研究。

酒店行业的动态定价
(Dynamic Pricing in the Hotel industry)

这个一般来说是指酒店或者是其他行业,比如旅游景点的价格。以酒店为例,我们一般都是从酒店owner的角度出发,决从而定如何动态调整价格。有些人可能会很好奇,为什么需要动态调整价格?难道价格不是一成不变的吗?事实上,价格不是一成不变的。

例如,最近一段时间酒店的预定人数大幅增加,这可能是在圣诞节、国庆节、春节等长假期间,因为这期间探亲访友以及旅游的人数都会增加,那么酒店价格也会随之上涨。但有时,也会因为突发事件,比如某旅游景点突然走红或者发生了某些重大事件,很多人都会慕名而来,这时就需要你实时动态调整价格策略,根据当前预定情况作出调整,甚至可以把一些价格预测和分析结合在一起,包括在网上讨论并分析附近旅游景点,根据下边的评论预测游客数量,从而决定是否调整旅游线路或者酒店价格。

当然,在淡季期间,人流量突然下降或者由于某些特殊情况导致大家无法出门,这时,我们也需要动态调整价格。那么如何灵活调整价格?调整的依据又是什么呢?这些问题都需要数据科学(Data Science)的帮助。

诈骗检测(Fraud Detection)

随着信息化,电话,网络的普及,诈骗等行为层出不穷。个人经常收到诈骗短信,公司也会遇到不同形式的诈骗,例如通过网上银行、金融系统骗钱,甚至骗取公司信息等。

个性化营销手段(Personalized Marketing)

这一点和前面某些内容重叠。如何实现个性化营销?例如,天冷了之后,有些人喜欢去暖和一点的地方度假,但有些人喜欢去更冷的地方滑雪,这两类都属于个性化需求,所以,如果公司数据科学或者机器学习的系统运行良好,你就可以根据用户的历史记录预测用户行为,包括什么时候,和谁,采取怎样的路线,去哪里玩等。

得到个性化信息后,公司就可以给用户发送不同的推送邮件,从而增强邮件营销的效果。一般情况下,通过邮件做promotion/campaign,评判标准为email打开率,或者用户打开之后有没有预订服务等。

用户细分(Customer Segmentation)

这一点和个性化营销存在相同之处。并不是所有用户都有完整的profile,也并不是每个用户的数据都非常全面,但是,我们可以根据用户现有信息对用户进行分组,进而为不同的用户组推荐产品或服务等。这就要求我们个用户现有信息或者是用户在网站上历史数据对用户进行细分。以上就是旅游行业中数据科学及机器学习的话题及应用。

首先,推荐系统(Recommendation system)。随着用户使用量越来越大,算法越来越复杂,推荐系统的价格也会越来越复杂。这里我们通过协同过滤(Collaborative Filtering)的算法进行分析:有一个网站想要通过类似的算法为用户推荐产品或服务,可能需要后台或前端的帮助。

在本例中,后台需要从网络(新闻网站等)或其他渠道收集一些数据,而不是仅仅局限于内部产出的数据,生成评级指标(Rating metrics/Prefence metrics)尤其是对于举证或者是协同过滤算法来说,推荐算法中最常见的指标维度为用户(user)以及产品或服务(item)在这两个维度之下,我们就可以知道用户对产品或服务的评分或喜好程度。这个举证过程就叫做评级指标。有了这些举证,我们还需要一些算法,所以我们会把最原始的分数提供至前端(包括KNN Neighborhood Estimator及基于最近邻的CF recommender)

而基于用户的CF recommender需要找到与给定user相似的群体,这就需要找到K最近邻的算法或相似群体的计算,找到K个人,从这K个人的评级或喜好中挑出一些,发送给给定用户。之后,我们可以通过用户界面(Interface)为用户推荐产品或服务等。这里面还涉及用户简介(User profile),包括用户姓名、年龄等,帮助我们进行个性化营销。用户界面和前端也存在一些交互,例如用户模型(User model)&推荐(Recommendations)也涉及用户如何使用界面(Interface),包括用户浏览了那些界面,点击了哪些链接,最终购买了哪些商品等。最后还会有一些反馈(Feedback),不断优化后台运行。以上就是CF推荐系统的基本架构。

第二,有关酒店及机票价格预测。首先,你需要了解哪些因素会影响产品/服务的价格,作出哪些调整,从而预测价格。最简单的方法就是运用线性回归(Linear Regression)。我们可以假设这些影响因素都是以线性回归的方式影响价格,从而通过线性回归模型计算每个影响因素的权重。

为了比较这些权重,首先,你需要收集大量数据,处理数据(包括Feature Engineering,对数据进行标准化处理,使这些影响因素具有可比性)。接着,你可以进行建模(Modeling),根据现有数据拟合一个模型,再在测试(Testing)的数据上拟合一个模型,比较拟合效果。其中的测试(Testing)也包括线下评估(Offline Evaluation),如果你采用的是线性回归,同时拥有波动数据(Ripple data),根据历史记录,得出20个影响因素,从而决定实际价格。

这就是model fitting和testing,testing也包括一些无效验证和线下验证,如果根据已有label和data做linear regression,你会知道根据历史记录,给20个因素,最终实际价格应该是多少。当然也可以预测一下,对比分析预测价格和实际价格,看它们之间的误差。

最后一项是Deployment,Deployment指的是online app,将来在线下尝试一个模型,但是在online app上必须有一个实时反馈。在模型训练好之后,将新情况的20个因素输入,预测价格应该是什么数值或在什么区间范围内,把online app prediction和Spring这部分进行开发和部署,最终有一个可以服务线上的系统。这里也列举了一些算法,Time series analysis和XGBoost,怎么样做一个集群算法.

再下一个是Sentiment Analysis,这里我们挑一些常见的Sentiment Analysis方法讲讲。最常见的就是可以分为Machine Learning based 和Lexicon based。我们先看简单的,基于现有数据和label来了的Lexicon based方法,最简单的就是Dictionary-based。

Dictionary Sentiment主要讲是multi-natural,偶尔会有更复杂的情况,我们会考虑不同的登记,比如0到10,0表示最讨厌或憎恨,10表示最喜欢,有9-10个登记,但无论如何都有一个dictionary,用登记表示positive attitude scale(正面情绪等级),positive就是喜欢、赞赏、欣赏等,negative负面情绪就是讨厌、不喜欢、没有效果或效果很差等,并通过等级来做一个Dictionary Sentiment Analysis。

还有Corpus-based,Corpus-based就是统计学,和基于语义(Semantic)。统计学就是很多计数,比如计算人口;而Semantic比较复杂一点,需要理解它语义是什么,因为有些时候基于query还不够,需要理解整个一句话。比如说,你并不喜欢这个电影,但是如果简单对这个评论进行查询发现“喜欢”的话,可能你会觉得这是positive评论,实际上不是。比如说我不太喜欢这个电影,这句话有不同的表达方式,都属于否定,这个时候就可以加入一些语境和语义,从语义角度真正理解这部电影是正面还是负面。

Machine learning机器学习经典分法就是Supervised Learning(监督式学习)和unsupervised Learning(非监督式学习),一般来说,Sentiment Analysis大部分是监督式的,监督式的算法比较多,有Linear Classifiers,Decisions Tree Classifiers,Rule-based Classifiers,Probolistic Classifiers,Probolistic Classifiers有Naive Based,Bayesien Network,Maximum Entropy。如果要做Sentiment Analysis,大部分是分类问题,比如要分成喜欢还是不喜欢,这个问题有什么流派或者是可以做的方法。

下一个是Dynamic Pricing动态定价。价格和时间是有一定关系的,不同季节和不同时间段的价格差别比较大,强调实时性,如果实时性较好,就需要考虑几分钟级别的价格变动,而不是几天,几个小时。

这里举一个例子,从房间的单价来看,根据需求来增加或降低房间的单价,如果需求量大就涨价,如果需求量小就打折,我们还需要自动化的系统收集准确的数据来进行预测。怎么收集取决于模型和算法本身需要的东西,比如要看用户预定相关线路、景点门票,如何做好需要的,如果旅客去一个地方,一定会去周边相应的景点,是不是需要了解一下周边门票的情况,或者到这个地方可能有飞机、火车、长途巴士等不同的交通渠道,可以收集到座位情况,大概能做一些预估。举个例子,了解怎么预测并且有针对性地收集一下数据。

最后是比价,除了需要考虑市场热度,旅客人数的多少,还要考虑竞争对手的价格,这在电商里面应用比较多。像亚马逊的比价系统,在业界还是挺有名的,如果你有所了解的话,你会发现,大部分时候比较主流的一些在线购物网站,比如亚马逊价格通常,都是比较低的,就是因为它们有一个比价系统,会实时去观察。当然。对亚马逊来说,比较有挑战的地方是要有一个标准化的产品,因为亚马逊有很多第三方卖家,比如说随便卖一个不太标准的产品,数据线、家居用品等不太标准化的产品,很难去对比。

但是,对于标准化的商品,电脑、手机、某个品牌的包包等等非常标准化的商品就可以去比价,知道这个商品是什么,从竞争对手那把这个商品拉过来,就能知道我们价格偏高还是偏低,如果偏高了就要降价,保持价格优势。这就是智能比价。那么对于酒店也是同样的,虽然酒店不是完全标准化的,就像前面讲得,决定房间价格有很多因素,但是在相同的地点下,还是有一定标准的,通常对于旅游景点而言竞争对手就在方圆几公里内,地址相对来说是比较固定的,需要考虑到竞争对手类似的房型、类似的楼层、类似的面积、有没有景观等等。综合这几种因素,比较一下和你匹配的房间的价格高低,所以观察一下竞争对手也是很有必要的。

这里简要介绍一些比较细节的策略,我们看几种比较大的范畴,Cost-based pricing(基于成本的定价),Value-based pricing,Customer-driven pricing,Competition-driven pricing,以及各自的优势和劣势。如果考虑到Cost-based pricing,酒店就比较容易获利,不易亏本;但是由于只考虑到成本,其缺点是对于其它因素考虑不足,比如需求非常强烈或疲软,只考虑成本而忽视需求会对价格产生影响。比如整个市场萧条没有人旅游,如果只考虑成本去定价,那么就会出现有价无市没有人会来的情况。

第二就是Value-based pricing(基于价值的定价),优势就是会有更的利润,给用户提供了很大的价值,挑战就是怎么增加用户购买意愿,比如你提供了很多附加值,但不一定是用户需要的,这也是一个问题。Customer-driven pricing(基于客户的定价)很容易理解,就是根据用户意愿程度定价,客户一般是什么样的相对阶层以及他们愿意花多少钱,如果考虑到这,会更容易让客户买单,当然有时客户信息并不是透明的,所以很难去掌握这个度。

最后一个是Competition-driven pricing(基于竞争对手的定价),需要考虑竞争对手的情况,如果比竞争对手在价格和服务方面做的更好,就会占据更多市场份额,缺点就是利润空间较低。

任意一个策略都是有利有弊,需要考虑公司利益和当前最注重的因素,在通过各种各样的数据分析来告诉决策者,现在处于什么情况,我们应该怎么样,下一步怎么去做。任何时候人的决策都是很重要的,数据分析和商业分析只是一种工具,所以我们要根据实际情况进行合理的分析。

我们再来看一下Fraud Detection(欺诈识别),它包含不同的角度和维度。

第一个是Travel Agent,这个主要是代理中介,比如买机票、订酒店,而最后发现,这个travel agent是假的,卷钱跑路了,这个是很常见的一种诈骗形式;

Refund Fraud,这个是倒过来的,相当于是诈骗的人去从卖机票的中间商、航空公司或者酒店去骗钱,比如他冒充某一个已经订过酒店的人的身份去跟酒店要钱,当然现在商家为了防止这种诈骗,会把资金原路返回。

Last-minute buyer fraud,就是说有些买家会在最后几个小时或者是一两天之内订一个机票或者酒店,有可能诈骗的人用某种方法提供了一些假的支付方式,酒店一开始可能并没有发现就让他入住了,入住完之后才发现是有问题的,这个也是一种诈骗形式。

Frequent flyer buyer fraud,这个大体是说,诈骗的人把用户的账户给破解了,然后他们能用某种方式把用户之前的积分或是里程给偷出来兑换掉或者用掉。

Holiday fraud,这个比较常见,比如假期的时候要出去玩,这个时候突然收到email说我们是某家航空公司的,现在有什么优惠或者抽奖中奖了,诸如此类的通过节日大家有比较高的消费欲望又有很多流量的时候诈骗;通过冒充某个营销的推广或者是折扣 来进行诈骗,这个也是很常见的。

不管是什么类型的诈骗,你要了解这些诈骗行为的特征是什么,从Data Scientist的角度来说就是去收集什么样的信息或者是特征,把它作为一个机器学习的问题。通常可能也是Supervised Learning,那是不是可以收集一些历史的数据,针对这个任务来说收集了数据之后怎么去做Feature cracked 和Feature engineering ,怎么去创建功能,有了这些功能之后,可以做一些模型测试,看一下效果等等。

针对这个应用来说也是很常见的一个机器学习的问题。这里要提一下,像这种问题和一般的问题不太一样的地方是在于它,通常是一个不平衡的分类问题,因为通常情况下,我们知道目前生活中诈骗是普遍存在的。总体来说,如果一个公司的业务是比较正常,那么它的诈骗比例还是非常低的,可能有千分之几或者是百分之一就已经很夸张了。

下面看Personalized Marketing(个性化推广),第一个就是怎么做一些定制化的推荐,比如说,对旅游行业的人来说要推荐酒店、景点,不同的人有不同的习惯我们要做一个合适的推荐。

第二个Social media marketing(社交媒体推广),这个也是大同小异,从某种角度来说也是针对个人的,比如,你在Facebook上看到的广告和另外一个人在Facebook上看到的就不一样,这就是怎么在社交媒体上做一个personalization。

接下来Targeted emails,就是通过发email的形式来给到你,定期会发送email,但是每个人拿到的email也不一样。

第四个其实也是大同小异,是通过text messages的形式推广。

最后一个Remarketing Campaign

还有一个比较重要的形式是APP,现在很多都是通过APP推送,通常APP推送也比较及时和直接。

最后,我们来看一下Customer Segmentation(用户细分),怎么划分用户的组别。

最基本的当然是地理位置,从旅游行业来说看你出发地和目的地,这个是比较容易做的。

下一个是Gemographic生物特征,比如说是什么年龄段、性别、婚姻状况、宗教信仰、职业等,因为通常来说相仿的年龄,同样的性别,同样的婚姻状况,收入也差不多这些人可能更容易有共同语言,他们切分同一类用户之后就更容易进行集中性的推送。

最后一个是psychographic ,与心理相关,这个更多指的是大家有相同的兴趣爱好,但这个相对来说比较难收集,需要比较多的历史数据。

最后,上图中还列举了customer segmentation还有哪些类型。前面讲三点是比较大的维度,下面图片上这些是细分的,相互间并不冲突,可以根据上面一些比较大的维度来划分更细的类型。

以上就是关于旅游业数据分析的应用分享。你在计划旅行、或是旅途中,有感受到数据带来的影响吗?欢迎在文章下方留言!你还可以订阅我们的YouTube频道,观看大量数据科学相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/

Recap 作者:数据应用学院
美工编辑:过儿
校对审稿:佟佟
公开课回放链接:https://www.youtube.com/watch?v=5rtgB9_nLiA