贝叶斯:一个数据界的事后诸葛

贝叶斯:一个数据界的事后诸葛

TOPIC #1 — 贝叶斯统计 

#1-1 什么是贝叶斯统计呢?

贝叶斯更像一种统计学派,是区别于传统统计的一种方法,通过prior beliefs来推断新的posterior beliefs,而相关数据就被当做Evidence。

贝叶斯理论是从Bayes’ Rule推导得到的。最终的公式类似条件概率,A是先发生的事件,B是后发生的事件。所以贝叶斯理论就是推算在后发生事件的的前提下先发生事件发生的概率,也就更注重过程的推理。

两者结合我们就能得到Bayesian Inference。在有数据的基础上来推断参数的分布。

Topic #2 Frequentist频率学派

与贝叶斯学派相对立的一种学派叫做频率学派(Frequentist),也就是通过随机事件长期频率分析的传统统计学派。所以频率学派认为事件的sample是随机的,而贝叶斯学派认为参数是随机的而不是事件本身。这也就导致两个学派的方法完全不同。

Topic #3 Bayes贝叶斯学派与Frequentist频率学派比较

以Linear Regression为例说明,频率学派对于参数可以用Maximum Likelihood Estimation(MLE)得到解析解值来确定。而贝叶斯学派要先设定一个Prior并假定数据是Normal Distribution来进行posterior估计。在数据量足够大时,两者的推测结果是差不多的,但是收敛的速度是不一定的。贝叶斯理论对于prior的设定就很重要,prior与posterior越相似,收敛就越快。

Topic #4 Bayes贝叶斯统计的发展

#4-1 贝叶斯统计的过去与现在

贝叶斯在发展初期并不容易,因为当时对于分布的积分是很难计算的。于是Conjugate的概念就被提了出来,比如确定了prior和likelihood的分布,就能直接得到posterior的分布。比如Normal prior + normal likelihood  =  beta posterior,Beta prior + binomial likelihood = beta posterior,Gamma prior + Poisson likelihood = gamma posterior。

随着计算能力的发展,人们又提出了Markov Chain Monte Carlo(MCMC)的方法。这个方法的原理就是从某个分布里面取大量的sample,计算每个sample的分布,并将所有符合新分布的sample留下,所有留下的sample组成posterior的经验分布依据。虽然没有Conjugate那么受限制,但还是很依赖于prior的分布。

近几年新提出的一个方法叫做Variational Bayesian,类似MCMC,但是是通过对parameter来逼近posterior的分布而不是取sample。这种方法在某些问题的解决会大大减少计算。

#4-2 贝叶斯统计在实际问题中的应用

在对贝叶斯有了基础了解后,我们接着带大家看一下现实面试里关于贝叶斯的问题。

Question:Facebook data scientist interview

You’re about to get on a plane to Seattle. You want to know if you should bring an umbrella. You call 3 random friends of yours who live there and ask each independently if it’s raining. Each of your friends has a 2/3 chance of telling you the truth and a 1/3 chance of messing with you by lying. All 3 friends tell you that “Yes” it is raining. What is the probability that it’s actually raining in Seattle?

Answer:首先我们可以问面试官prior的分布,这样做的同时还可以间接地让面试官确认你的思路是没有问题的。比如面试官给了25% raining on any given day in Seattle。

贝叶斯在当今也是有很多应用的,比如Bayesian Network。以game ranking为例,player match就要求匹配的玩家水平尽量相同。所以ranking system主要考虑两个因素:1. The average skill of the gamer (μ );2. The degree of uncertainty in the gamer’s skill (σ ). 然后根据玩家skill之间的关系在Bayesiannetwork里调整玩家的匹配等级。

现在,大家应该对贝叶斯有更深的理解了吧。

阅读原文