领英知识图谱(LinkedIn Knowledge Graph)提升数据价值
【这是一篇关于领英知识图谱(LinkedIn Knowledge Graph)如何利用大数据和机器学习技术来为会员带来价值的非技术类文章,应insideBigData的邀请,由我和我的同事Bee-Chung Chen共同完成】
领英数据代表着全球最大的在线职业社交网络,其中包括4.6亿的会员,2.9亿的工作机会以及9百万的公司和组织。这些数据为我们的会员提供了消费品的基础,也为高级会员提供了货币化的产品。我们知道,数据的价值通常是由盈利性和用户对产品的参与度来衡量的,而这两者都基于数据的准确性和全面性。举个例子,LinkedIn Sales Navigator的成功与否,就取决于它是否准确地帮助销售人员找到目标公司里的决策者以及能找到多少这样的决策者。
从领英的数据中提取出的知识必须是没有歧义的而且可以被计算机辨认解析的。领英知识图谱在实体分类理论的基础上,搭建出职业社交领域的框架,从而实现实例和关系的标准化。这样的构建过程定义了各个实例的ID,属性以及实例之间的关系。与会员输入的未经处理的数据相比,领英知识图谱从根本上提高了对知识的表达的质量。为了提高数据质量,知识图谱中所有的实例内部关系(例如,组织之间的从属关系)和实例间关系(例如,一个会员的有某种技能,而一份工作需要这种技能的人)都由最先进的人工智能方法计算并生成。必要时,也会由该领域的专家来进行校对。为了扩展数据的全面性,领英知识图谱也整合吸收了外部的数据源。
bestpainrelievers.net,我们会讨论领英知识图谱为提升数据价值所采用的3大策略
基于实例分类的结构化数据
如下图的领英会员个人主页所示,领英的数据是半结构化的。它包括结构化的部分(包括头像,姓名,职位,所属组织,地理位置和公司规模)以及像个人介绍这种自由的文字形式的非结构化的部分。我们通过机器学习的技术从个人介绍中提取技能,工作经历以及其他相关组织等信息。之后,所有的结构化数据和由机器学习技术提取出的部分会被映射到标准化的实例中,使得这位领英会员可以被一组实例来表示。
这个标准化的过程是领英知识图谱的基础,它使得各种形式的内容都能被清楚地分类和标记。利用这个标准化过程,应用程序可以目的明确地为用户提供推荐并呈现丰富的内容,进而提升用户的参与度和产品的利润。
数据分享平台为唯一标准
全局标识格式使得数据分享可以横跨整个领英生态系统。我们创建了数据分享平台并以此为唯一的标准来生成知识图谱。广告定位和会员搜索都从同一个平台获取所需的数据。例如,输入“软件工程师”,广告定位到的群体和会员搜索到的结果是相同的。
不同应用程序之间从同一个平台共享知识也可以极大地减少这些应用程序开发所需的重复劳动力,而且有助于统一全公司的数据分析和洞察工作。
为会员带来价值
知识图谱不仅导致领英货币化价值的不成比例的分布(例如,高质量高标准化的会员的资料要比低标准化的会员资料要更有价值),它也为会员提供了独特的价值回报。举个例子,基于知识图谱提供的信息,领英为会员自动生成了一个个性化的个人介绍,并将此推荐给没有完成填写个人介绍的会员。
领英也利用知识图谱来为会员的个人介绍生成推荐的补充条目。比如,“有某种技能的会员比没有这种技能的会员多收到30%的信息”,或者,“有某种技能的会员比其他会员高15%的概率取得一个新的职位”。
以上例子中,领英知识图谱通过不断互动并帮助会员补充个人介绍的方式来为会员带来价值。会员的反馈(接受,拒绝,忽略)也进一步巩固了知识图谱的学习过程,进而创建出一个更强大的领英生态系统。
内容及图片来源: LinkedIn Qi He
翻译:刘霄阳