只需要简单3 步!在 Azure 上构建部署微服务 NLP 模型
对于数据科学家来说,处理数据是一回事,但将机器学习模型部署到生产环境可能是另一回事。根据不同的云部署方式,这个过程可能需要几分钟到几个小时不等。更重要的是,部署方式还应该基于可扩展性和你的预算要求。 本文将展示一种直接使用 Python 代码(不是构建容器),将 NLP 模型作为微服务,然后部署到 Azure 的快速方法。
从Marplotlib到Plotly: 教你入门Python数据可视化
Matplotlib 是在 Python 中创建可视化最快且最直接的工具,但它最适合初始的探索性分析和静态绘图。而Plotly 是一个较新的开源图形库,可以高效地创建更复杂的交互式可视化。本文将逐步带领你通过 Plotly 创建带有自定义工具框(Customized Tooltips)和范围滑(Range Slider)的交互式组合图(Interactive Combo Chart)。你将学习Plotly的关键概念和特性,文章也会为您提供完整的代码。
从头开始实现Naive Bayesian朴素贝叶斯
朴素贝叶斯(naive Bayes)分类器是一种用贝叶斯定理,从而对对象进行分类的算法。此模型易于构建,对于非常大的数据集特别有用。 除了简单之外,众所周知,朴素贝叶斯的效果甚至优于高度复杂的分类方法。如果你有涉猎过机器学习,那你一定听说过这个模型。在本文中,我们将用Python和NumPy一步一步地从零开始实现朴素贝叶斯分类器。
Hadoop是什么?一篇文章带你快速入门
大数据(Big Data)是指需要存储、分析、处理的海量数据。而Hadoop是一个开源数据库框架,由Apache软件基金会(ASF)管理,编写语言为Java,用户可以通过Hadoop存储并处理大数据集(从GB到 PB 级),解决了大数据的两个主要问题——存储海量数据并处理存储的数据。本文将带你了解Hadoop,并扩展讨论Spark的技术和应用场景。
Power BI 建模 —— 一些提示和小技巧
模型的定义是“一个由假设、数据和推理组成的系统,以对实体或事态的数学描述的形式呈现。” 数据科学家的模型也是为了做同样的事情。而不管是对于个人还是企业,一个模型越简单,就越容易理解、管理、更新和维护。本文将介绍一个经过简化的模型,以及一些可以帮你排除故障的工具。
我总结了2021年,人们对于数据科学的几个误解
数据科学家(Data Scientist)作为21世纪最酷的工作,很多入行的同学对公司和职位本身的期待非常大。但可能因为对一些行业的不解,导致入行后的一些压力和失落感。本文将从我的个人经历出发,讨论你可能也遇到过五个误解,比如工作时只查看模型误差和准确度,以及忽视SQL的重要性等等真实情况。
数据科学家应该看的4部电影——我们要如何有责任地使用数据?
数据科学爆发式的增长,为人类带来无限可能的同事,它对社会会有破坏性影响吗?答案是肯定的。本文介绍了 4 部电影,有的是纪录片,有的是剧情,也有两者的混合,主要揭示了滥用数据和人工智能对政治、公共卫生、以及对社会不同部分的负面影响。希望通过这几部电影,引起你的思考,更正确地、有责任地使用数据。
Meta问世——他们会开放哪些数据分析岗位?
在宣布将 Facebook 打造成“元宇宙(Metaverse)公司”的计划后,互联网爆发了对元宇宙的热议,成为了最热门的技术和社会经济话题之一。 在Meta,分析是一项基本技能。而主要有两个岗位会用到这项技能:数据科学和数据工程,两个岗位包含了不同的专业知识在本文中,我们将探讨Meta作为分析型公司的职业发展总体方法。