数据科学

Oct
03

决策树剪枝101

决策树是一种非监督学习方法,可用于分类和回归任务。目标是建立一个模型,通过学习从数据特征推断的简单决策规则来预测目标变量的值。决策树是机器学习算法之一,容易过度拟合。剪枝是一种技术,它删除了决策树中阻止其生长到完全深度的部分。它从树中移除的部分是不提供对实例进行分类的功能的部分。一个被训练到其最大深度的决策树很可能会导致过度拟合训练数据,因此剪枝是很重要的。

By Zhang Bonnie | Blog
DETAIL
Sep
25

数据岗位求职:2022秋招,多家北美大厂停止招聘,还有哪些数据岗位在招人?

疫情之后,美国的经济也遇到一些罕见的情况,很多公司都开始缩减招聘预算,在这种复杂的情况下,我们很有必要看看还有哪些公司在招人?哪些行业还在持续增加招聘预算?准备这些企业的面试需要注意哪些问题?怎样提升面试的成功率?

By Zhang Bonnie | Blog
DETAIL
Sep
24

处理不平衡数据的7个小技巧

在这些领域使用的数据通常只有不到 1% 的罕见但“有趣”的事件(例如使用信用卡的欺诈者、用户点击广告或损坏的服务器扫描其网络)。然而,大多数机器学习算法不能很好地处理不平衡的数据集。本文介绍的七种技术可以帮你训练分类器来检测异常类。

By Zhang Bonnie | Blog
DETAIL
Sep
12

谷歌官宣大数据平台-BigQuery

事实上,这并不是最新的消息,因为谷歌宣布BigTable和BigQuery的集成很容易,而且谷歌BigLake几个月前都存在了,现在谷歌批准了它正式版本的发行,使用新方法可以克服传统ETL的一些缺点。

By Zhang Bonnie | Blog
DETAIL
Aug
26

非结构化数据在人工智能领域的应用

尽管有些数据源缺乏可预测性,但这并不意味着它们没有用处。这方面最常见的来源是用人类语言编写的可读数据文本。除了语法的基本规则以及讲故事和新闻的一些惯例之外,没有什么明显的结构可以用来理解信息并将其转化为可靠的数据。

By Zhang Bonnie | Blog
DETAIL
Aug
22

做数据科学项目,别再用Anaconda啦!

在我作为AI工程师的第一次实习中,我的导师问我以前是否使用过Python packages管理器。我想给他留下良好的印象,所以我说我用过Anaconda。不过,我并没有讲我的不好的经历。他说我应该用Miniconda代替Anaconda。他给了我以下原因…

By Zhang Bonnie | Blog
DETAIL
Aug
22

谷歌宣布全面暂停招聘两周

谷歌高级副总裁Prabhakar Raghavan在《the Information》获得的一封电子邮件中表示:“我们将利用这段时间来审查我们的员工需求,并在未来三个月内调整一套新的优先人员配置请求。”

By Zhang Bonnie | Blog
DETAIL
Aug
09

香蕉厂商业智能工程师都做什么?

一般来说,作为BIE,你需要处理数据、识别数据、分析数据并提供数据驱动的见解。更具体地说,本文会讲到亚马逊BIE最有可能做的四种工作。

By Zhang Bonnie | Blog
DETAIL