Blog

Sep
18

机器学习中的文本分类是什么?

随着文本/文档数据比其他数据类型更加丰富,利用它们的新方法势在必行。由于数据本质上是非结构化的,且极其丰富,因此以易于理解的方式组织数据,可以大大提高其价值。将文本分类与机器学习结合,可以用更快、更具成本效益的方式自动构建相关文本。我们将定义文本分类、它的工作原理、一些常见的算法,并提供可能有助于开始文本分类之旅的数据集。

By Zhang Bonnie | Blog
DETAIL
Sep
18

头大了!NLP, NLU, NLG都是什么?

NLP是来自不同学科的方法的组合,像Siri和Alexa这样的智能助手使用这些方法来理解我们问他们的问题。它结合了人工智能和计算机科学等学科,使人类更容易像与其他人一样与计算机交谈。将人类对话传真到机器上的想法可以追溯到艾伦·图灵(Alan Turing)的一篇开创性论文——这篇论文为我们今天使用的NLP技术奠定了基础。

By Zhang Bonnie | Blog
DETAIL
Sep
16

Ins 数据科学、机器学习及AI宝藏博主推荐

很多人都在用Instagram——即使现在还没有,它也绝对是最顶尖的社交媒体应用之一。我做了一件事——关注了很多有关数据科学、机器学习和人工智能的Instagram账户。我也会关注其他类型的内容,但看那些代码、待解决的问题或基于理论的知识,会让我的大脑运转起来。它让我了解了我所知道的东西以及我需要进一步研究的内容。

By Zhang Bonnie | Blog
DETAIL
Sep
16

如何使用Python进行运动检测?

Python编程语言是一种开源库丰富的语言,它为用户提供了大量的应用程序并拥有大量用户。因此,它在市场上增长得很快。Python语言的优点不胜枚举,因为它的语法简单,易于查找错误,并且调试过程快速,使其对用户更加友好。

By Zhang Bonnie | Blog
DETAIL
Sep
12

如何准备娱乐/游戏行业数据科学家面试

应该如何准备面试呢?最主要的是产品部分。其他的部分:数据库面试题目除了在难度上有一定要求外,很有可能和产品应用有关,比如游戏应用场景(会话和关卡)。统计和机器学习部分都有涉及,回归和时间序列可以预估某个时间有多少活跃用户,准备多大的服务器负载,这是活跃用户的数量测试;分类可以预测用户的一些非正常行为。

By Zhang Bonnie | Blog
DETAIL
Sep
12

谷歌官宣大数据平台-BigQuery

事实上,这并不是最新的消息,因为谷歌宣布BigTable和BigQuery的集成很容易,而且谷歌BigLake几个月前都存在了,现在谷歌批准了它正式版本的发行,使用新方法可以克服传统ETL的一些缺点。

By Zhang Bonnie | Blog
DETAIL
Sep
11

SQL数据清理及准备 – 看这一篇就够了

为清理和准备数据进行分析所采取的步骤:检查重复数据并将其删除、删除多余的空格、在需要时分离或组合单元格中的值、检查某些列中的值是否在适当的范围内、检查异常值、纠正拼写或输入错误的数据、向数据中添加新的相关行、如果缺少初始条件,则检查空值并根据其他条件检索记录,检查值是否遵循准确的模式。

By Zhang Bonnie | Blog
DETAIL
Sep
09

用 SQL和Tableau做客户流失分析

关于数据分析领域,我最喜欢的事情之一是将杂乱的数据转化为对企业产生影响的可操作项目。几周前我得到了一家电信公司的客户流失数据,并进行了客户流失分析,目的是识别高价值客户/流失风险,提高客户留存率。

By Zhang Bonnie | Blog
DETAIL