你知道吗?SQL也能做机器学习!
现在,我们可以用 SQL 来运行机器学习模型!那SQL 要如何在机器学习模型中使用,我们要如何使用 SQL 生成预测呢?只需要用标准 SQL 查询,我们就可以用BigQuery ML创建机器学习模型。BigQuery ML 让数据科学家、机器学习工程师、和数据工程师可以直接用 SQL 快速构建和分析机器学习模型。本文将带领你创建BigQuery ML项目,通过通用的SQL 语法进行机器学习。
Data Scientist生产力进阶—Python OOP编程快速入门
Python 是数据科学中最重要的一种语言之一,它拥有众多库和内置功能,可以轻松满足数据科学的需求,引领着整个数据科学行业。在Data Science面试以及工作中,如果能了解Python OOP,不仅有助于深入理解Pandas、Numpy等背后原理,更能使得代码的可读性、复用性、以及团队协作性进一步提升。本文将带你了解Python 面向对象编程。
数据科学是如何转变游戏行业的?
在过去几年里,随着游戏用户数量的增长,数据科学已逐渐成为游戏公司追赶其他公司的头号工具。以前人工设计的游戏,现在已转变成了数据驱动设计的游戏,为玩家提供了非凡的游戏体验,也为游戏公司提供了许多数据科学用例,对游戏进行优化和改进。在今天的文章里,我们将介绍数据科学是如何在游戏行业中发挥重要作用的。
通过案例数据集,带你了解Python数据分析和数据可视化
由于“数据消费者(data consumers)”接受信息的方式,使用图表或图形来显示大量复杂数据,往往比电子表格或报告更简单,这也是数据可视化的魅力之一。想要了解一组数据的特征,我们需要选择数据量、数据中的变量总数等基本方面来总结数据;同时也要识别数据问题,例如缺失值、不一致和异常值等等。本文将向你展示如何用“房价数据集”进行一些简单的数据可视化.
评估回归模型(Regression)— 你需要知道这3个指标
基于回归的机器学习模型(Regression-based machine learning models)被数据科学家们用来预测连续属性的值。和任何机器学习问题一样,我们都会有几个指标用来确定模型的整体性能。你选择的指标将取决于训练模型的数据,以及模型的使用方式。在本文中,我将分享三个可用来评估回归模型的性能的指标。
2022年数据工程就业市场:对1000个FAANG职位信息进行分析
2022年数据工程师(Data Engineer)需要哪些技能?为了回答这个问题,本文分析了在LinkedIn上收集的Meta、亚马逊(Amazon)、苹果(Apple)、Netflix和谷歌15加顶尖科技公司的数据工程师职位信息,探索最受欢迎的技能和技术;通过可视化的方法,向你展示这些技能需求的分布和受欢迎程度,帮你求职数据工程师确定方向。
实用SQL函数清单——教你用SQL清理数据
进行数据分析时执行的首要任务之一是创建干净的数据集,很多分析人员80% 的时间都用于处理数据。SQL 可以帮助加快这项重要任务。 在本文,我们将讨论将带你了解SQL的一些基本指令,并解释它的详细用法。可以用这些指令从查询输出中清理、转换和删除我们不想要的形式的重复数据的不同函数。
数据泄露Data Leakage是什么?你为什么要注意?
在执行机器学习任务时,维护数据的干净卫生是至关重要的。然而,尽管现在大家对这个主题都进行了充分的探讨,但对数据卫生的巨大威胁却缺乏认识,比如数据泄漏—Data Leakage。在本文中,我们将探讨什么是数据泄漏,通过介绍一个数据泄露案例,带你了解它是如何发生的,以及应该如何防止。