关系数据库系统正在成为一个问题——如何解决它?
如果你不喜欢SQL,你就不会喜欢RDBMS,因为SQL本身就是一个奇幻的世界。并不是所有的SQL都是相同的,你了解MySQL和它自己的术语,你了解微软的T-SQL和世界著名的Oracle PL/SQL,也许不必在意它们彼此都不兼容。这些我都见过——金融、交通、酒店、社交媒体、视频流服务等等。无论你去哪里,都可能找到关系数据库,这个世界似乎完全是在关系数据库上运行的。
2023年你需要知道的13个数据行业流行语
2022年,数据处于所有技术进步的前沿。这一年都是关于小数据、日常工作的自动化、对云的更强依赖、对业务的强大预测模型,以及高管们只希望看到仪表板。我们在2022年听到了对新数据术语的介绍,它们在2023年成为我们词汇的一部分,这篇博客是关于那些肯定会在我们生活中出现的数据和技术专业人士的热门词汇。
实战项目必备的5个高级SQL技巧!
在这篇文章中,我想分享我在日常工作中最常用的五种高级SQL技术。通过掌握这些技术,你将能够完成近80%的生产级SQL查询,使你成为任何数据驱动项目的宝贵资产。我有意不包括一些其他常用的技术,例如事务。如果你担任的是分析角色而不是软件工程师角色,此方法列表将非常有用。在整篇文章中,我假设我们在Postgres数据库中。但是现在每个主要的关系数据库都提供类似的功能。
Google BigLake是Snowflake、Redshift & Co.的杀手吗?
由于大多数企业数据源存储在不同的数据孤岛中,如不同的云存储,数据平台等,利用这些数据的首要需求是数据湖(data lake)或数据湖仓(data lakehouse)。通过 BigLake,谷歌引入了一个引擎,其中可以将所有企业数据以及耦合数据源聚集在一起。这包括 Snowflake 等数据仓库技术,Tableau 等商业智能工具,以及 AWS 和 Azure 等公共云存储中最重要的内容。
SQL数据清理及准备 – 看这一篇就够了
为清理和准备数据进行分析所采取的步骤:检查重复数据并将其删除、删除多余的空格、在需要时分离或组合单元格中的值、检查某些列中的值是否在适当的范围内、检查异常值、纠正拼写或输入错误的数据、向数据中添加新的相关行、如果缺少初始条件,则检查空值并根据其他条件检索记录,检查值是否遵循准确的模式。
谷歌正在打击微软 Azure 及其数据服务
凭借其谷歌云,谷歌可能落后于AWS和Azure,但在数据分析方面它与领导者并驾齐驱。因此,谷歌现在希望通过其旗舰BigQuery提供独立于云和平台的数据分析,这是合乎逻辑的,因为你使用哪种云存储并不重要。
数据人必知的5个异常值检测小技巧,你用过哪个?
数据集中可能存在异常值的原因有多种,例如人为错误(错误的数据输入)、测量错误(系统/工具错误)、数据操作错误(错误数据的预处理错误)、采样错误(从异构来源创建样本)等。检测和处理这些异常值对于学习一个健壮且可推广的机器学习系统非常重要。本文我们将介绍每个“数据爱好者”都必须了解的 5 种异常值检测技术。