数据分析

Jun
20

Microsoft Fabric对Power BI的影响如何?

Microsoft Fabric代表了Power BI用户与数据交互和可视化方式的范式转变。通过利用先进的技术和尖端的设计原则,Microsoft Fabric开创了直观且身临其境的数据体验的新时代。Microsoft Fabric是一个端到端分析工具,具有全面的服务功能,包括数据移动、数据湖、数据工程、数据集成、数据科学、实时分析和商业智能——所有这些都由一个共享平台支持,该平台提供强大的数据安全、治理和合规性。

By Zhang Bonnie | Blog
DETAIL
May
31

3个能瞬间提升查询速度的SQL优化技术

想想一本非小说类的书。要知道我们在哪一页讨论一个特定的概念并不容易。因此,在书的最后,你经常会看到一个叫做索引的部分。它会按字母顺序排列文本中的所有关键字以及它们出现的页面。这使我们更容易快速到达我们想要的地方。类似地,在数据库中,索引类似于经常用于搜索表中的数据的关键字或主题列表。通过在一列或一组列上创建索引,数据库可以快速找到符合搜索条件的行,而无需扫描整个表。

By Zhang Bonnie | Blog
DETAIL
May
22

你的散点图和条形图不吸引人?试试这四种方案!

为什么我要写这篇文章?如果你曾经可视化过你的数据(我相信你这么做过),第一时间出现在你脑海中绘图类型很可能是散点图、条形图或折线图。虽然这些图确实能用在各种各样的可视化数据中,但问题是,它们被太多数据科学家滥用了。尽管它们简单易懂,但并不是永远的最佳选择。因此,在这篇文章里,我会介绍一些其他的方案,以及如何更好地使用它们。

By Zhang Bonnie | Blog
DETAIL
May
03

我为什么要放弃Jupyter Notebook?

多年来,Jupyter Notebook一直是众多数据科学工作中不可或缺的工具,比如用它进行数据挖掘、分析、处理、建模和在每个数据科学项目的周期中的日常试验任务。尽管它很受欢迎,但许多数据科学家也指出了它的缺点。与Jupyter一样,Deepnote是一个数据科学Notebook,旨在为个人和团队提供高效的各类数据科学任务,同时避开了Jupyter的许多缺点。

By Zhang Bonnie | Blog
DETAIL
Apr
30

关于线性回归:一个关键且经常被误解的事实

多年来,Jupyter Notebook一直是众多数据科学工作中不可或缺的工具,比如用它进行数据挖掘、分析、处理、建模和在每个数据科学项目的周期中的日常试验任务。尽管它很受欢迎,但许多数据科学家也指出了它的缺点。与Jupyter一样,Deepnote是一个数据科学Notebook,旨在为个人和团队提供高效的各类数据科学任务,同时避开了Jupyter的许多缺点。

By Zhang Bonnie | Blog
DETAIL
Apr
15

数据科学家须知:统计学中的5个悖论

统计学是数据科学的重要组成部分,为我们提供了分析和理解数据的各种工具和技术。但有时统计结果可能与我们的感知相悖,甚至自相矛盾,导致了混乱和误解。在这篇文章中,我们将探讨每个数据科学家都应该熟悉的五个统计悖论。我们将解释每个悖论是什么,为什么会发生,以及如何避免掉进悖论的陷阱中。

By Zhang Bonnie | Blog
DETAIL
Apr
06

Pandas2.0的速度提高了32倍!

这里是我们在Pandas 2.0中看到的重要改进的完整列表:使用pip附加功能安装可选依赖项、索引现在可以容纳numpy的数字类型了 、配置选项,mode.dtype_backend,用于返回pyarrow支持的dtype、写入时复制的改进,该版本还将附带此处描述的许多其他改进和错误修复。但它有什么特别之处呢?

By Zhang Bonnie | Blog
DETAIL
Mar
31

高级SQL技巧与窍门:数据分析师必备!

基础SQL非常简单,但是把SQL用得正确而高级并不是那么容易。下面是一些更高级的SQL技巧,它们将帮助你执行更复杂的查询,或者只是更好地执行基础查询。公用表表达式(CTE):CTE允许你通过创建可在单个查询中多次重用的中间结果,将复杂的查询分解为更小、更易于管理的部分。

By Zhang Bonnie | Blog
DETAIL