2020入门数据科学的9大项目力荐
现在疫情逐渐好转,在接下来的自我隔离期内,大家可以利用独处时间学习新技能,读书,提升自己。
对于那些对数据分析,数据科学或是其他相关领域感兴趣的同学来说,我想制作一份大家业余时间可以做的9个项目的清单,这份清单没有特定的完成顺序。
1. 信用卡反欺诈
据预测,在2022年之前全球将会有12亿信用卡持有者。为了保证信用卡交易的安全性,监控欺诈行为就变得非常重要。信用卡公司必须要能够识别出盗刷交易,这样客户才不必为他们没有购买的东西买单。一个信用卡数据集会同时包含欺诈和合法的交易数据,项目的目标是预测交易是否为欺诈。
用到的算法:
由于目标变量是分类变量,这个问题可以用以下机器学习算法来解决:
- 逻辑回归
- 决策树
- 神经网络
R/Python代码示例:
Data Science Project – Detect Credit Card Fraud with Machine Learning in R
https://data-flair.training/blogs/data-science-machine-learning-project-credit-card-fraud-detection/
Credit Card Fraud Detection Project
https://www.kaggle.com/mendozav/credit-card-fraud-detection-project
2. 客户细分
客户细分是一个根据客户特质将客户分为多个不同群组的过程。公司可以根据客户购买商品的相似性,或是根据客户的性别、年龄、兴趣、人口学特点、经济状况、地理位置、行为特征、消费习惯等等对他们进行市场营销。客户细分是非监督学习最重要的应用之一。公司可以利用聚类的技巧来发掘并针对不同群组的客户。除此之外,当数据被收集以后,公司会对用户喜好和要求有更深的理解,从而能够挖掘有价值的客户群体以最大程度上的收割利润。这样的话,他们可以更有效地制定营销战略、最小化投资风险。
用到的算法:
K-Means算法和Hierarchical聚类是常见的聚类算法。除此之外其他的聚类算法还有:
- 分割法 (Partitioning method)
- 模糊聚类(Fuzzy clustering)
- 基于密度的聚类方法(Density-based clustering)
- 基于模型的聚类方法 (Model-based clustering)
R/Python代码示例:
Data Science Project – Customer Segmentation using Machine Learning in R
https://data-flair.training/blogs/r-data-science-project-customer-segmentation/
Customer Segmentation
https://www.kaggle.com/fabiendaniel/customer-segmentation
3. 情感分析
情感,即面对某种情景或事件的态度,是数据科学领域中一个重要的话题。因为它与当代社交媒体有千丝万缕的关系,以及可以解决许多商业问题,所以它成为迄今为止领域内最热门的话题之一。在情感分析的帮助下,你可以发掘文档、网站、社交媒体等等上的观点反应的多种情感,从快乐到伤心、生气,正面或是负面,抑郁、仇恨、喜爱等等。在当今时代,任何数据驱动的组织都会运用情感分析模型的结果来分析已有客户和目标客户面对产品或服务的态度。Twitter情感分析就是一直以来都会被用来跑的模型。
用到的算法:
1. 朴素贝叶斯
2. 决策树
3. Tidytext包
R/Python代码示例:
Top Data Science Project – Sentiment Analysis Project in R
https://data-flair.training/blogs/data-science-r-sentiment-analysis-project/
(Tutorial) Simplifying Sentiment Analysis in Python
https://www.datacamp.com/community/tutorials/simplifying-sentiment-analysis-python
4. 语音情感识别
人类行为很多都是语言驱动的,其中包含了对一个场景、产品或体验的情绪。SER, 语音情感识别(Speech Emotion Recognition)的简称,是今夏可以做的数据科学项目的好选择。它能尝试从声音样本中读取人类情感。为了观测不同情绪,数据集中会包含不同的音频文件。SER则通过特征提取来提取音频录音中的情感。如果使用Python做这个项目,你将会用到用于分析音乐和音频的Librosa包。Vox Celebrity数据集是一个接触语音情感识别的好的起点。
用到的算法:
- 卷积神经网络 CNN
- 循环神经网络 RNN
- 神经网络 NN
- 混合高斯模型 Gaussian mixture model,GMM
- 支持向量机 SVM
Python代码示例:
Python Mini Project – Speech Emotion Recognition with librosa
https://data-flair.training/blogs/python-mini-project-speech-emotion-recognition/
speech-emotion-recognition · GitHub Topics · GitHub
https://github.com/topics/speech-emotion-recognition
5. 预测分析
预测分析的目的是为了对未来未知事件进行预测。分析中包含了很多统计技巧,例如预测建模、机器学习与数据挖掘等。它通过分析当前和历史数据来发现未来风险与机遇。
例子:
- 贷款预测:预测一笔贷款是否会被批准通过
- 预测供热通风与空气调节(HVAC)需求:结合天气预测与建筑体系
- 客户关系管理( CRM)
- 临床决策支持系统
- 客户与员工留存:流失率
- 项目风险管理
R/Python代码示例:
Loan Prediction in R
https://rpubs.com/ankit2106/277447
Home Loan prediction
https://www.kaggle.com/sazid28/home-loan-prediction/notebook
6. 时间序列分析与建模
时间序列是指一系列的数据点按时间顺序排列。时间序列是数据科学领域常用的技巧之一,拥有广泛的应用,例如气象预测、销售预测、年趋势分析、预测交易量与网站流量等等。通过时间序列分析,我们可以深入研究每小时被观看的广告数、每日使用的游戏货币、产品趋势变化等等。
R/Python代码示例:
A Complete Tutorial on Time Series Modeling in R
Topic 9. Part 1. Time series analysis in Python
https://www.kaggle.com/kashnitsky/topic-9-part-1-time-series-analysis-in-python
7. 回归分析
回归分析的目的是基于历史数据预测结果。回归分析是检测两个或两个以上变量之间关系的具有鲁棒性的统计测试。回归分析有很多种类,但其核心都是检验一个或多个自变量对目标变量的影响。
例子:
- 沃尔玛销售数据:预测门店销售额
- 波士顿房价数据:预测房价中位数
- 红酒质量预测:预测红酒质量
- 黑五销售额预测:预测家庭购买力
用到的算法:
根据目标变量是数值或分类变量而有所不同
- CART
- 决策树
- 线性回归:目标变量为数值型
- 逻辑回归:目标变量为分类变量
8. 推荐系统
推荐系统是基于用户喜好为他们推荐内容的一种过滤平台。推荐系统采用用户信息做为输入值,通过机器学习模型的训练返回推荐内容。从亚马逊到Zappos,推荐系统已经运用于我们身边各个领域,它也因此成为数据科学家必会的算法之一。举例来说,Netflix就会为你推荐与你浏览过内容相似的,或是与你品味相似的人曾看过的电影和综艺。这是两种不同的推荐系统:
1. 基于内容推荐 (Content-Based Recommendation System)
基于内容推荐的推荐系统是基于用户的历史数据来做推荐的。这种推荐系统通过数据建立用户资料模型,然后在此基础上做出推荐。当用户因为更多的浏览行为而留下更多信息,或是对推荐内容有所回应时,推荐系统也将会变得越来越精准。
2. 协同过滤 (Collaborative Filtering Recommendation)
协同过滤的算法找到与此用户有相似浏览记录或兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。
R/Python代码示例:
Machine Learning Project – Data Science Movie Recommendation System Project in R
https://data-flair.training/blogs/data-science-r-movie-recommendation/
Recommender Systems in Python Tutorial
https://www.datacamp.com/community/tutorials/recommender-systems-python
9. 探索性数据分析
探索性数据分析 (EDA)实际上是数据分析流程中的第一步。在这一步中,你需要理解你的数据,找出你想要解决的问题,并根据待解决的问题来处理数据。EDA通常使用可视化和量化方法来观察数据的规律、趋势、异常值和其他等等。与探索性数据分析相关的项目非常多,下面列了一些以供参考:
参考项目
1. 全球自杀率(Suicide Rates Overview 1985 to 2016)
https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016
2. 夏季奥运会模型 (Summer Olympics Medals (1976-2008))
https://www.kaggle.com/divyansh22/summer-olympics-medals
3. 世界幸福指数报告 (World Happiness Report)
https://www.kaggle.com/unsdsn/world-happiness
4. 麦当劳食品营养成分分析 (Nutrition Facts for McDonald’s Menu)
https://www.kaggle.com/mcdonalds/nutrition-facts
原文作者:Rashi Desai
翻译作者:Shuang Lu
美工编辑:过儿
校对审稿:Dongdong
原文链接:https://towardsdatascience.com/top-9-data-science-projects-for-a-beginner-in-2020-26eb7d42b116