撸起袖子干吧:9个值得探索的数据和机器学习项目教程
我们深知实际技能对如今的数据和机器学习专业人士的重要性。在竞争激烈的求职环境中,展示你解决复杂现实问题的能力、有效使用尖端工具、以及从最凌乱的数据集中提取有意义的见解,具有额外的价值。
为了帮助你扩展工具库,激励你学习新课题和尝试新工作流程,我们汇集了一些我们最近最有趣的教程。这些教程深入探讨了项目执行的细节,很多教程还附带了大量代码片段供你在自己端进行实验。让我们开始吧!如果你想了解更多关于机器学习的相关内容,可以阅读以下这些文章:
金融中的机器学习:利用随机森林掌握时间序列分类
每个机器学习工程师都应该知道的线性代数!!
2023年面向开发者的十大机器学习(ML)工具
CPU与GPU:哪个更适合机器学习,为什么?
- 探索用于ICD编码的大型语言模型 — 第一部分
- 链接:https://towardsdatascience.com/exploring-llms-for-icd-coding-part-1-959e48b58b9e
在机器学习和医疗管理的交汇处,Anand Subramanian展示了利用大型语言模型来简化临床编码关键过程的潜力。
- 如何构建用于节点分类的神经网络
- 链接:https://towardsdatascience.com/how-to-build-neural-networks-for-node-classification-from-tabular-data-bdd07ceaef83
在她的最新文章中,Claudia Ng提供了一份详尽指南,教你如何用CSV文件和PyTorch Geometric构建基于图的神经网络。
- 从数据到仪表盘:使用Dash Leaflet和SeaRoute库可视化古代海上丝绸之路
- 链接:https://towardsdatascience.com/from-data-to-dashboard-visualizing-the-ancient-maritime-silk-road-with-dash-leaflet-and-searoute-ac8a521ac4e9
对于所有地理空间数据爱好者来说,Maria Mouschoutzi博士的首次TDS文章解释了如何应对可视化海上航线的挑战。
- 使用LangChain、Chainlit和Literal AI构建可观察的arXiv RAG聊天机器人
- 链接:https://towardsdatascience.com/building-an-observable-arxiv-rag-chatbot-with-langchain-chainlit-and-literal-ai-9c345fcd1cd8
在详细的RAG项目演练中,Tahreem Rasul通过串联一套强大的工具,带领我们完成创建语义研究论文引擎所需的步骤。
- 使用大型语言模型从YouTube学习
- 链接:https://towardsdatascience.com/using-llms-to-learn-from-youtube-4454934ff3e0
从不同方向接近检索增强生成,Alok Suresh的指南探讨了如何从视频中提取信息并将其用于性能更好的问答机器人。
- 使用Python包Yellowbrick和PiML解锁有价值的数据和模型洞见(附代码)
- 链接:https://towardsdatascience.com/unlocking-valuable-data-and-model-insights-with-python-packages-yellowbrick-and-piml-with-code-945d5a39da9c
想要摆弄一些Python代码吗?Dr. Theophano Mitsa分享了对Yellowbrick和PiML包的简明介绍(并展示了如何利用它们更好地理解模型行为)。
- 从头构建用于蛋白质的Transformer模型
- 链接:https://towardsdatascience.com/building-transformer-models-for-proteins-from-scratch-60884eab5cc8
计算生物学是受益于AI最新进展最多的领域之一。例证:Yuan Tian的精彩工作展示了如何构建一个基本的蛋白质Transformer模型来预测抗体序列的抗原特异性。
- 使用Puppy Traits Web应用探索Shiny for Python
- 链接:https://towardsdatascience.com/learn-shiny-for-python-with-a-puppy-traits-dashboard-cc65f05e88c4
Shiny for Python让以前专注于R的库对更多的数据科学家开放。Deepsha Menghani的分步教程将帮助你充分利用其应用构建能力。
- 从头重建PyTorch(支持GPU和自动微分)
- 链接:https://towardsdatascience.com/recreating-pytorch-from-scratch-with-gpu-support-and-automatic-differentiation-8f565122a3cc
“在这些操作中内部发生了什么?所有这些是如何工作的?”这是Lucas de Lima Nogueira在使用PyTorch时问自己的问题,因此他尝试自己重建这个库。
准备好卷起袖子,花点时间思考更多的理论问题了吗?我们也为你准备了相关内容。
- Sydney Nye的新图论指南是学习者的全面资源,涵盖了图论的历史、基础数学和潜在应用。(https://towardsdatascience.com/the-essential-guide-to-graph-theory-from-an-18th-century-riddle-to-artificial-intelligence-c441cb9400de)
- 物理原理如何为数据洞见提供更深的视角?Tim Lou博士的发人深省的文章指出了迷人的跨学科联系。(https://towardsdatascience.com/the-physics-behind-data-2b2498d70fbf)
- “是让特征尽可能包含关于编码系统的所有信息更好,还是找到一种方法让模型完成这项工作更好?”Valerie Carey探讨了层次分类的替代处理方法。(https://towardsdatascience.com/no-label-left-behind-alternative-encodings-for-hierarchical-categoricals-d1bcf00afc37)
- Jarom Hulet用一个引人入胜的捕鱼示例,详细解释了多臂赌博机问题及其解决方法。(https://towardsdatascience.com/earn-vs-learn-solving-a-fishing-inspired-multi-armed-bandit-problem-924ae0d7947e)
- 为了丰富你本周的阅读,我们推荐Elliott Stam对数据投资回报率(ROI)的深思熟虑的反思:这是一个对团队和管理者有帮助的入门指南,帮助他们避免导致负回报的做法。(https://towardsdatascience.com/is-your-data-lifting-you-up-or-letting-you-down-e2fd7cc75513)
感谢你对我们作者工作的支持!我们喜欢发表新作者的文章,因此如果你最近写了一篇有趣的项目教程、教程或关于我们核心主题的理论反思,请不要犹豫与我们分享。
感谢阅读!你还可以订阅我们的YouTube频道,观看大量大数据行业相关公开课:https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ;在LinkedIn上关注我们,扩展你的人际网络!https://www.linkedin.com/company/dataapplab/。
原文作者:TDS Editors
翻译作者:文杰
美工编辑:过儿
校对审稿:Jason
原文链接:https://towardsdatascience.com/roll-up-your-sleeves-9-data-and-machine-learning-project-walkthroughs-you-should-explore-9020402249ac