想在数据科学这行找工作,你必须身怀各种数据操作技能。如何能更好滴展现你有这些技能呢?那就是通过你做过的相关项目。把这些projects放进简历里,通过他们,告诉大佬们:这些技能,本人都会!加入哪些项目更容易吸引面试官的注意呢?1. Data CleaningData Cleaning基本是每个数据处理都需要的,而且会占用大于80%的时间。对数据的合理清理会节省很多成本。如果你向大佬们展现出你在清理数据方面老有经验了,那你是不是瞬间就更有价值了呢?
常用的数据清理工具有Python里的Pandas,R里面的dplyr。具体可以展现的技能有:· Importing data· Joining multiple datasets· Detecting missing values· Detecting anomalies· Imputing for missing values· Data quality assurance2. Exploratory Data AnalysisEDA(Exploratory Data Analysis) 就是对数据挖掘问题并且利用各种视图方式解决问题的过程。EDA的能力决定了对数据的直觉强弱,直接影响到数据的商业价值的挖掘。通过EDA,你能发觉到一些一开始忽略的东西。常用的工具有Python里的Pandas和Matplotlib,R里的ggplot2。具体可以展现的技能有:· Ability to formulate relevant questions for investigation· Identifying trends· Identifying covariation between variables· Communicating results effectively using visualizations (scatterplots, histograms, box and whisker, etc.)3. Interactive Data VisualizationInteractive Visualization能呈现的方法有很多,比如dashboard。而这些视图平台就为技术部门和商业部门提供了可视化的交互连接。尤其为商业部门提供了更直观的探索视野而不必经过繁琐的技术操作。常用的工具有Python里的Bokeh和Plotly,R里的shiny。具体可以展现的技能有:· Including metrics relevant to your customer’s needs· Creating useful features· A logical layout (“F-pattern” for easy scanning)· Creating an optimum refresh rate· Generating reports or other automated actions4. Machine Learning这里提到的Machine Learning并不需要你利用复杂的模型或者深层的理论知识。可以从简单的线性回归入手,便于面试时清楚解释也容易由浅及深的说明自己的机械学习的技能。如果Project里面能结合商业方面的具体问题,就更能具有说服力。常用的工具有Python里的Scikit-learn,R里的Caret。具体可以展现的技能有:· Reason why you chose to use a specific machine learning model· Splitting data into training/test sets (k-fold cross validation) to avoid overfitting· Selecting the right evaluation metrics (AUC, adj-R^2, confusion matrix, etc.)· Feature engineering and selection· Hyperparameter tuning5. Communication无论你的模型做的多么华丽又精准,如果你不能准确清晰的表述你的模型,无法让别人理解明白,你的能力的体现将会大打折扣。所以在做Project时可以使用Jupyter Notebook或者RMarkdown来帮助呈现你的project。同时你还可以把这些结果报告文件上传到Github上便于面试官浏览。具体可以展现的技能有:· Know your intended audience· Present relevant visualizations· Don’t crowd your slides with too much information· Make sure your presentation flows well· Tie results to a business impact (reduced cost, increased revenue)