数据科学家应该具备基本的概率统计知识,能够熟练进行t检验,开方检验,拟合优度检验,方差分析。能够清楚地解释Spearman秩相关和Pearson相关之间的区别。熟悉抽样、概率分布、实验设计相关概念。
了解贝叶斯统计(很快就能在白板上写下贝叶斯定理)。不是所有的应用数据科学领域都需要用到贝叶斯,即使你所处的行业用得很少,了解贝叶斯的基本概念也是很有必要的。使用“贝叶斯”这个词的方式有很多。但其主要代表了一种解释概率的特别方式。用流行的术语表达,贝叶斯推断不外乎计算在某假设下事情可能发生的方式的数目。事情发生方式多的假设成立的可能性更高。一旦我们定义了假设,贝叶斯推断强制施行一种通过已经观测到的信息进行纯逻辑的推理过程。频率法要求所有概率的定义都需要和可计数的事件以及它们在大样本中出现的频率联系起来。这使得频率学的不确定性依赖于想象的数据抽样的前提之上——如果我们多次重复测量,将会收集到一系列呈现某种模式的取值。这也意味着参数和模型不可能有概率分布,只有测量才有概率分布。这些测量的分布称为抽样分布。这些所谓的抽样只是假设,在很多情况下,这个假设很不合理。而贝叶斯方法将“随机性”视为信息的特质,这更符合我们感知的世界运转模式。所以,在很多应用场景中,贝叶斯也更加合适。
机器学习相关技能。知道什么是有监督学习,什么是无监督学习。知道重要的聚类、判别和回归方法。知道基于罚函数的模型,关联法则分析。常用的黑箱模型:随机森林、自适性助推、神经网络模型。如果从事心理相关的应用的话(如消费者认知调查),还需要知道基本的潜变量模型,如探索性因子分析、验证性因子分析、结构方程模型。在应用过程中还需要加强对模型中误差的来源分类的理解,知道相应误差的应对方法。当前存在的机器模型太多,理解模型误差可以帮助你有效地通过尝试少量模型找到足够好的那个。
除了技术能力以外,还需要其他一些非技术的能力。这些包括将实际问题转化成数据问题的能力,这一过程需要交流,也就要求良好的交流沟通能力。关注细节,分析是一个需要细心和耐心的职业。还有就是展示结果的能力,如何让没有分析背景的客户理解模型的结果,并且终在实践中应用模型的结论。
这个单子还可以一直列下去。看起来是不是不只一点吓人?其实这个技能单是动态的,你一开始不必具有上面列出的所有技能,但在工作过程中,需要不断的学习成长。一个优秀的数据科学家不是通过数据找到标准答案的人,而是那个接受和适应这个充满不确定性的世界,给出有用方案的人。一个成熟的数据科学家面对分析项目时会看到多种可能性和多种分析方法,给出结果后依旧时刻关注这个结果,不停地保持小幅度频繁更新。再次强调自学能力和成为一个终生学习者是优秀的数据科学家的必要条件。
如何获取相关技能
现在你对数据科学家需要具备的技能应该有个大致的概念了。接下来的问题是如何获取这些技能。这个问题的答案部分取决于你的专业背景。当前数据科学家的背景其实很杂,这里主要着眼于数学、统计、计算机或其它定量分析学科(电子工程、运筹学等)本科以上学历的情况。数学统计背景的学生,需要加强计算机方面能力的培养。而计算机背景的学生需要更多的了解统计理论。如果是其他定量分析学科,可能需要同时加强这两者。
其他专业的学生成为数据科学家有两种情况:
从事和自己专业相关行业公司的数据分析。比如在一些精准农业应用的公司,会常常看到数据科学家是生态学博士,或者土壤学博士。其实这些人不能算是广义上的数据科学家。因为他们处理的问题局限于非常特定的领域,对生态和土壤的了解的要求高于对数据分析的要求。
虽然是其他专业,但是本身有着很强的计算机技能,比如物理学专业的学生会成为数据科学家或者量化交易员,这因为他们通常具有很好的编程能力。
关于数据科学家的学位背景,根据2017年的统计数据,美国的数据科学家41有博士学位,49有硕士学位,只有10是本科。研究生博士期间的课题偏向机器学习、数据挖掘或预测模型。其次需要的是数据库操作技能。在工作中通常需要用SQL从数据库读取数据。对于统计或者数学专业的学生,在校期间可能不需要使用SQL,因此不太熟悉。这没有关系,我也是工作以后才开始使用SQL的。但你要确保自己至少精通一种程序语言,之后遇到需要用到的新语言可以迅速学习。现在有大量的MOOC课程,以及一些在线的数据科学视频,都是提升自己的很好方法。
有的人问我怎么选择学习课程。通常情况下我会看讲课的老师,如果是想要彻底清晰地了解某种技术,那就去搜下写这个领域相关书籍的人,如果他们有开课,可以选这些课;或者那些在数据科学行业名字如雷贯耳的,比如吴恩达这样的。选这样的人讲的课,才能听得明白,因为这些人对相关的专业知识足够了解。
常见误区
在数据科学的应用中有哪些常见误区?
会用函数跑模型就可以了。
会开车的只是司机,要当汽车工程师,仅靠会开车是不行的。这点放在数据科学领域也是一样。不需要你背下模型背后的所有数学公式,但是至少需要学过一遍,让你可以翻着书解释模型机理。
模型精确度越高越好。
在实际应用中需要同时考虑收益和成本。如果模型精确度是90,但是提高到95需要复杂得多的模型,因此需要大量的计算设备投入,同时带来的边际收益很小的话,满足于精确度小的模型就好了。模型选择和评估可能是数据分析流程中难的环节。
技术过硬就是尚方宝剑。
接受这个现实,人常常是不理性的,我们的行为和对周遭的态度受感情的影响。你永远看不到一只单纯的狗,你看到的是一只可爱或者不可爱的狗,我们总是会对所有的事情加上自己的主观判断。当然,你公司的同事,领导看待你的方式也受到主观的影响。很遗憾,这个主观的感受通常更多的来自于你作为人的部分,而不是机器的部分。你觉得自己技术好是一件事情,领导觉得你技术好是另一件事情,领导觉得你的技术是有用的那又是新的一件事情了。这点,美国中国貌似没差。所以“做技术”不等于“情商低点没关系”。
技术不断更新,让人难以招架。不明觉厉,被泡沫裹挟着失去方向。
我理解,这种感觉很不好受。有的时候我感觉自己永远都是菜鸟,但现在我才明白,这才是当前世界的真实状况。不断升级将会是一种常态,这不仅仅是数据科学,你必须这么做,因为所有的东西都在升级,就像军备竞赛一样,升级已经成为事物本身的存在方式。无论你使用一样工具的时间有多长,升级后你又会变成一个菜鸟。所以做菜鸟是可以的,但是不明觉厉,随意跟风是不允许的。面对不懂的技术,要么就说不懂,要么就去学。其实你真正鼓起勇气,开始认真去学习这么技术的时候,会发现其实没有那么神秘。当然,马上又会有新的神秘的东西出现,这个过程又会重复。但你就是在这样循环反复中成长的,产品是这样,人也是这样。
数据科学领域现状
我们从数据上看看数据科学的现状吧。从的职业社交网站领英(LinkedIn)的数据看来,数据科学家职位的年薪在7.5万~ 17万美元之间,中位数是11.3万美元。
其中雇佣数据科学家的公司主要集中在微软、IBM、Fackbook、亚马逊、Google这些计算机互联网公司,图3为前10名雇佣数据科学家多的公司。
如何成为一名数据科学家
- 下一篇:增长黑客是什么?
- 上一篇:python怎样实现功能