请选择 进入手机版 | 继续访问电脑版
中国唯一A股上市留学机构

太傻论坛

 找回密码
 注册

QQ登录

已签到
今日已签到
4

全部服务类型

用户头像

[院校信息] 留学美国DS数据科学专业名校官网信息实录申请资料分享

 icon
HARDS   发表于 2018-4-26 17:09:34 | 显示全部楼层 | 阅读模式 | 跳转到指定楼层
2031 0
本帖最后由 HARDS 于 2018-4-26 00:22 编辑 9 d" C; c6 L2 B

. f0 t; w! L9 z+ _) Z; X, e, j留学美国DS数据科学专业名校官网信息实录申请资料分享8 P+ W( B1 Z+ {( Z( s
什么是数据科学(Data Science)?随着科技的发展,人类社会拥有数据规模增长很快,每时每刻、从天到地都有大量数据被产生和存储下来。比如这么多家社交**,一天到晚从你的location到点击了什么连接,各种鸡毛蒜皮的数据都存着,他们不怕数据太多,就怕有啥没记录下来的;最近有家叫UrtheCast的公司,直接在国际空间站安装了第一个民用的高分辨率摄像机,对着地球不停拍照,一天能拍下2.5T的数据。
* o9 [1 A6 Z- A9 p" R* D! O& k/ `

+ r; d# `5 ?' p) W0 J$ b/ Z. ~* j1 f7 w1 D
4 t3 K+ P6 n0 y& @: u

7 {1 d6 Z- _+ T4 q. P数据量的增大和数据的多样化也促进了美国很多公司进行数据分析来支持商务决策(data driven decision **)。这里以大家都熟悉的超市购物作为例子,来说几个Data Science的应用。

0 n; C" p& ?0 G! ]) O比如超市发现你过去三周内一直在买某类减肥食品,可以预测你下面还要继续购买这个产品,那在付账的时候,直接给你打印一张优惠券,买4赠1搞促销,你觉得占了便宜以后更愿意来这个店,超市也通过给点折扣把你牢牢捆住,免得你去了其他超市。-这个叫Predictive Analytics:分析数据来预测未来可能发生的事情。
+ J8 b  W6 j% P留学美国DS数据科学专业名校官网信息实录申请资料分享
% ~1 I  I- X/ J8 h0 X超市的analytics team通过分析,发现你购买的减肥食品都具备某个特征,比如是low sodium、low carbs,那具有这类特点的其他相关食品,超市也可以推荐给你。你觉得很高兴,因为超市直接把你需要的产品告诉你,省了你选购物品的麻烦,超市卖了更多的东西给你、赚到了钱,当然也很高兴。-这个叫Descriptive Analytics:分析数据找出过去事件的特征和正在发生事件的趋势。
8 |8 f6 {* F3 t# s( U+ d0 z; C- g情人节当天,超市断定**需求很大,急匆匆跑去买套套的都是有刚需的,直接涨价20%;情人节完事,**价钱回归正常,但是事后避孕药涨价20%。就算你发现涨价了,也只能乖乖付钱,否则就当爹养娃去。超市最大化了自己的利润。-这个叫Prescriptive Analytics –分析数据来找出最佳措施、取得最优化的结果。$ ^' _6 b& N! m
以上三个英文名字,不是我原创,是采用INFORMS组织的。例子当然是我设计的:)
6 S4 {( S- i% \* l在美国的各位,相信你周围的超市,应该还没做到这么“贴心”、这么精明。目前超市的传统做法是蒙着眼往附近所有的居民家里投递各种广告(英文叫flyer)和所有可能被用到的优惠券(coupon),超市对居民到底需要买什么一无所知,花钱打印和邮寄大量的flyer和coupon只有很低的概率被用到(比如5%),大部分直接成了垃圾。# A6 [, g8 c8 `/ H
留学美国DS数据科学专业名校官网信息实录申请资料分享
8 a: n) j3 o# P2 T: C  r随着analytics/data science的迅速发展,我描述的场景,正在被逐步被实现。这其中名气最大的当属Target(美国一家大零售商)的analytics team,他们分析客户消费行为的变化做判断,比如猜测某些顾客很可能怀孕了就往她们家里邮寄孕妇和婴儿产品的广告,顾客被吸引到target购买这些产品的同时,也会买其他东西,Target就赚钱了。但是这也带来的一个意想不到的结果:某个早孕的teenager被盯上了,而她的父母是在不停收到target广告之后
' ?- X' z( e. a; `* Q# ?才意识到女儿怀孕!Target比父母知道的更早!这个意外的故事让Target的统计师Andrew Pole名声鹊起,他目前的team得以迅速扩充,已经有30+个人在美国、30+个人在印度–嗯,如果公司不扩充他的team,不给他更好的职位的话,外面有无数公司会哄抢他。And yes, he is also hiring,对在明尼苏达就业感兴趣的同学可以去LinkedIn加他,此人对所有connect请求,来着不拒。如果你无法直接加他,那么你需要加入他参加的GROUP,然后就可以直接加他了。* j* t9 [+ p4 R% Z% M
至于伴随着你的网页点击,amazon调整产品显示的顺序,推荐你最感兴趣的产品,或者你修改LinkedIn Profile里的skills & projects,这家公司自动给你推荐匹配的工作、从你的connections里查找可能帮忙的人,这些聪明、精准又实时的决策背后,都是data science。
) v% E2 O/ E, V7 g. T另外,data science这个名词在IT行业更常用,其他行业里(比如Target这类零售商)很多时候称呼为analytics。Warald觉得,只要某个职业的本质上是分析数量较大、不太规整的数据,crunch the numbers to support decision **,那就是data science;从事这类工作的人,就是data scientist,不管你的具体job title是啥。
, {5 z! d) l' A9 ~那不同行业不同公司都招聘什么背景的数据科学家Data Scientist?Data Science/Analytics在不同的应用领域,对求职者来说到底有什么不同?$ @# w# [( t9 g
美国哪些公司招聘DATA SCIENTIST?看重数据科学家什么方面的背景?' T9 ]: e0 ~3 ~) j- ?8 `
前面举例介绍了什么是Data Scence(数据科学)。同样是做data scientist或者analytics的工作,在不同的公司,要求的技能和工作的内容会很不一样。6 s0 m) ^; M% a. |7 ^, J7 D. |
比如Google前段时间招聘quantitative analyst跟marketing部门合作,这个部门据说有40多个PhD,来自各个专业,设计各种模型和实验来帮助google盈利;最让人惊奇的是,Google每年收200万份简历,HR筛选不过来,干脆也招个做machine learning的高手,要用机器学习来处理世界各地提交的简历;微软Online Service Division有跟marketing更接近的Data Scientist,也有很多学统计或者IE出身的Applied Scientist做randomized controlled experiment;而LinkedIn、Facebook的data scientist感觉要求Java编程技术熟练,可能学Computer Science出身的最适合;非常欣赏Amazon强大的recommendation system,你浏览了啥产品,amazon立刻customize你的页面,全是极其相关的东西推荐给你买。
5 _1 _2 R& R# Y& g5 y  F# w0 w另外,根据对IT类公司的观察,一般只有大公司,才会对工作划分比较细致,有可能有人专门编程、有人专门做分析;而公司规模越小,对datascientist的编程技术要求更越高,因为你要做everything。5 `$ C$ \) i+ R  y1 ^
Insurance行业招的是Predictive Modeler,他们的总体目标就是要基于数据,预测在不同客户身上收多少保险费能最大化收益、optimize profits,所有相关专业的它们都考虑,比如波士顿城里的lib**y mutual这家大公司,predictive analytics team里,OR、Stat、Math、Economics、
  }- r6 i; r2 F9 I4 s1 hMachine Learning等各种背景的人都有,论资历、学历,从比较新的博士到有经验的硕士都有。
" x( M+ ^6 U% x: e: w4 g. [同时,传统行业也在加强analytics(他们一般不叫data science),比如做Texas一家工业废油处理公司的analytics team,目前只是用很基本的统计分析对市场做合理的segmentation,就让公司在某个地区的利润增长超过20%;俄亥俄生产化肥的公司、常春藤大学里校友办公室负责募捐的、美国全国各地的超市等,都在过去的两年里尤其是2012年,拼命的组建或者扩充自己的analytics team,分析数据,用数据来支持决策。这类工作,一般更接近BusinessIntelligence(BI)和Marketing。# M8 k6 y' h1 j' [; }3 a4 c- o
根据了解,以上的三类行业:Information Technology、Insurance、Marketing/BI,是目前招聘data scientist的主力。金融行业尽管也有公司在招聘会machine learning的人,但是整体上机会不多。
0 I0 o2 J8 a: v2 ~$ @; N. fData是一切分析的基础,于是所有公司里也都有一些人,集中做最基本的数据收集和整理,主要用SQL,尽管也可能写一些简单的程序、做一些粗浅的分析,但是整体上工作比较枯燥无聊,也可以说是“底层人群“;用Machine Learning或者统计建模的则属于高级人群;同时,分析数据要用到各种软件工具,可能需要高级的软件系统来支持experiments,自然也就需要软件工程师来支持。分析结果最终要用来帮助公司盈利,所以公司的管理层和直接带来盈利的部门(sales、marketing、business development)也会参与,最终的决定权(decision **),还是在这些人手里。; `7 U6 [  p9 P$ a  z$ C- @* b
数据科学家需要的三大核心技能:DATA HACKING、PROBLEM SOLVING AND COMMUNICATION
; k, c3 k3 A( O6 S4 {5 B( e- nData Scientist需要深刻理解需求和问题所在,然后对数据进行处理,采取合理的量化分析寻求答案,所推荐的答案,也必须是backed by data evidence。以下三类技能是很重要的:/ \- x: V1 j- h4 V& J
《一》Data Hacking, F1 e. B) @3 _: H; i
要有**从各种各样的地方把数据化为己用的能力。可能会用到的:) z) ~* V5 W9 X/ ?8 P9 |) c) N0 L. e
SQL:用来存储和查询structured数据
; u7 n; Y9 c: @6 A" CProgramming:比如用Python for parsing/scraping data。如果既会一门scripting language,又会一门compiled/object oriented language,会是优势。主要是用来处理unstructured数据
1 c( C! n$ \/ [& `6 lHadoop/parallel processing:你处理的数据可能太大(比如超市过去半年的购物记录、信用卡公司两年内的刷卡记录)无法一次性装入内存,而你需要对数据进行快速的分析,这就需要MapReduce等技术。6 F# j) V" N+ i9 d4 A/ H; y6 H$ J) o
留学美国DS数据科学专业名校官网信息实录申请资料分享0 D7 W0 ?" K; H5 o% H
这其中,SQL和Programming是最基本的,你必须会用sql查询数据、会快速写程序分析数据。当然,你的编程技术也不需要达到软件工程师的水平,因为你写的code大多数只是一次性的、不会被复用,而且也只会被你或者个同事使用,并非放在网上让无数人点击,因此对程序质量要求不高。: L( V# o6 S  |+ s
要想更深入的分析问题,你可能还会用到:
2 ?5 b, _6 l8 g$ mExploratory analysis skills,可以使用python、R、matlab等各种工具,IT公司用SAS和SPSS相对较少,尽管有些job ads/descriptions里提到了,当然也不是完全不可以。但是如果你只会SAS,那么选择无疑要少很多。* Z( R' G4 ^) r5 V' B, T
Optimization、Simulation:有些职位需要研究顾客需求变化,调整产品或者服务价格,来帮助公司最大化盈利
* H0 n* U6 l: A+ _# I; UMachine Learning、Data Mining:比如有人用数据挖掘技术,发现很多人在超市里买尿布的同时,也买了啤酒–现在还没理解为啥,但是也许尿布和啤酒应该放一起卖;另外比如手机广告的精准投放。
. ?: u+ y7 f# x- L8 yModeling:你需要理解不同的统计模型有什么应用范围、有什么限制和特长,我在第一部分里提到的descriptive、predictive、prescriptive三个场景也是浅显的例子
# _/ v0 A9 q8 r! F0 ^9 a' Y《二》Problem Solving:
- }  E' s' @8 `: N4 G6 L你不光要理解what users say they want,你还需要真正的理解what they actually mean、转化定义出一个可以用数据解决的问题,然后选择正确的分析工具,量化分析和解决问题。
; ]; m% h) i" u) R1 h( |. T& R6 p《三》Communication
$ S. m; E( [2 E/ p. X, B6 s数据科学家会跟公司的很多不同部门的人打交道,会比码农跟更有机会见到高层或者是business领域的人。如果你希望接触像市场营销这样的部门,希望跟上级领导多多打交道,那你需要有较强的交流能力。你需要知道区分什么是问题本质、什么是技术细节,要有能力给上层领导讲high level的分析和推荐,有能力给同事讲解和defend你的技术细节,也就是”见什么人说什么话”,这不是说要你油滑,而是说要知道什么时候需要隐藏技术细节,而只展现跟听众最相关的信息。
" n) H# D2 V- ]' y7 U# c! @7 @1 u你很可能要经常做presentation,需要很强的visualization的能力,熟悉Edward Tufte和Nathan Yau的东西,会很有帮助。另外,也许你很喜欢高深的方法,觉得你懂你NB,但是一切的解决方案,都要从产生business revenue的角度来考虑是否合理。7 u% _+ L  `# |: u  _
你也可能需要跟software development team合作,需要讲清楚需要他们实现什么、需要告诉他们什么地方需要改进。! }9 n& b6 \7 `
至于你所从事行业的domain knowledge ,懂最好,不懂也不必强求,某知名公司的VP 曾经跟我说,他这个行业的特有知识,3个月内可以学会,但是数据分析能力,可不是三个月就能学出来的,并且不同行业背后的数据分析能力是普适的。
3 x+ p* K# ?! n) a) ]9 i想成为数据科学家,需要申请读什么专业?( _& b+ ?: _, C$ R' i
前面陆续谈了什么是数据科学、美国公司招聘什么样背景的Data Scientist和数据科学家需要的三大核心技能,这里说一下到美国留学,申请读什么专业适合将来做data scientist" D$ U/ V8 t, m4 Q" @) s( v4 U
Computer Science、Information Science、Information Systems、Statistics和Business(尤其是Marketing),根据我前面几篇文章里描述的内容,结合自己的背景,很容易找到对应的职位。将来求职,瞄准适合自己专长的公司部门,有的放矢命中率最高。比学统计出身的,那些要求很强Java programming skills、甚至要写production code的data scientist职位,可能就不适合你;学计算机出身的,如果看到某个职位里写了很多统计模型你彻底不懂、要求用R编程,那你可以考虑是否默默叉掉这个职位。
0 P( W" S4 r7 k  k其他相关专业,比如EE里做signal processing、image processing、communications等方向的,既编程又用统计或者数学知识;IEOR、数学、机械工程里等做optimization、Simulation等方向的,或者是经济学里做Econometrics的,也都有机会。
" R) W' c9 j$ b: c2 \) m根据我的了解,目前很多Data Scientists招聘广告里,对于求职者的专业要求,通常写法是爆长的一串:“Applied Mathematics、Statistics、Computer Science、Economics、Operations Research or Engineering”-最后这个“Engineering”范围很广,大体上做quantitative or computational方向、会modeling的,都算。这种写法,背后的意思就是说,只要你能玩的了统计、看得懂数学、搞得了建模,统统欢迎。美国很少有技术类职业,对求职者的教育背景要求这么宽泛。
8 `5 B3 U% y5 s* FData Science作为一个宽口径的新兴职业方向,充满了工作机会,同时,无论你是学什么专业出身的,都有新专业、新领域的知识要学。比如工作期间,学统计的去研究一下优化、计量经济,学计算机的深入加强统计知识,都可能有机会。, m4 a7 p5 G4 f* D
近几年来,美国很多学校也开设了analytics的专门硕士项目,比如Northwestern、NCSU,但是开设这类专业的学校,一般综合排名很低,除了西北大学,以前很少有学校问津analytics;随着过去两年data science和big data的兴起,UIUC、UT Austin、NYU等都相继开设了analytics、Data Science类的硕士项目。
# e8 s5 P! ]3 t' {留学美国DS数据科学专业名校官网信息实录申请资料分享
. x" F+ S7 ^' o$ g1 X3 ]; d这类硕士项目的最大优势是在于课程设置,software system、machine learning、database、optimization、decision science、statistics、business intelligence等所有涉及到的领域知识,往往都会学一些。因此,跟比如学统计或者计算机出身的同学相比,有analytics硕士学位的同学,知识结构更合理、更全面。也正是因为这点,目前学这个专业的同学找工作很容易。  e7 c6 E/ u2 s* H+ [9 X  \4 L
美国很多系也在跟进潮流改进课程设置,比如统计系越来越多的教授们认为今后学统计的需要去IT行业寻找data scientist的机会,他们也希望能改革课程,让自己系的学生技能更加多样化。+ g' t- z6 l2 L" N; Z
目前公开课里面,coursera.org上有两门课:web intelligence and big data大体介绍了到底什
9 t/ h8 m! Q4 n- B么是大数据、现在一般流行用什么方式处理;最近正在进行中的introduction to data science,比较着重讲data hacking,可以学习一下。基本的统计能力,暂时没有看见较好的公开课。Udacity的统计,据上过的同学说过分简单了。另外,数据可视化、各种技术博客里面内容很多,有兴趣的同学可以自行挖掘。
+ N) d# G0 q: e) A' a- J) U数据科学家的职业发展前景如何?+ Y5 M$ X3 O0 j' E5 I, q
从2011年下半年开始,LinkedIn上Data Scientist相关工作在迅速增长,2012年更是增幅显著,好多公司都在扩充或者创建自己的data science or analytics team。也有越来越多的人在自己的LinkedIn profile头衔里添加big data、data scientist、data analyst之类的字眼,希望被猎头或者公司直接搜索到。& |- V7 Q  d6 x5 \
大凡专业或者工作跟data沾边的,很多人都卯足劲往这条船上跳。在过去的一年里,听说过好多个求职故事,也通过提供就业咨询,亲身参与了几个人找工作的过程,这里面包括很普通学校的统计系学生找到著名internet公司Data Scientist职位、生物统计系学生找到market research工作、工作多年的bio-medical researcher改行去IT公司、电子工程系硕士做Business Intelligence。我的观点很直接:如果你玩的了统计、懂的了数学、建的了模型、写的了程序,就应该能找到data scientist工作。请注意,我说的是“写的了程序”,我没说“你写程序必须得很牛才行”。无论你是啥都懂一点,还是学有专长,都可以。如果你背景合格却在挣扎着找不到工作,那你自身有问题,需要改进。5 `" c( K, U6 z
留学美国DS数据科学专业名校官网信息实录申请资料分享: n4 N3 E& P: F& f, |9 K
传统行业(非IT)各个公司无论主动还是被迫,都要建设analytics team,最终是个zero-sum game,这个就像GRE/TOEFL考试一样,大家都长期做真题备考,分数都提高了,最后大家谁都占不着便宜。也有contractor或者consulting性质的公司从多个公司里接analytics活来做的。9 n; D! t" c6 b- u/ o
说到data science就要提到big data。觉得很多公司其实做的事情跟big data无关。对于Internet公司来说,来自世界各地的每一下点击、每一次访问,都被Google和各类社交**记录下,数据规模肯定远大于其他行业;genome data会很大;超市的顾客购物数据、信用卡刷卡记录、任何场合的实时监控录像,也会产生big data,但是LV、爱马仕这种奢侈品公司或者小型的医疗器械公司的数据,规模肯定要小多了。big data带来的三大挑战:volume、velocity、variety,得靠被big data困扰的公司,而且目前一些问题已经有了解决方案,比如Hadoop MapReduce。另外,学术界,以计算机、统计、电子工程系的教授们为主,也在研究传统的技术如何应用在big data context里,后面一段时间内,会从不同的层次、不同的角度,提出更多的创新。有新问题要解决,也就意味着工作机会,比如读了博士想做faculty的,做big data这类新兴方向,机会更多。# r* S  y2 b% [
感觉目前很多公司用到的统计方法,并不高深,比如a/b testing算是很基本的方法了,学统计的都应该会,目前在被广泛应用来做controlled experiment,而media mixed modeling已经是IT公司里用的较为复杂的统计model了。在早期阶段,使用基本的统计模型就可以带来很大的回报;随着竞争的激烈,各个公司必须雇用优秀的data scientist来保持竞争力。公司data收集好了,海量数据能用来干嘛,看数据科学家们的能力了。
) x2 s7 J) P) a# i. [以往,美国很多公司的CEO是商学院、MBA出身的,随着金融危机和IT创新浪潮的兴起,很多CEO是纯粹engineer做起来的,属于技术流派,公司并不是从外面随便拉个西装革履、满口企业管理的人来做领头羊。这个现象,有个戏称叫:Revenge of the nerds。Warald感觉,随着更多的商务决策要建立在data analytics的基础上,今后会有一些能力很强的data scientist,借着风头,从技术人员成长为business leaders。而且加盟传统行业、做统计分析,会更容易出头,Warald觉得牛点的data scientist/analysts在技术成分低的行业,很有潜力挂上Director of Marketing Operations & Research、VP of Global Analytics and Insights等众多码农这辈子无法企及的头衔。而在人才储备丰富的IT行业,如果工作内容也侧重底层编程实现,反而不容易出头。
, H% x# L' a& u6 N8 w7 V留学美国DS数据科学专业名校官网信息实录申请资料分享
, l& I+ K: H9 G  |- g3 Q有一个简单的方法可以用来粗略判断升职潜力:你经常要给管理层做报告、他们时不时看到你的工作结果?还是说,你的贡献对于管理层来说默默无闻,你毫无visibility?当然,人各有志,有些人更愿意处理技术细节,在性格上也不aggressive,爬corporate ladder也不适合。" X7 {3 ~0 p8 B) r3 _% o' c: A
总的来说,作为一个有广阔前景、代表着未来方向的职业,data scientist今后发展空间很大,同时这类工作又需要多个专业的技能,最近几年开始做data scientist的,大体都算是有first mover advantage前景很好。
3 w1 I& s6 s; `$ E0 Z1 h$ T  W. F5 x

( M( g  h( K/ V8 K6 o+ Z
+ H: c, W7 o( |! _4 o4 ]! o$ C8 g' s0 ^: ]; w7 I4 B1 F4 Z0 U

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2018-4-26 17:09:34 | 显示全部楼层

举报

回复|
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|太傻 ( 京ICP证101000号,京ICP备11024005号,京公网安备11010502024134 )

GMT+8, 2018-10-21 08:10 , Processed in 0.064274 second(s), 12 queries , Gzip On, Apc On.

© 2001-2015 taisha.org

快速回复 快速回复 返回顶部 返回列表