数据分析15问,4年经验的数据行家在线回答大家都关心的问题

大数据

2018-05-02 10:20:27


Q1.平均月薪多少 ?

A1. 美国硕士每月一般能拿到5K美元到8K美元不等 


Q2.数据从何而来?

A2. 有的是码农网上用Crawler扒的,有的是从数据公司买的,有的是从统计局下的。我比较熟悉B2B, 数据主要卖家有Salesforce和Hoovers, 一条数据0.5-0.05不等。


Q3.一般都分析什么?怎么分析? 

A3. 数据科学有几个大方向,统计分析,数据处理,可视化。我在的公司比较小,数据处理和统计分析我都做。我之前做过的项目有分析信用卡消费数据预测未来消费,化学成分聚类分析,汽车零部件生存分析之类。不过我做的比较多的还是消费数据 


Q4.一般用什么工具? 

A4. 一般处理和模型用R,有时候也用SAS。数据库用mysql。大数据计算用Hive,Amazon Web Services 


Q5.这个工作的效果怎么评价呢?按照每个月出几份报告? 

A5. marketing的话比较常用的方法叫A/B testing.其实统计上来说就是对照试验,把新方法当成固定效应,销售和地区当成随机效应,设计个实验放到销售部门一段时间。然后用结果做分析,比如方差分析之类。效果好就新方法证明有效。我的速度大概是两三周一个小项目一份报告。  


Q6.数据分析和DBA有什么区别? 

A6. 我现在和DBA一起工作,简单地说,他们维护数据库,我来做分析。他们从数据库把数据整出来给我,我要什么变量他们给什么。DBA不懂分析,只是管理维护数据库,涉及到用SQL简单处理下。SQL我也用,不过是为了生成些变量做模型用的。 


Q7.想往DBA方向发展,有什么建议吗 ?

A7. 基础学好以外,学一下SAP相关的软件,很多公司数据库是sap的  


Q8.工作需要social么 ?

A8. 如果是和dba,产品经理,运营director一起工作,需要和她们解释很多东西因为他们不大清楚具体的分析方法,报告里面也需要科普一下基本概念和方法。平时积极和同行交流,大概就这样。


Q9.什么专业毕业的?怎么入行的? 

A9. 做这行的统计专业的比较多,硕士博士都很多。经济转过来的的也不少,但他们更侧重于做时间序列之类的,统计方法方面的稍弱。CS转来的也不少,机器学习的一些分类方法和统计有交叉,不过CS的更注重于写算法,CS硕士做这个的少,一般都是phd。  


Q10.分析一个公司三年来的百度数据要花多长时间 ?

A10. 取决于想做什么。如果就计算的话,百万行数据也不成问题。其实真正影响速度的是变量的个数不是数据行数。我一个之前做的项目虽然最终做模型的数据是七千行,但是变量生成了两千个,后来是删掉些变量,并且用了些降维的办法做的。 


Q11.统计本科路过。。刚刚开始学JMP....在考虑要不要搭配学个cs或者上几门编程的课。。lz有什么建议 .. 

A11. jmp属于sas比较辅助的产品,从根本上还是要把sas base那个软件学好。cs课很重要有机会一定要学python,data structure,algorithm (java)。如果cs系开了machine learning也去听听最好了,有的学校是用java有的学校用r,不过我觉得还是有收获,和统计系老师讲做模型的思路不一样。 


Q12.我CS master,在做GIS相关的data scientist,数据在mongo DB, 不过我一直不明白marketing 方面的那时间序列,楼主能具体说说是什么吗。PS: 5k - 8k在美国这个title基本就是这个工资范围了,我知道的在硅谷的data scientist一般至少也是110K to 120K/Annual. 所以CS的同胞冲啊~~~~ 

A12. 我是stat ms所以和你背景不太一样,gis我也没做过,就简单讲点我熟悉的。不知道你是不是想问是时间序列和regression的区别?我在marketing方面并没有做时间序列分析,主要是做logistic回归和cluster。regression模型和time series模型最大的区别在于sample是不是独立的。比如说,用爸妈身高预测孩子身高,那样本就是独立的,在人群里抽样,对每个家庭取爸妈孩子身高,这家和另一家没有亲戚关系就是独立的,可以用regression做。time series的样本是time dependent,比如我有一组对湖水水位的观测数据,每个月取一次,这种可以用ARIMA做,模型里可以加入对季节周期的考虑。  


Q13.我读完了。。之前一直想弄明白模型。。我是学econs and finance(经济与金融)的 

A13. econ做time series模型(时间序列)和linear regression(线性回归)的比较多,特别是econometrics(计量经济学)的,不过思路统计的做的不大一样。一个是理论出发一个是数据出发。econ还有一类是做dynamic optimization(动态优化)。我现在做的是transfer function(传递函数),算是time series一个分支。


Q14.正准备找数据科学家方面的工作,只会Python,R,SQL不知道够不够。  

A14. 统计知识本身比编程语言更重要。分的比较细的公司会把experiment,inference,analytics分开到不同的组。准备的内容也是大不同的。我的建议是除了那些常用的模型,再准备下ab testing, bias varniance trade off, simpson paradox,概率论这些东西。都是很基础的东西。 


Q15.你好厉害,四年前就做起了这行,这几年行业发展有什么新变化吗?人才的缺口是不是真的有传说中那么大? BA现在在美国火起来了,有36个月的OPT,我做留学的,现在越来越多的人申请BA,包括本身读金融,会计,统计什么的都是。 

A15.从找工作情况来看我觉得虽然比不了cs但也确实很不错了。商学院下面的比较水的ba项目我觉得就业没有很好,和会计金融差不多吧。课程上理论都不怎么讲导致什么都会点什么都说不上来。我比较看好统计,计算机,工程院开的analytics或者data science项目。强调理论课和编程,课程难度比较大,就业面也广。具体学校就不说了。


名词注解:

注1:CS master(计算机科学硕士) 
注2:Ph.D(博士) 
注3:JMP(数据分析软件) 
注4:GIS(地理信息系统) 
注5:time series(时间序列) 
注6:regression(线性回归) 
注7:dynamic optimization(动态优化) 
注8:econs and finance(经济与金融) 
注9:transfer function(传递函数) 
注10:econometrics(计量经济学)

更多内容
浏览更多内容
1 2 3 4 5

打赏给作者:

选择支付方式
  • 打赏金额:¥

Copyright © 2019 企答答网络科技(北京)有限公司 | 网络经营许可证 京ICP备 16038994号-4

举报这条内容

对比

隐藏

免费咨询
快速解答


400-188-6055