李勇华的互联网思维
转行大数据的知识结构要求
2017-12-24 liyonghua









1. Hadoop,HIVE,SQL数据库操作需要会。

Hive用于提取数据,做基本的数据分析。hive的基本函数,比如聚合函数,数学函数,字符串的函数,连接表格函数等。hive的各种语句,比如if else,case等语句。

EXCEL的基本操作需要掌握,用熟悉了其实挺方便的。



2. 编程语言最好会python,c/c++,或者java,至少一种。做机器学习的话感觉用python会多一些。



3. Linux系统,脚本语言Shell。



4. 数据挖掘和机器学习的基础知识和算法:

LR,SVM,聚类算法,神经网络算法,决策树,随机森林,GBDT,异常值检测等常用算法需要掌握。

特征工程的基础知识:根据相应的产品进行必要的特征构造,物品特征,交叉特征等。



工程上的最优化论文推荐:

Ad Click Prediction a View from the Trenches:

需要了解的是相关论文的背景SGD算法,Truncated Gradient算法,RDA算法,FOBOS算法,FTRL算法等。



5. 统计学:

时间序列模型,变量的相关系数,ROC和AUC曲线,交叉验证,主成分分析。




6. 大数据,推荐系统,计算广告学的科普书籍。








·END·





发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容