机器学习,数据挖掘在研究生阶段大概要学些什么?
如下:1、编程语言目前工业界的机器学习编程语言很多,基于个人的一些浅显的工作经验,发现目前比较常用的编程语言是 Python 和 SQL。需要掌握的内容有以下几点:聚合函数,数学函数,字符串函数,表格的连接函数,条件语句等。2、机器学习推荐教材《机器学习实战》,作者是 Peter Harrington。阅读这本书需要读者掌握 Python 语言,加上 Numpy,Scipy,matplotlib 函数库的一些基础内容。3、数理统计数理统计方面还是有一些东西是蛮常用的。例如时间序列模型 ARMA 模型等。一些数据的指标,例如均值,方差,标准差,变异系数,相关系数,ROC曲线和AUC,召回率和正确率,交叉验证等。数据挖掘和机器学习的区分数据挖掘并不那么关心算法的细节,而相对更重视结果的解释及其统计意义;而相反,机器学习似乎更在乎算法的设计、优化,在分类、聚类、或者一些既定问题上的效果,而较少关心统计意义方面的考量。具体来说,一个数据挖掘专家可能会用线性回归甚至关联分析,这些被机器学习学者认为是上世纪初产物的模型完成一些非常有趣的实际工作,并得到确定的统计意义。
机器学习和数据挖掘有什么联系?二者有什么区别?
机器学习和数据挖掘的联系和区别如下:联系:机器学习为数据挖掘提供解决实际问题的方法,数据挖掘中算法的成功应用,说明了机器学习对算法的研究具有实际运用价值。区别:绝大多数数据挖掘技术都来自机器学习领域,但机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行改造,使得算法性能和空间占用达到实用的地步。同时,数据挖掘还有自身独特的内容,即关联分析。数据挖掘是指从大量数据中挖掘出有价值的潜藏规律和知识。数据挖掘渴望完整而真实的原始数据,去噪和样本平衡很重要。实施过程涉及机器学习、模式识别、统计学、分布式存储、分布式计算、可视化等,还需要掌握领域专业知识。机器学习是从数据中获取经验进而改善系统性能的一类重要方法,“学习”的意义就是求解最逼近真相的经验,理论基础主要是统计学。机器学习的历史发展:机器学习实际上已经存在了几十年或者也可以认为存在了几个世纪。追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习广泛使用的工具和基础。1950年到2000年初,机器学习有了很大的进展。20世纪50年代中叶到60年代中叶,主要通过对机器的环境及其相应性能参数的改变来检测系统所反馈的数据,就好比给系统一个程序,通过改变它们的自由空间作用,系统将会受到程序的影响而改变自身的组织,最后这个系统将会选择一个最优的环境生存。20世纪70年代中叶到80年代中叶,称为复兴时期。在此期间,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和学习方法,且在本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功。