大数据潮流下的机器学习及应用场景
机器学习是一门人工智能的科学,能通过经验自动改进的计算机算法的研究。 机器学习是一个多学科交叉的领域,会涉及到计算机、信息学、数学、统计学、神经科学等。 机器学习是大数据的核心技术,本质都是基于经验的算法处理。机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。 在数据的基础上,通过算法构建出模型并对模型进行评估。评估的性能如果达到要求,就用该模型来测试其他的数据;如果达不到要求,就要调整算法来重新建立模型,再次进行评估。如此循环往复,最终获得满意的经验来处理其他的数据。 机器学习技术和方法已经被成功应用到多个领域,比如今日头条的个性推荐系统,蚂蚁金服的金融反欺诈,讯飞的语音识别,自然语言处理和google的机器翻译,模式识别,智能控制、垃圾邮件等。 机器学习的分类 监督学习 监督是从给定的训练数据集中学习一个模型,再用此模型预测,再将预测结果与实际结果进行比较,不断调整预测模型,直到达到一个预期的准确率。 常见算法包括回归分析和统计分类。监督学习常用作训练神经网络和决策树。他们高度依赖事先确定的分类系统。如垃圾邮件、新闻资讯内容分类。 非监督学习 非监督学习的训练集没...