独家 | 一文带你读懂特征工程!
无论它的规模和大小如何,数据已经成为现代企业、公司和组织的一流资产。任何一个智能系统都需要数据驱动,无论它多复杂。每个智能系统的核心,均有一个或多个基于某种数据学习方法的算法,例如机器学习、深度学习或统计方法,它们利用这些数据来生成知识,并在一段时间内提供智能洞察。
算法本身是非常通用的,但无法在普通原始数据上有效发挥作用。因此,需要从原始数据中提取有意义的特征,我们才能够理解和使用这些数据。
任何一个智能数据洞察系统基本上都由端到端的管道组成:
• 先是 获取原始数据 ;• 然后利用数据处理技术,从这些数据中 获取、处理和提取有意义的特征和属性 ;
• 最后,通常利用统计模型或机器学习模型等技术 对这些特征进行 建模 。
如果有必要的话,还需要根据手头要解决的问题部署该模型以供将来使用。
获取原始数据后,直接在数据之上构建模型是鲁莽的,因为我们无法从普通
