用线性回归无编码实现文章浏览数预测-低调大师

用线性回归无编码实现文章浏览数预测

2016-09-11 740

继无编码利用协同算法实现个性化推荐,我纯粹使用SQL和配置实现了一个更为复杂一些的，计算文章词汇的tf/idf值，将浏览数作为预测值，使用线性回归算法进行模型训练的示例。帮助大家更好的了解StreamingPro对算法的优秀支持。这篇文章的示例将会跑在Spark 2.0 上了。为了方便大家体验，我已经将Spark 安装包，StreamignPro,以及分词包都准备好，大家下载即可。

准备工作

我们假设你下载的StreamingPro,ansi-seg包在/tmp目录下。然后将Spark 2.0 解压，进入主目录。

复制如下模板

我已经发布了三个配置文件，分别计算：
词汇的 idf 值 ,链接
给每个词汇生成一个唯一的数字标示，链接
使用线性回归算法进行训练, 链接

PS : 有道笔记有时候第一次刷不出来，你刷新下就好。

复制保存三个文件：

/tmp/idf.json
/tmp/term-index.json
/tmp/lr-train.json

本机运行

生成idf 文件:

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
--jars /tmp/ansj_seg-5.0.0-all-in-one.jar \
/tmp/streamingpro-0.3.3-SNAPSHOT-online-mllib-2.0.0.jar \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:///tmp/idf.json

生成内容会存储成Parquet文件。在/tmp/idf 目录下可以看到具体文件。

接着生成 term index ,文件位于 /tmp/term-with-index，最后进行模型训练，训练好的模型在/tmp/lr-model

后续只要在Spark Streaming中加载，即可完成流式计算。

配置文件简要说明

以lr-train.json为例，大体框架如下：

{
  "lr1": {
    "desc": "LR模型训练Job",
    "strategy": "streaming.core.strategy.SparkStreamingStrategy",
    "compositor": [  ]
  },
  "udf_register": {
    "desc": "通过这个方式可以注册你自己开发的udf函数",
    "strategy": "streaming.core.strategy.SparkStreamingRefStrategy",    
        "compositor": [  ]
  },
  "term_index_ref_table": {
    "desc": "在这里申明表，可以在job中被引用",
    "strategy": "streaming.core.strategy.SparkStreamingRefStrategy",
    "algorithm": [],
    "ref": [],
     "compositor": [  ]
  },
  "term_idf_ref_table": {
    "desc": "在这里申明表，可以在job中被引用",
    "strategy": "streaming.core.strategy.SparkStreamingRefStrategy",    
    "algorithm": [],
    "ref": [],
     "compositor": [  ]
  }
}

这里有一个job,两个关联表，一个UDF函数注册模块。我在配置文件的描述中已经有说明。job 是一个可执行的main函数，你可以这么理解。关联表申明后可以直接在job的sql中使用。UDF函数注册模块则可以使得你很容易扩展SQL的功能。

他们唯一的区别是，Job 的strategy 是 SparkStreamingStrategy,而其他非Job则是SparkStreamingRefStrategy。

因为一个配置文件里可能有多个Job,每个Job引用的关联表也是不一样，你需要显示指定引用，在Job 的ref中申明即可：

  "lr1": {
    "strategy": "streaming.core.strategy.SparkStreamingStrategy",
    "ref": [
      "udf_register",
      "term_index_ref_table",
      "term_idf_ref_table"
    ],
    "compositor": [

这样框架自动为你准备好关联引用，注册UDF函数，然后在lr1 这个job中就可以使用了。比如lr里的parse 函数就是通过udf_register模块提供的。

之后就是定义输入，执行的SQL,以及输出(存储或者模型引擎)。 SQL在案例中你可以看到，可以非常复杂，多个SQL模块之间可以互相作用，通过多条SQL实现一个复杂的逻辑。比如我们这里试下了tf/idf计算等功能。

文／祝威廉（简书作者）

原文链接：http://www.jianshu.com/p/d053a21944f5

著作权归作者所有，转载请联系作者获得授权，并标注“简书作者”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/60508

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

StreamingPro使用教程

准备工作下载Spark 1.6.2 下载StreamingPro 我们假设你下载的StreamingPro包在/tmp目录下。复制如下模板 { "esToCsv": { "desc": "测试", "strategy": "streaming.core.strategy.SparkStreamingStrategy", "algorithm": [], "ref": [], "compositor": [ { "name": "streaming.core.compositor.spark.source.SQLSourceCompositor", "params": [ { "format": "org.elasticsearch.spark.sql", "path": "索引名称", "es.nodes": "这里是填写集群地址哈", "es.mapping.date.rich": "false" } ] }, { "name": "streaming.core.compositor.spark.transformation.JSONTableCompositor", "para...

2016-09-11

929

案例在Spark 1.6 时，大部分机器学习相关的类使用的向量还是 org.apache.spark.mllib.linalg.Vector 而到2.0后，已经基本都变更成 org.apache.spark.ml.linalg.Vector 同理对应的Vectors object 也是。这就造成了一个比较大的困难，比如下面的代码就很难做到兼容了，切换Spark就无法通过编译： //定义一个函数，将一个字符串转化为Vector val t = udf { (features: String) => if (!features.contains(":")) { val v = features.split(",|\\s+").map(_.toDouble) Vectors.dense(v) } else { val v = features.split(",|\\s+").map(_.split(":")).map(f => (f(0).toInt, f(1).toDouble)) Vectors.sparse(vectorSize, v) } } //Dataframe转化...

2016-09-11

710

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。