《Scala机器学习》一一3.3 应用
本节书摘来自华章计算机《Scala机器学习》一书中的第3章,第3.3节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.3 应用
下面会介绍Spark/Scala中的一些实际示例和库,具体会从一个非常经典的单词计数问题开始。
3.3.1 单词计数
大多数现代机器学习算法需要多次传递数据。如果数据能存放在单台机器的内存中,则该数据会容易获得,并且不会呈现性能瓶颈。如果数据太大,单台机器的内存容纳不下,则可保存在磁盘(或数据库)上,这样虽然可得到更大的存储空间,但存取速度大约会降为原来的1/100。另外还有一种方式就是分割数据集,将其存储在网络中的多台机器上,并通过网络来传输结果。虽然对这种方式仍有争议,但分析表明,对于大多数实际系统而言,如果能有效地在多个CPU之间拆分