《Scala机器学习》一一3.4 机器学习库
本节书摘来自华章计算机《Scala机器学习》一书中的第3章,第3.4节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.4 机器学习库
Spark是基于内存的存储系统,它本质上能提高节点内和节点之间的数据访问速度。这似乎与ML有一种自然契合,因为许多算法需要对数据进行多次传递或重新分区。MLlib是一个开源库,但仍有一些私人公司还在不断按自己的方式来实现MLlib中的算法。
在第5章会看到大多数标准机器学习算法可以表示为优化问题。例如,经典线性回归会最小化回归直线与实际y值之间的距离平方和:
其中,是由下面的线性表达式所得到的预测值:
A通常称为斜率,B通常称为截距。线性优化问题更一般化的公式可以写成最小化加法函数:
其中,L(w | xi, yi)称为损失函数,R(w)


