将一个电子表格迁移到MySQL和Spark2.0.1上
把传统数据迁移到现代大数据平台有时是一件很令人畏惧的事,诚然,不是每个人都需要这么去做,但是有时候新的分析方法确实能让人看到数据中的惊喜,Marc Borowczak近日撰文描述了一些方法。 下为译文 PART 1 在这篇简短的指导中,笔者将会简短地回顾一种方法并且用我喜欢的数据集来演示。这不是一个ML库也不是一个Kaggle竞赛的数据集,仅仅是积累了数十年笔者跟踪塑料模型集合产生的数据,如此这般一定会适合传统的标准。 描述的步骤是在笔记本电脑上用VirtualBox运行Ubuntu 16.04.1 LTS Gnome,并且假定你已经保存了一张Excel notebook的CSV格式(或者你已经有了一些现有的CSV文件)。这个例子将使用一个从Excel表中保存的CSV文件,也就是Unbuilt.csv。假定该文件是受保护的,但可以被MySQL 5.7.15访问。这个例子中的CSV位于/var/lib/mysql-files/Unbuilt.csv。以下步骤是必需的: 在MySQL中引入.csv文件,并且可以备份一份压缩的MySQL数据库文件。 连接到在Spark2.0.1上的MySQL...


