使用 Jupyter Notebook 运行 Delta Lake 入门教程
本文的例子来自 Delta Lake 官方教程。因为官方教程是基于商业软件 Databricks Community Edition 构建,虽然教程中使用的软件特性都是开源 Delta Lake 版本所具备的,但是考虑到国内的网络环境,注册和使用 Databricks Community Edition 门槛较高。所以本文尝试基于开源的 Jupiter Notebook 重新构建这个教程。 准备一个环境安装 Spark 和 jupyter 本文基于 Linux 构建开发环境,同时使用的软件比如 conda、jupyter以及 pyspark 等都可以在 Windows 和 MacOS 上找到,理论上来说也完全可以在这两个系统上完成此教程。 假设系统已经安装 anaconda 或 miniconda,我们使用 conda 来构建开发环境,可以非常方便的安装 pyspark 和 jupyter notebook conda create --name spark conda activate spark conda install pyspark conda install -c cond...