Apache Spark 是用于大规模分析数据和机器学习处理的开源计算框架。 它支持各种首选语言,例如 scala、R、Python 和 Java。 它提供了用于 Spark 流的高级工具、用于图形处理的 GraphX、SQL、MLLib。
在本文中,您将了解安装和配置的方式 Apache 在 ubuntu 上激发火花。 为了演示本文中的流程,我使用了 Ubuntu 20.04 LTS 版本系统。 安装前 Apache Spark 你必须在你的系统上安装 Scala 和 Scala。
安装 Scala
如果您还没有安装 Java 和 Scala,您可以按照以下流程进行安装。
对于 Java,我们将安装开放的 JDK 8,或者您可以安装您喜欢的版本。
$ sudo apt update
$ sudo apt install openjdk-8-jdk
如果需要验证java安装可以执行以下命令。
$ java -version
至于 Scala,Scala 是一种面向对象的函数式编程语言,将其组合成单一的简洁。 Scala 与 javascript 运行时和 JVM 兼容,使您可以轻松访问大型库生态系统,这有助于构建高性能系统。 执行以下apt命令安装scala。
$ sudo apt update
$ sudo apt install scala
现在,检查版本以验证安装。
$ scala -version