Comment installer Apache Spark sur Debian 11

Apache Spark est un cadre de calcul gratuit, open-source, polyvalent et distribué qui a été créé pour fournir des résultats de calcul plus rapides. Il prend en charge plusieurs API pour le streaming et le traitement des graphes, notamment Java, Python, Scala et R. En général, Apache Spark peut être utilisé dans des clusters Hadoop, mais tu peux aussi l’installer en mode autonome.

Dans ce tutoriel, nous allons te montrer comment installer le framework Apache Spark sur Debian 11.

Conditions préalables

  • Un serveur fonctionnant sous Debian 11.
  • Un mot de passe root est configuré sur le serveur.

Installer Java

Apache Spark est écrit en Java. Java doit donc être installé dans ton système. S’il n’est pas installé, tu peux l’installer à l’aide de la commande suivante :

apt-get install default-jdk curl -y

Une fois que Java est installé, vérifie la version de Java à l’aide de la commande suivante :

java --version

Tu devrais obtenir le résultat suivant :

openjdk 11.0.12 2021-07-20
OpenJDK Runtime Environment (build 11.0.12+7-post-Debian-2)
OpenJDK 64-Bit Server VM (build 11.0.12+7-post-Debian-2, mixed mode, sharing)

Installer Apache Spark

Au moment de la rédaction de ce tutoriel, la dernière version d’Apache Spark est 3.1.2. Tu peux la télécharger à l’aide de la commande suivante :

wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Une fois le téléchargement terminé, extrais le fichier téléchargé à l’aide de la commande suivante :

tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

Ensuite, déplace le répertoire extrait vers le répertoire /opt avec la commande suivante :

mv spark-3.1.2-bin-hadoop3.2/ /opt/spark

Ensuite, modifie le fichier ~/.bashrc et ajoute la variable Spark path :

nano ~/.bashrc

Ajoute les lignes suivantes :

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Enregistre et ferme le fichier puis active la variable d’environnement Spark à l’aide de la commande suivante :

source ~/.bashrc

Démarre Apache Spark

Tu peux maintenant exécuter la commande suivante pour démarrer le service maître Spark :

start-master.sh

Tu devrais obtenir le résultat suivant :

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian11.out

Par défaut, Apache Spark écoute sur le port 8080. Tu peux le vérifier à l’aide de la commande suivante :

ss -tunelp | grep 8080

Tu obtiendras la sortie suivante :

tcp   LISTEN 0      1                                    *:8080             *:*    users:(("java",pid=24356,fd=296)) ino:47523 sk:b cgroup:/user.slice/user-0.slice/session-1.scope v6only:0 <->                                                                                                                                                                                                                                                                    

Ensuite, démarre le processus de travailleur Apache Spark à l’aide de la commande suivante :

start-slave.sh spark://your-server-ip:7077

Accéder à l’interface Web d’Apache Spark

Tu peux maintenant accéder à l’interface Web d’Apache Spark en utilisant l’URL http://your-server-ip:8080. Tu devrais voir le service maître et esclave Apache Spark sur l’écran suivant :

Tableau de bord Apache Spark

Clique sur l’identifiant du travailleur. Tu devrais voir les informations détaillées de ton Worker sur l’écran suivant :

Travailleur de l'étincelle

Connecter Apache Spark via la ligne de commande

Si tu veux te connecter à Spark via sa ligne de commande, exécute les commandes ci-dessous :

spark-shell

Une fois que tu es connecté, tu obtiendras l’interface suivante :

Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.12)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 

Si tu veux utiliser Python dans Spark. Tu peux utiliser l’utilitaire de ligne de commande pyspark.

Tout d’abord, installe la version 2 de Python avec la commande suivante :

apt-get install python -y

Une fois installé, tu peux te connecter à Spark avec la commande suivante :

pyspark

Une fois connecté, tu devrais obtenir la sortie suivante :

To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/

Using Python version 3.9.2 (default, Feb 28 2021 17:03:44)
Spark context Web UI available at http://debian11:4040
Spark context available as 'sc' (master = local[*], app id = local-1633769632964).
SparkSession available as 'spark'.
>>> 

Arrête le maître et l’esclave

Tout d’abord, arrête le processus esclave à l’aide de la commande suivante :

stop-slave.sh

Tu obtiendras le résultat suivant :

stopping org.apache.spark.deploy.worker.Worker

Ensuite, arrête le processus maître à l’aide de la commande suivante :

stop-master.sh

Tu obtiendras le résultat suivant :

stopping org.apache.spark.deploy.master.Master

Conclusion

Félicitations ! Tu as réussi à installer Apache Spark sur Debian 11. Tu peux maintenant utiliser Apache Spark dans ton entreprise pour traiter de grands ensembles de données.

Vous aimerez aussi...