wget https://github.com/AdoptOpenJDK/openjdk12-binaries/releases/download/jdk-12.0.2%2B10/OpenJDK12U-jdk_x64_linux_hotspot_12.0.2_10.tar.gz
tar xvf OpenJDK12U-jdk_x64_linux_hotspot_12.0.2_10.tar.gz
sudo mkdir /usr/local/openjdk
sudo mv jdk-12.0.2+10 /usr/local/openjdk/
mettre dans le fichier ~/.bash_profile
export JAVA_HOME=/usr/local/openjdk/jdk-12.0.2+10/
export PATH=$JAVA_HOME/bin:$PATH
wget https://downloads.apache.org/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz
tar xvf spark-3.3.0-bin-hadoop3.tgz
sudo mv spark-3.3.0-bin-hadoop3 /usr/local/share/spark
wget https://github.com/sbt/sbt/releases/download/v1.7.2/sbt-1.7.2.tgz
tar xvf sbt-1.7.2.tgz
sudo mv sbt /usr/local/share/
echo "export PATH=/usr/local/share/sbt/bin:$PATH" >> ~/.bash_profile
Cette étape n’est pas obligatoire pour une installation locale. Vous pouvez télécharger le fichier jar sur le repo Git du projet
wget https://github.com/SANSA-Stack/SANSA-Stack/releases/download/v0.8.5_ExPAD/sansa-ml-spark_2.12-0.8.0-RC3-SNAPSHOT-jar-with-dependencies.jar
Pour des raisons de compatibilité des versions Spark/Hadoop sur les clusters, il vaut mieux générer le jar sur l’infrastructure avec les commandes suivantes (:warning: il faut préalablement initialiser l’environnement java) .
git clone https://github.com/SANSA-Stack/SANSA-Stack.git
cd SANSA-Stack
sh ./dev/make_spark_dist.sh
Le jar suivant est généré :
./sansa-stack/sansa-stack-spark/target/sansa-stack-spark_2.12-X.Y.Z-SNAPSHOT-jar-with-dependencies.jar