Instalacao, Configuracao e teste do Apache Spark no Windows 11

Romerito Morais
4 min readJun 4, 2023

--

Esse tutorial foi escrito usando um teclado Layout US

Dependencias para esse tutorial funcionar:
Python3.10 ou ≥
Apache Spark (Versao ≥ 3)
Microsoft Vscode ou Intellij IDEA
Winutils.exe
Java JDK 1.8
pyspark (biblioteca)

Baixe a versao do teu interesse em: https://spark.apache.org/downloads.html

No meu caso optei pela ultima versao

Baixe clicando no link acima

Apos baixar, abra o Windows Power Shell e navegue ate a pasta onde o arquivo foi salco usando os seguintes comandos

cd Downloads

Faremos a extracao do arquivo usando o comando

tar -zxvf .\spark-3.4.0-bin-hadoop3.tgz

Apos isso copie a pasta spark-3.4.0-bin-hadoop3 para Documents/Documentos

Baixe tambem a versao do Winutils de acordo com a versao do spark que tu baixou, o link se encontra aqui:
https://github.com/kontext-tech/winutils

Ao baixar, navegue ate a pasta do Spark (spark-3.4.0-bin-hadoop3) que anteriormente tu moveu para Documents e dentro dessa pasta crie uma pasta chama hadoop e dentro da mesma crie outra pasta chamada bin e salve o winutils.exe dentro dela

Baixa o java JDK 1.8 aqui: https://www.oracle.com/br/java/technologies/javase/javase8-archive-downloads.html

Vai pedir para tu logar, cria uma conta e baixe esse carinha!

faca a instalacao

Agora vamos configurar as variaveis de ambiente(ENV)

Siga as imagens.

Essa e a sessao de definicao de variaveis do usuario, no meu caso eu ja tenho as variaveis definidas, para adicionar uma variavel click em New/Novo.

E por fim vamos adicionar ao caminho dos arquivos na sessao de variavel do sistema

Aqui voce vai editar o valor da variavel Path e vai aparecer isso.

Click em New/Novo e deixe com o valores demostrados na imagem acima.

Apos esse processo feche todas as janelas clicando em Ok

Abra seu vscode e vamos as configuracoes.
Na tela do vscode pressione shift+ctrl+p

selecione Python: Create Enviroment…

selecione Venv Creates

Aguarde a finalizacao do processo de criacao, depois va no menu e click em terminal

Selecione New Terminal/Novo Terminal

vai abrir uma janela assim, perceba que no inicio ali temos (.venv) significa que estamos dentro do env criado, agora vamos instalar o pyspark

pip install pyspark==3.4.0

aguarde a instalacao…..

Prontinho!

Agora para testar crie um notebook (.ipynb) e selecione o env

Click em cima do Python 3.11.3

Click em Select Another Kernel..

Click em Python Environments…

E agora selecione o kernel .venv (Python 3.11.3)

E por fim execute o codigo abaixo no notebook

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.createDataFrame(
[
(1, "foo"), # create your data here, be consistent in the types.
(2, "bar"),
],
["id", "label"] # add your column names here
)

df.show()

Saida.

Pronto,spark configurado com sucesso. Chegamos ao fim desse mini tutorial, ate breve.

--

--