Prévia do material em texto
Aqui está um material completo de Big Data com Python, incluindo explicações e
questões para अभ्यास:
Big Data com Python
1. O que é Big Data?
Big Data refere-se ao processamento e análise de grandes volumes de dados que não
podem ser tratados por métodos tradicionais.
Os 5 Vs do Big Data:
• Volume – grande quantidade de dados
• Velocidade – geração rápida de dados
• Variedade – diferentes formatos (texto, imagem, vídeo)
• Veracidade – confiabilidade dos dados
• Valor – utilidade das informações
2. Python no Big Data
Python é amplamente utilizado devido à sua simplicidade e ecossistema robusto.
Principais bibliotecas:
• Pandas – manipulação de dados
• NumPy – computação numérica
• PySpark – processamento distribuído
• Dask – paralelização
• Matplotlib / Seaborn – visualização
3. Exemplo com Pandas
import pandas as pd
# Criando um DataFrame
dados = {
"Nome": ["Ana", "João", "Carlos"],
"Idade": [23, 35, 29]
}
df = pd.DataFrame(dados)
print(df)
4. Processamento com PySpark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("BigData").getOrCreate()
data = [("Ana", 23), ("João", 35)]
df = spark.createDataFrame(data, ["Nome", "Idade"])
df.show()
5. Conceitos Importantes
Computação Distribuída
Divisão do processamento em vários computadores.
Data Lakes
Armazenamento de dados brutos em larga escala.
ETL (Extract, Transform, Load)
Processo de extração, transformação e carga de dados.
Exercícios
Questões Objetivas
1. O que caracteriza Big Data?
a) Pequenos dados estruturados
b) Grandes volumes de dados complexos
c) Apenas dados em Excel
d) Dados offline
2. Qual biblioteca Python é usada para processamento distribuído?
a) NumPy
b) Pandas
c) PySpark
d) Matplotlib
3. O que significa ETL?
a) Executar, Testar, Ler
b) Extrair, Transformar, Carregar
c) Enviar, Transferir, Logar
d) Editar, Traduzir, Listar
Questões Discursivas
4. Explique a importância do Big Data na atualidade.
5. Qual a diferença entre Pandas e PySpark?
6. O que são os 5 Vs do Big Data? Explique cada um.
Exercícios Práticos
7. Crie um DataFrame com 5 pessoas e suas idades usando Pandas.
8. Filtre apenas pessoas com idade maior que 30.
df[df["Idade"] > 30]
9. Carregue um arquivo CSV usando Pandas:
df = pd.read_csv("dados.csv")
print(df.head())