Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

details

Libere esse material sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Aqui está um material completo de Big Data com Python, incluindo explicações e 
questões para अभ्यास: 
 
 Big Data com Python 
1. O que é Big Data? 
Big Data refere-se ao processamento e análise de grandes volumes de dados que não 
podem ser tratados por métodos tradicionais. 
Os 5 Vs do Big Data: 
• Volume – grande quantidade de dados 
• Velocidade – geração rápida de dados 
• Variedade – diferentes formatos (texto, imagem, vídeo) 
• Veracidade – confiabilidade dos dados 
• Valor – utilidade das informações 
 
2. Python no Big Data 
Python é amplamente utilizado devido à sua simplicidade e ecossistema robusto. 
Principais bibliotecas: 
• Pandas – manipulação de dados 
• NumPy – computação numérica 
• PySpark – processamento distribuído 
• Dask – paralelização 
• Matplotlib / Seaborn – visualização 
 
3. Exemplo com Pandas 
import pandas as pd 
 
# Criando um DataFrame 
dados = { 
 "Nome": ["Ana", "João", "Carlos"], 
 "Idade": [23, 35, 29] 
} 
 
df = pd.DataFrame(dados) 
 
print(df) 
 
4. Processamento com PySpark 
from pyspark.sql import SparkSession 
 
spark = SparkSession.builder.appName("BigData").getOrCreate() 
 
data = [("Ana", 23), ("João", 35)] 
df = spark.createDataFrame(data, ["Nome", "Idade"]) 
 
df.show() 
 
5. Conceitos Importantes 
 Computação Distribuída 
Divisão do processamento em vários computadores. 
 Data Lakes 
Armazenamento de dados brutos em larga escala. 
 ETL (Extract, Transform, Load) 
Processo de extração, transformação e carga de dados. 
 
 Exercícios 
Questões Objetivas 
1. O que caracteriza Big Data? 
a) Pequenos dados estruturados 
b) Grandes volumes de dados complexos 
c) Apenas dados em Excel 
d) Dados offline 
 
2. Qual biblioteca Python é usada para processamento distribuído? 
a) NumPy 
b) Pandas 
c) PySpark 
d) Matplotlib 
 
3. O que significa ETL? 
a) Executar, Testar, Ler 
b) Extrair, Transformar, Carregar 
c) Enviar, Transferir, Logar 
d) Editar, Traduzir, Listar 
 
Questões Discursivas 
4. Explique a importância do Big Data na atualidade. 
 
5. Qual a diferença entre Pandas e PySpark? 
 
6. O que são os 5 Vs do Big Data? Explique cada um. 
 
Exercícios Práticos 
7. Crie um DataFrame com 5 pessoas e suas idades usando Pandas. 
 
8. Filtre apenas pessoas com idade maior que 30. 
df[df["Idade"] > 30] 
 
9. Carregue um arquivo CSV usando Pandas: 
df = pd.read_csv("dados.csv") 
print(df.head())

Mais conteúdos dessa disciplina