Prévia do material em texto
RESUMO DO CONTEÚDO: BIBLIOTECA PANDAS
O Pandas (abreviação de Panel Data ou Python Data Analysis) é a biblioteca central
em Ciência de Dados para trabalhar com dados estruturados ou tabulares. Ela permite
importar, limpar, explorar e manipular dados de forma eficiente, sendo a ferramenta
primária para a etapa de Preparação e Análise Exploratória de Dados (EDA).
1. Estruturas de Dados Fundamentais
O Pandas é construído em torno de duas estruturas principais, baseadas nos arrays do
NumPy:
Est
rut
ur
a
Dime
nsão
Descrição
Se
rie
s
Unidi
mensi
onal
(1D)
Um array rotulado (coluna única) capaz de armazenar qualquer tipo de
dado (inteiros, floats, strings, etc.). É a base para as colunas.
Da
taF
ra
me
Bidim
ension
al (2D)
A estrutura mais utilizada. É uma tabela ou planilha que organiza
dados em linhas (observações/índices) e colunas (variáveis/rótulos). É
uma coleção de objetos Series que compartilham o mesmo índice.
2. Leitura e Escrita de Dados
O Pandas facilita a importação de dados de diversas fontes e formatos:
• Leitura: Funções como pd.read_csv(), pd.read_excel(),
pd.read_json(), pd.read_sql(), etc.
• Escrita: Métodos como df.to_csv(), df.to_excel(), etc., para salvar
DataFrames em arquivos.
3. Análise Exploratória e Visualização (EDA)
Funções essenciais para obter insights e compreender a estrutura e a qualidade do
DataFrame:
• Inspeção: df.head(), df.tail(), df.sample() para visualizar as
primeiras/últimas/amostras de linhas.
• Estrutura: df.shape (retorna o número de linhas e colunas) e df.info()
(fornece um resumo de tipos de dados, valores não nulos e uso de memória).
• Estatística Descritiva: df.describe() calcula estatísticas resumidas (média,
desvio padrão, mínimo, quartis) para colunas numéricas.
• Frequência: df['coluna'].value_counts() retorna a contagem de
ocorrências exclusivas em uma coluna.
4. Manipulação de Dados e Limpeza
O Pandas oferece ferramentas poderosas para pré-processamento de dados:
• Seleção e Indexação:
o df['coluna']: Seleciona uma coluna (retorna uma Series).
o df[['coluna1', 'coluna2']]: Seleciona múltiplas colunas.
o df.loc[] e df.iloc[]: Usados para seleção baseada em rótulos (loc)
e posição inteira (iloc).
• Valores Ausentes (Missing Data):
o df.isnull().sum(): Conta valores ausentes por coluna.
o df.dropna(): Remove linhas ou colunas com valores faltantes.
o df.fillna(): Preenche valores faltantes (com média, mediana, moda
ou um valor constante).
• Agrupamento: O método df.groupby('coluna') é usado para agrupar dados
por uma ou mais colunas categóricas e aplicar funções de agregação (como
soma, média, contagem) aos grupos.
O Pandas é a "espinha dorsal" da análise de dados em Python, permitindo que o
Cientista de Dados transforme dados brutos em um formato limpo e estruturado,
pronto para modelagem.
Tópico Detalhamento Código Chave (Exemplo)
Tratamen
to de
Nulos
Identificação e manipulação de
valores ausentes (NaN).
df.isnull().sum()
df.dropna() (remover nulos)
df.fillna(0) (preencher
nulos)
Criação
de
Colunas
Criação de novas features a partir
de dados existentes (Engenharia
de Atributos).
df['nova_col'] =
df['col1'] + 10
Aplicaçã
o de
Funções
Aplicação de funções complexas
ou personalizadas em colunas ou
linhas.
df['col'].apply(lambda x:
x * 2)
Agrupam
ento e
Agregaçã
o
Organizar dados em grupos e
calcular estatísticas para cada
grupo.
df.groupby('categoria')['
valor'].mean() (média por
categoria)
Concaten
ação e
Junção
Combinar DataFrames usando
índices ou chaves comuns.
pd.concat([df1, df2])
pd.merge(df1, df2,
on='chave')
RESUMO DO CONTEÚDO: BIBLIOTECA PANDAS
1. Estruturas de Dados Fundamentais
2. Leitura e Escrita de Dados
3. Análise Exploratória e Visualização (EDA)
4. Manipulação de Dados e Limpeza