Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

RESUMO DO CONTEÚDO: BIBLIOTECA PANDAS 
O Pandas (abreviação de Panel Data ou Python Data Analysis) é a biblioteca central 
em Ciência de Dados para trabalhar com dados estruturados ou tabulares. Ela permite 
importar, limpar, explorar e manipular dados de forma eficiente, sendo a ferramenta 
primária para a etapa de Preparação e Análise Exploratória de Dados (EDA). 
1. Estruturas de Dados Fundamentais 
O Pandas é construído em torno de duas estruturas principais, baseadas nos arrays do 
NumPy: 
Est
rut
ur
a 
Dime
nsão 
Descrição 
Se
rie
s 
Unidi
mensi
onal 
(1D) 
Um array rotulado (coluna única) capaz de armazenar qualquer tipo de 
dado (inteiros, floats, strings, etc.). É a base para as colunas. 
Da
taF
ra
me 
Bidim
ension
al (2D) 
A estrutura mais utilizada. É uma tabela ou planilha que organiza 
dados em linhas (observações/índices) e colunas (variáveis/rótulos). É 
uma coleção de objetos Series que compartilham o mesmo índice. 
2. Leitura e Escrita de Dados 
O Pandas facilita a importação de dados de diversas fontes e formatos: 
• Leitura: Funções como pd.read_csv(), pd.read_excel(), 
pd.read_json(), pd.read_sql(), etc. 
• Escrita: Métodos como df.to_csv(), df.to_excel(), etc., para salvar 
DataFrames em arquivos. 
3. Análise Exploratória e Visualização (EDA) 
Funções essenciais para obter insights e compreender a estrutura e a qualidade do 
DataFrame: 
• Inspeção: df.head(), df.tail(), df.sample() para visualizar as 
primeiras/últimas/amostras de linhas. 
• Estrutura: df.shape (retorna o número de linhas e colunas) e df.info() 
(fornece um resumo de tipos de dados, valores não nulos e uso de memória). 
• Estatística Descritiva: df.describe() calcula estatísticas resumidas (média, 
desvio padrão, mínimo, quartis) para colunas numéricas. 
• Frequência: df['coluna'].value_counts() retorna a contagem de 
ocorrências exclusivas em uma coluna. 
4. Manipulação de Dados e Limpeza 
O Pandas oferece ferramentas poderosas para pré-processamento de dados: 
• Seleção e Indexação: 
o df['coluna']: Seleciona uma coluna (retorna uma Series). 
o df[['coluna1', 'coluna2']]: Seleciona múltiplas colunas. 
o df.loc[] e df.iloc[]: Usados para seleção baseada em rótulos (loc) 
e posição inteira (iloc). 
• Valores Ausentes (Missing Data): 
o df.isnull().sum(): Conta valores ausentes por coluna. 
o df.dropna(): Remove linhas ou colunas com valores faltantes. 
o df.fillna(): Preenche valores faltantes (com média, mediana, moda 
ou um valor constante). 
• Agrupamento: O método df.groupby('coluna') é usado para agrupar dados 
por uma ou mais colunas categóricas e aplicar funções de agregação (como 
soma, média, contagem) aos grupos. 
 
O Pandas é a "espinha dorsal" da análise de dados em Python, permitindo que o 
Cientista de Dados transforme dados brutos em um formato limpo e estruturado, 
pronto para modelagem. 
Tópico Detalhamento Código Chave (Exemplo) 
Tratamen
to de 
Nulos 
Identificação e manipulação de 
valores ausentes (NaN). 
df.isnull().sum() 
df.dropna() (remover nulos) 
df.fillna(0) (preencher 
nulos) 
Criação 
de 
Colunas 
Criação de novas features a partir 
de dados existentes (Engenharia 
de Atributos). 
df['nova_col'] = 
df['col1'] + 10 
Aplicaçã
o de 
Funções 
Aplicação de funções complexas 
ou personalizadas em colunas ou 
linhas. 
df['col'].apply(lambda x: 
x * 2) 
Agrupam
ento e 
Agregaçã
o 
Organizar dados em grupos e 
calcular estatísticas para cada 
grupo. 
df.groupby('categoria')['
valor'].mean() (média por 
categoria) 
Concaten
ação e 
Junção 
Combinar DataFrames usando 
índices ou chaves comuns. 
pd.concat([df1, df2]) 
pd.merge(df1, df2, 
on='chave') 
 
	RESUMO DO CONTEÚDO: BIBLIOTECA PANDAS
	1. Estruturas de Dados Fundamentais
	2. Leitura e Escrita de Dados
	3. Análise Exploratória e Visualização (EDA)
	4. Manipulação de Dados e Limpeza

Mais conteúdos dessa disciplina