Há dados em Causa: Quarto tijolo - Python Pandas: tratando e analisando dados

Neste tijolo vamos realizar a Análise inicial de um dataset de imóveis.

Iniciamos com o básico que é a importação das bibliotecas pandas, seaborn e numpy.

Ao solicitar a leitura do arquivo, foi verificado que o mesmo não teve os dados separados por virgula, mas por ponto e virgula. Neste caso foi necessário usar o sep=';'

Para descobrimos o tipo de arquivo, indicamos o type() e o info().
No caso o type revelou que era um dataframe e o info no apresentou todas as células não nulas,

a quantidade de colunas e seus respectivos nomes, se era strings, inteiros ou floats, assim como seus totais e a memória usada.

No recorte abaixo usamos o describe() e o já conhecido head().

No dtypes não temos o somatório e nem a memória usada. Já na linha seguinte inserimos nomes nas colunas do dataframe.

Abaixo fizemos uso do shape(), shape[ ] e dentro dos colchetes adicionamos um numero correspondente as colunas ou as linhas. Neste caso o "0" são as linhas e o "1" as colunas.

Ainda sobre o quadro acima solicitamos a imprensão do texto mais as informações obtidas com o shape[ ].

E o que você acha de abrirmos outros tipos de extensão de arquivos?

Abrimos no quadro abaixo um arquivo txt tabulado e logo em seguida desgnamos como um dataframe.

Agora vamos para um arquivo xlsx.

E agora iremos para um arquivo do tipo html

Ainda sobre o html podemos solicitar diretamente de um site, porém se o site dispuser de mais de uma tabela para o mesmo link se faz necessário informar qual a tabela por ordem de precedência.

Depois de aprendermos estas dicas vamos voltar ao analise do relatório de imóveis.

Os dados são:

Não podemos esquecer que algumas palavras são restritas, e inserir um nome mais especifico e seguido de sublinhas ajuda a não gerar erros.

A observação acima foi feita porque há a possibilidade de simplificar alguns comandos.

A série é um array unidimensional. E um dataframe pode ser um conjunto de séries.

Com a alteração do inplace não há necessidade de criar um dataframe para armazenar o resultado.

Decidi usar o value_counts() para me certificar da freqência de valores e logo em seguida o uso da len()

Há dados em Causa

Para a prova de nível médio do Bacen faltam

domingo, 11 de fevereiro de 2024

Quarto tijolo - Python Pandas: tratando e analisando dados

Nenhum comentário:

Postar um comentário