Para a prova de nível médio do Bacen faltam

domingo, 11 de fevereiro de 2024

Quarto tijolo - Python Pandas: tratando e analisando dados

 

Neste tijolo vamos realizar a Análise inicial de um dataset de imóveis.

Iniciamos com o básico que é a importação das bibliotecas pandas, seaborn e numpy.



Ao solicitar a leitura do arquivo, foi verificado que o mesmo não teve os dados separados por virgula, mas por ponto e virgula. Neste caso foi necessário usar o sep=';'


Para descobrimos o tipo de arquivo, indicamos o type() e o info().
No caso o type revelou que era um dataframe e o info no apresentou todas as células não nulas,

a quantidade de colunas e seus respectivos nomes, se era strings, inteiros ou floats, assim como seus totais e a memória usada.





No recorte abaixo usamos o describe() e o já conhecido head().


No dtypes não temos o somatório e nem a memória usada. Já na linha seguinte inserimos nomes nas colunas do dataframe.



Abaixo fizemos uso do shape(), shape[ ] e dentro dos colchetes adicionamos um numero correspondente as colunas ou as linhas. Neste caso o "0" são as linhas e o "1" as colunas.



Ainda sobre o quadro acima solicitamos a imprensão do texto mais as informações obtidas com o shape[ ].

E o que você acha de abrirmos outros tipos de extensão de arquivos? 

Abrimos no quadro abaixo um arquivo txt tabulado e logo em seguida desgnamos como um dataframe.



Agora vamos para um arquivo xlsx.


E agora iremos para um arquivo do tipo html

Ainda sobre o html podemos solicitar diretamente de um site, porém se o site dispuser de mais de uma tabela para o mesmo link se faz necessário informar qual a tabela por ordem de precedência. 




Depois de aprendermos estas dicas vamos voltar ao analise do relatório de imóveis.



Os dados são:

Não podemos esquecer que algumas palavras são restritas, e inserir um nome mais especifico e seguido de sublinhas ajuda a não gerar erros.


A observação acima foi feita porque há a possibilidade de simplificar alguns comandos.


A série é um array unidimensional. E um dataframe pode ser um conjunto de séries.

Com a alteração do inplace não há necessidade de criar um dataframe para armazenar o resultado.



Decidi usar o value_counts() para me certificar da freqência de valores e logo em seguida o uso da len()
























Nenhum comentário:

Postar um comentário