Há dados em Causa: Vigésimo quinto tijolo

Estas linhas representam:

%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
plt.rc('figure', figsize = (15, 8))

Inicialmente a primeira é um comando para o jupyter apresentar o gráfico na própria linha, caso use o colab não é necessário pô-lo. As linhas a seguir são importações de bibliotecas. O plt.rc é uma configuração específica do matplotlib para um ajuste do tamanho padrão das figuras criadas/geradas por ele. Como iremos criar 4 gráficos em uma figura é necessário garantir que haja espaço para todas.

Nesta linha abrimos um arquivo que carregado no colab via upload, o uso do sep=';' é para a reconfiguração das informações.

dados = pd.read_csv('/content/sem_outliers.csv', sep=';')
dados

O dataframe gerado é este:

A seguir temos temos outras instruções como definir uma área.

area = plt.figure()

Na área criada iremos criar uma figura com 4 gráficos, por inserimos 4 variáveis são elas:

g1 = area.add_subplot(2, 2, 1)
g2 = area.add_subplot(2, 2, 2)
g3 = area.add_subplot(2, 2, 3)
g4 = area.add_subplot(2, 2, 4)

Cada gráfico terá 2 linhas, 2 colunas, e o último número diz respeito a posição do gráfico dentro da figura.

Escolhemos criar 4 gráficos distintos, são eles um scatter (um gráfico de dispersão), um histograma, uma amostra que apresentará dados momentâneos, ou seja, a cada atualização o mesmo será apresentará dados diferentes e o quarto gráfico será de barrras.

Em seguida inserimos um título a cada uma.

g1.scatter(dados.Valor, dados.Area)
g1.set_title('Valor X Area')

g2.hist(dados.Valor)
g2.set_title('Histograma')

dados_g3 = dados.Valor.sample(100)
dados_g3.index = range(dados_g3.shape[0])
g3.plot(dados_g3)
g3.set_title('Amostra (Valor)')

grupo = dados.groupby('Tipo')['Valor']
label = grupo.mean().index
valores = grupo.mean().values
g4.bar(label, valores )
g4.set_title('HistValor Médio por Tipo')

No caso do scatter os dados levados em conta foram Valor x Area

No segundo gráfico o histrograma levou em consideração apenas os dados correspondentes a Valor.

Antes de avançamos, vamos entender melhor um pouco do 3º gráfico. O 3º preciso receber um indice para que as informações contidas não corressem o risco de serem malinterpretadas.

dados_g3 = dados.Valor.sample(100)
dados_g3.index = range(dados_g3.shape[0])
g3.plot(dados_g3)
g3.set_title('Amostra (Valor)')

Como podemos ver, sem o ajuste do indice seria assim a apresentação dos dados.

A variável g4 criou um gráfico cruzando as informações tipo (apartamento, casa, casa de condominio, casa de vila e quitinete) com os valores.

grupo = dados.groupby('Tipo')['Valor']
label = grupo.mean().index
valores = grupo.mean().values
g4.bar(label, valores )
g4.set_title('HistValor Médio por Tipo')

E por fim este o resultado final desta linha de comando esta logo abaixo.

g1.scatter(dados.Valor, dados.Area)
g1.set_title('Valor X Area')

g2.hist(dados.Valor)
g2.set_title('Histograma')

dados_g3 = dados.Valor.sample(100)
dados_g3.index = range(dados_g3.shape[0])
g3.plot(dados_g3)
g3.set_title('Amostra (Valor)')

grupo = dados.groupby('Tipo')['Valor']
label = grupo.mean().index
valores = grupo.mean().values
g4.bar(label, valores )
g4.set_title('HistValor Médio por Tipo')

Os arquivos deste post encontram-se neste link https://github.com/faovieira/mais_sobre_gr-ficos.

Há dados em Causa

Para a prova de nível médio do Bacen faltam

quarta-feira, 21 de fevereiro de 2024

Vigésimo quinto tijolo - Mais sobre gráficos

Nenhum comentário:

Postar um comentário