Como terceiro tijolo vamos importar a matplotlib.pyplot as plt e em seguida realizar alguns ajustes.
para imprimir/mostrar um histograma gráfico plt.his (mais o dataframe desejado), para inserir um título usamos plt.title (e o nome desejado). Caso queiramos pode dar um nome ao eixo X e o eixo Y da seguinte maneira plt.xlabel e plt.ylabel (nomes desejados). Para ajustarmos o tamanho do diagrama usaremos o plt.figure(figsize= (5,8)) ou seja inserimos os números que melhor adequam a proporção do DataFrame.
Aqui realizaremos tarefas já conhecidas de adequação dos dados. Após isolarmos a coluna de linguas vamos contar quantas vezes cada idioma aparece no conjunto total de filmes do nosso dataset. value_counts() apenas com este comando receberíamos como resposta apenas uma nova série, para apriomorarmos nossas habilidades iremos de cara criar um frame to_frame() neste frame o idioma passou a ser o nosso indexador, mas por questões de organização e adaptação de dados vamos inserir um outro indexador, neste caso númerico. reset_index(). Não podemos esquecer que sempre fazendo atribuições (fazendo uso do =), nomeando assim uma nova variável.
Como podemos ver a informação nos foi passada, mas pouco informa, visualmente falando. Vamos precisar melhorar isso.
E como resumo da obra temos um gráfico catplot do seaborn que usando o kind="count" nos mostra este gráfico que após refinarmos com o aspect = 2,5 tomou uma forma retangular tornando a legenda dos idiomas mais visíveis. Usando uma palette de cores criamos esta nuance, este degradê onde quanto maior a incidência de uma língua mais clara é a coluna de dados, e como foi citado no quadro anterior fizemos uso do indexador do conjunto de dados para que ficasse mais organizado, neste caso pelo número de recorrência de cada idioma.
Ao voltarmos para a tabela de dados iniciais, tornaremos a consultar as medidas de tendências centrais para agora seguirmos por outro caminho.
Antes vamos tentar entender como uma análise pode funcionar ou tendenciar, por exemplo:
No exemplo acima criamos dois arrays com notas aleatórias. Um com notas de 1 e 5, e outro com notas de 2.5 e 3.5. Ambos com médias e medianas iguais. Porém não podemos de deixar de considerar que há distorções entre as notas, ou seja há mais dados passíveis de análise.
Com o método abaixo o seaborn nos apresentará um gráfico com os dados de forma simultanea.
Nenhum comentário:
Postar um comentário