Há dados em Causa: Terceiro tijolo - Introdução a Data Science

Como terceiro tijolo vamos importar a matplotlib.pyplot as plt e em seguida realizar alguns ajustes.
para imprimir/mostrar um histograma gráfico plt.his (mais o dataframe desejado), para inserir um título usamos plt.title (e o nome desejado). Caso queiramos pode dar um nome ao eixo X e o eixo Y da seguinte maneira plt.xlabel e plt.ylabel (nomes desejados). Para ajustarmos o tamanho do diagrama usaremos o plt.figure(figsize= (5,8)) ou seja inserimos os números que melhor adequam a proporção do DataFrame.

Aqui realizaremos tarefas já conhecidas de adequação dos dados. Após isolarmos a coluna de linguas vamos contar quantas vezes cada idioma aparece no conjunto total de filmes do nosso dataset. value_counts() apenas com este comando receberíamos como resposta apenas uma nova série, para apriomorarmos nossas habilidades iremos de cara criar um frame to_frame() neste frame o idioma passou a ser o nosso indexador, mas por questões de organização e adaptação de dados vamos inserir um outro indexador, neste caso númerico. reset_index(). Não podemos esquecer que sempre fazendo atribuições (fazendo uso do =), nomeando assim uma nova variável.

Como podemos ver a informação nos foi passada, mas pouco informa, visualmente falando. Vamos precisar melhorar isso.

Vamos somar o total de filmes por idioma e vamos contar apenas a incidência do idioma inglês, para que assim possamos separar todos os demais idiomas e podermos realizar um parâmentro a parte.

O resultado foi este, a incidência ou influência do idioma no conjunto de filmes analisados é muito alta.

São 4505 filmes só no idioma inglês e 298 filmes com todas as demais linguas, exceto a inglesa.

No dataframe abaixo renomeamos as barras e os eixos.

Com este método fazemos um filtro (query) referente ao nosso conjunto de dados, queremos a contagem (value_counts) dos idiomas diferentes do inglês, assim eles no fornecerá uma série de dados que poderemos utilizar seu indexador para um dataframe futuro.

total_por_lingua_de_outros_filmes = tmdb.query("original_language != 'en'").original_language.value_counts()
total_por_lingua_de_outros_filmes

E como resumo da obra temos um gráfico catplot do seaborn que usando o kind="count" nos mostra este gráfico que após refinarmos com o aspect = 2,5 tomou uma forma retangular tornando a legenda dos idiomas mais visíveis. Usando uma palette de cores criamos esta nuance, este degradê onde quanto maior a incidência de uma língua mais clara é a coluna de dados, e como foi citado no quadro anterior fizemos uso do indexador do conjunto de dados para que ficasse mais organizado, neste caso pelo número de recorrência de cada idioma.

Ao voltarmos para a tabela de dados iniciais, tornaremos a consultar as medidas de tendências centrais para agora seguirmos por outro caminho.

Antes vamos tentar entender como uma análise pode funcionar ou tendenciar, por exemplo:

No exemplo acima criamos dois arrays com notas aleatórias. Um com notas de 1 e 5, e outro com notas de 2.5 e 3.5. Ambos com médias e medianas iguais. Porém não podemos de deixar de considerar que há distorções entre as notas, ou seja há mais dados passíveis de análise.

Com o método abaixo o seaborn nos apresentará um gráfico com os dados de forma simultanea.

sns.distplot(filme1)
sns.distplot(filme2)

É possível entender que o bloco laranja, aqui representando o filme2 de dados aleatório (1,5) e o filme1 (2,5 e 3,5) representado pelo bloco azul.

Talvez este gráfico não consiga ser objetivo, embora seja harmônico. Usando o matplotlib olha o que o histograma nos apresenta.

Ainda no matplotlib, agora com um boxplot:

Caso não tenha ficado claro vamos utilizar o seaboarn, neste caso entre o toy story e o jumanji:

E se quisermos apenas neste exemplo abranger os 5 filmes mais bem votados, a imagem seria esta

Com isso encerramos a discplina de Introdução a Data Science, mas lembramos que podemos carregar dados fornecidos por fontes externas, como o Kaggle e o MovieLens. Hoje, o Google também possui o Google Dataset Search, que nos permite buscar conjuntos de dados que podem ser utilizados para trabalho ou estudo. Em resumo há materias gratuitos disponiveis para que possamos exercitar cada passo dado neste processo.

Há dados em Causa

Para a prova de nível médio do Bacen faltam

sexta-feira, 9 de fevereiro de 2024

Terceiro tijolo - Introdução a Data Science

Nenhum comentário:

Postar um comentário