Primeiro tijolo se chama análise
exploratória de dados. Iniciamos os trabalhos conhecendo um pouco da ferramenta
https://colab.research.google.com/ .
Vamos inicialmente baixar um aquivo do site https://grouplens.org/datasets/movielens/
O arquivo foi extraído https://files.grouplens.org/datasets/movielens/ml-latest-small.zip deste link.
Nesta pasta zipada consta links,
ratings, movies e tags. Abaixo segue dados referentes ao arquivo oriundos da
página de origem. (MovieLens Latest Datasets These datasets will change over
time, and are not appropriate for reporting research results. We will keep the
download links stable for automated downloads. We will not archive or make
available previously released versions. Small: 100,000 ratings and 3,600 tag
applications applied to 9,000 movies by 600 users. Last updated 9/2018.)
No colab importamos inicialmente a biblioteca pandas da linguaguem python. Com o comando abaixo é possível abrir/ler o um arquivo com a extensão csv.
import pandas as pd
pd.read_csv("nome do
arquivo.csv")
Após o comando a tela que surge, aqui chamaremos df (DataFrame)
Para descobrir mais informações acerca do DataFrame podemos usar o método .shape
O método .shape no Pandas é utilizado para obter a dimensão (número de linhas e colunas) de um DataFrame. Ele retorna uma tupla com dois valores, onde o primeiro elemento é o número de linhas e o segundo é o número de colunas.
Neste caso notas.shape (100836, 4). Este df contém 100836 linhas e 4 colunas (userId, movieId, rating e timestamp).
Agora vamos redefinir o nome das colunas que estão em inglês e colocar em português.
notas.columns = ["usuarioId", "filmeId", "nota", "momento"]
Vamos isolar a coluna "notas". Assim podemos buscar informações específicas sobre a coluna, podemos chamar de série.
Esta coluna contém valores únicos e para identificarmos teremos que fazer uso de outro método. Neste caso o ".unique".
E agora a mediana:
E para encerrar o primeiro tijolo "a moda".
A média e a mediana acabaram por possuir o mesmo valor de 3.5 enquanto a moda foi para a casa dos 4.0. Normal acontecer isso, afinal cada dataset (conjunto de dados) tem a sua particularidade.
Resumo do tijolo:
Aprendemos a importar uma biblioteca,
ler um arquivo csv,
qual a função do .head() e do .shape(),
renomear colunas,
encontrar os valores únicos .unique(),
contar os valores únicos .values_counts(),
achar a média, mediana e a moda.
Nenhum comentário:
Postar um comentário