Há dados em Causa: Sétimo tijolo - Python Pandas: tratando e analisando dados (drop

segunda-feira, 12 de fevereiro de 2024

Sétimo tijolo - Python Pandas: tratando e analisando dados (drop_duplicates / inplace = True)

Para fixar melhor o conteúdo do drop_duplicates() e do drop_duplicate(inplace =True) adicionei um tijolo por fora para reforçar esta parte. Iniciamos o sexto tijolo com o index e de cara tivemos que fazer uso, então a dúvida veio a tona, espero usar o método difuso de aprendizagem para entender melhor esta parte.

O método drop_duplicates() e drop_duplicates(inplace=True) são ambos utilizados para remover linhas duplicadas de um DataFrame em pandas, mas a diferença está no retorno e na modificação do DataFrame original. Neste exemplo, drop_duplicates() cria um novo DataFrame (df_sem_duplicatas) sem modificar o DataFrame original (df). Se você verificar df após a operação, ele permanecerá inalterado.

Neste exemplo, drop_duplicates(inplace=True) modifica o DataFrame original (df) removendo as linhas duplicadas diretamente nele, sem criar um novo DataFrame. Portanto, o DataFrame original é alterado e não há necessidade de atribuir o resultado a uma nova variável.

Em resumo, a diferença entre os dois métodos está na forma como lidam com o DataFrame original: drop_duplicates() cria um novo DataFrame sem duplicatas, enquanto drop_duplicates(inplace=True) remove as duplicatas diretamente no DataFrame original.

Como números continuou confuso então vejamos com texto. Neste exemplo, o DataFrame original df possui algumas linhas duplicadas com base na coluna 'Nome'. O método drop_duplicates() é utilizado para criar um novo DataFrame, df_sem_duplicatas, removendo as linhas duplicadas. Isso resultará em um novo DataFrame sem alterar o original.

Se você quiser realizar a remoção das duplicatas diretamente no DataFrame original, pode usar o drop_duplicates(inplace=True):

Aqui, o DataFrame original df é modificado diretamente, resultando em um DataFrame sem as linhas duplicadas, sem a necessidade de criar um novo DataFrame. Porém se você observar bem a informação não foi alterada na raiz (na essencia, ela não foi atualizada, mas apenas a forma como está sendo apresentada é que foi atualizada)

Há dados em Causa

Para a prova de nível médio do Bacen faltam

segunda-feira, 12 de fevereiro de 2024

Sétimo tijolo - Python Pandas: tratando e analisando dados (drop_duplicates / inplace = True)

Nenhum comentário:

Postar um comentário