Data Science do zero: Primeiras regras com o Python



Baixar 5.26 Mb.
Pdf preview
Página24/75
Encontro24.07.2022
Tamanho5.26 Mb.
#24344
1   ...   20   21   22   23   24   25   26   27   ...   75
Data Science do zero - Primeiras regras
from collections import Counter
c = Counter([0, 1, 2, 0]) # c é (basicamente) { 0 : 2, 1 : 1, 2 : 1 }
Isso nos mostra uma forma simples de resolver nosso problema de
word_counts
:
word_counts = Counter(document)
Uma instância
Counter
possui um método
most_common
que é frequentemente útil:
# imprime as dez palavas mais comuns e suas contas
for word, count in word_counts.most_common(10):
print word, count
Conjuntos
Outra estrutura de dados é o
set
(conjunto), que representa uma coleção de
elementos distintos:
s = set()
s.add(1) # s agora é { 1 }
s.add(2) # s agora é { 1, 2 }
s.add(2) # s ainda é { 1, 2 }
x = len(s) # é igual a 2
y = 2 in s # é igual a True
z = 3 in s # é igual a False
Usaremos os conjuntos por duas razões principais. A primeira é que
in
é uma
operação muito rápida em conjuntos. Se tivermos uma grande coleção de itens
que queiramos usar para um teste de sociedade, um conjunto é mais adequado do
que uma lista:
stopwords_list = ["a","an","at"] + hundreds_of_other_words + ["yet", "you"]
"zip" in stopwords_list # Falso, mas tem que verificar todos os elementos
stopwords_set = set(stopwords_list)
"zip" in stopwords_set # muito rápido para verificar
A segunda razão é encontrar os itens distintos em uma coleção:


item_list = [1, 2, 3, 1, 2, 3]
num_items = len(item_list) # 6
item_set = set(item_list) # {1, 2, 3}
num_distinct_items = len(item_set) # 3
distinct_item_list = list(item_set) # [1, 2, 3]
Usaremos
set
s com menos frequência do que
dict
s e
list
s.

Baixar 5.26 Mb.

Compartilhe com seus amigos:
1   ...   20   21   22   23   24   25   26   27   ...   75




©historiapt.info 2023
enviar mensagem

    Página principal