Data Science do zero: Primeiras regras com o Python


Descrevendo um Conjunto Único de Dados



Baixar 5.26 Mb.
Pdf preview
Página42/75
Encontro24.07.2022
Tamanho5.26 Mb.
#24344
1   ...   38   39   40   41   42   43   44   45   ...   75
Data Science do zero - Primeiras regras
Descrevendo um Conjunto Único de Dados
Por meio de uma combinação de discurso oral e sorte, a DataSciencester
ampliou para dúzias de membros e o vice-presidente da Captação de Recursos
solicita um relatório de quantos amigos seus membros possuem a fim de incluí-
los em seus discursos no elevador.
Ao usar as técnicas do Capítulo 1, você é plenamente capaz de produzir dados.
Mas, agora, você está diante do problema de como descrevê-los.
Uma descrição evidente de qualquer dado é simplesmente o dado em si:
num_friends = [100, 49, 41, 40, 25,
# … e muitos mais
]
Para um conjunto pequeno de dados, essa pode até ser a melhor representação.
Mas, para um conjunto maior, ela é complicada e confusa. (Imagine olhar para
uma lista de um milhão de números.) Por essa razão, usamos a estatística para
destilar e comunicar os aspectos relevantes dos nossos dados.
Na primeira abordagem, colocamos a contagem de amigos em um histograma
usando
Counter
e
plt.bar()
(Figura 5-1):
friend_counts = Counter(num_friends)
xs = range(101) # o valor maior é 100
ys = [friend_counts[x] for x in xs] # a altura é somente # de amigos
plt.bar(xs, ys)
plt.axis([0, 101, 0, 25])
plt.title("Histograma da Contagem de Amigos")
plt.xlabel("# de amigos")
plt.ylabel("# de pessoas")
plt.show()


Figura 5-1. Um histograma da contagem de amigos
Infelizmente, esse gráfico ainda é muito difícil para inserir em discussões.
Portanto, é melhor começar a gerar algumas estatísticas. Provavelmente, a
estatística mais simples é o número de pontos nos dados:
num_points = len(num_friends) # 204
Possivelmente, você também está interessado nos maiores e menores valores:
largest_value = max(num_friends) # 100
smallest_value = min(num_friends) # 1
que são apenas casos especiais de querer saber os valores em posições
específicas:
sorted_values = sorted(num_friends)
smallest_value = sorted_values[0] # 1
second_smallest_value = sorted_values[1] # 1
second_largest_value = sorted_values[-2] # 49


Mas estamos apenas começando.

Baixar 5.26 Mb.

Compartilhe com seus amigos:
1   ...   38   39   40   41   42   43   44   45   ...   75




©historiapt.info 2023
enviar mensagem

    Página principal