Data Science do zero: Primeiras regras com o Python



Baixar 5.26 Mb.
Pdf preview
Página44/75
Encontro24.07.2022
Tamanho5.26 Mb.
#24344
1   ...   40   41   42   43   44   45   46   47   ...   75
Data Science do zero - Primeiras regras
Dispersão
A dispersão se refere à medida de como os nossos dados estão espalhados.
Tipicamente, eles são estatísticas em que valores perto de zero significam não
estão espalhados de forma alguma e para valores maiores (o que quer que isso
signifique) significa muito espalhados. Por exemplo, uma simples medida é a
amplitude, que é a diferença entre o maior e o menor elemento:
# “amplitude” já possui significado em Python, então usaremos um nome diferente
def data_range(x):
return max(x) - min(x)
data_range(num_friends) # 99
A amplitude é zero quando o
max
e o
min
são iguais, o que acontece apenas se os
elementos de
x
forem todos iguais, o que significa que os dados estão o menos
dispersos possível. Por outro lado, se a amplitude é ampla, então o
max
é bem
maior do que o
min
e os dados estão mais espalhados.
Assim como a mediana, a amplitude não depende de fato de todo o conjunto de
dados. Um conjunto de dados cujos pontos estão todos entre 0 ou 100 possui a
mesma amplitude que um cujos valores são 0, 100 e muitos 50s. Mas parece que
o primeiro conjunto de dados “deveria” estar mais espalhado.
Uma medida de dispersão mais complexa é a variância, computada desta forma:


def de_mean(x):
"""desloca x ao subtrair sua média (então o resultado tem a média 0)"""
x_bar = mean(x)
return [x_i - x_bar for x_i in x]
def variance(x):
"""presume que x tem ao menos dois elementos"""
n = len(x)
deviations = de_mean(x)
return sum_of_squares(deviations) / (n - 1)
variance(num_friends) # 81.54
Parece que é quase o desvio do quadrado médio da média, exceto que estamos
dividindo por n-1 em vez de n. Na verdade, quando com uma amostra de uma
população maior, x_bar é apenas uma estimativa da média real, o que significa que na
média (x_i – x_bar)**2 há um subestimado quadrado médio da média de x_i da
média, e é por isso que dividimos por n–1 em vez de n. Veja a Wikipédia em
http://bit.ly/1L2EapI.
Agora, qualquer que seja a unidade na qual nossos dados estão (por e
x
emplo,
“friends”), todas as nossas medidas de tendências centrais estão na mesma
unidade. A amplitude estará naquela mesma unidade também. A variância, por
outro lado, possui unidades que são os quadrados das unidades originais (por
exemplo, “friends squared”). Como pode ser difícil entender isso, geralmente
olhamos para o desvio padrão:

Baixar 5.26 Mb.

Compartilhe com seus amigos:
1   ...   40   41   42   43   44   45   46   47   ...   75




©historiapt.info 2022
enviar mensagem

    Página principal