Data Science do zero: Primeiras regras com o Python


Alguns Outros Pontos de Atenção sobre Correlação



Baixar 5.26 Mb.
Pdf preview
Página47/75
Encontro24.07.2022
Tamanho5.26 Mb.
#24344
1   ...   43   44   45   46   47   48   49   50   ...   75
Data Science do zero - Primeiras regras
Alguns Outros Pontos de Atenção sobre Correlação
Uma correlação de zero indica que não há uma relação linear entre as duas
variáveis. Porém, podem haver vários tipos de relações. Por exemplo, se:
x = [-2, -1, 0, 1, 2]
y = [ 2, 1, 0, 1, 2]
então
x
e
y
possuem uma correlação zero. Mas, certamente, têm uma relação —
cada elemento de
y
é igual ao valor absoluto do elemento correspondente de
x
. O
que eles não têm é uma relação em que saber como
x_i
se compara a
mean(x)
nos
dá informações sobre como
y_i
se compara a
mean(y)
. Esse é o tipo de relação que
a correlação procura.
Além do mais, a correlação não diz nada sobre o tamanho das relações. As
variáveis:
x = [-2, 1, 0, 1, 2]
y = [99.98, 99.99, 100, 100.01, 100.02]
estão perfeitamente correlacionadas, mas (dependendo do que você está
medindo) é bem possível que essa relação não seja muito interessante.


Correlação e Causalidade
Você já deve ter escutado alguma vez que “correlação não é causalidade”, mais
possivelmente de uma pessoa pesquisando dados que impuseram desafios às
partes da visão de mundo que ele estava relutante em questionar. Apesar disso,
este é um ponto importante — se
x
e
y
possuem uma forte correlação, isso talvez
signifique que
x
causa
y
, que
y
causa
x
e que cada um causa o outro, que algum
terceiro fator causa ambos ou pode não significar nada.
Considere a relação entre
num_friends
e
daily_minutes
. É possível que ter mais amigos
faça com que os usuários da DataSciencester passem mais tempo no site. Esse
pode ser o caso se cada amigo postar uma certa quantidade de conteúdo
diariamente pois, quanto mais amigos você tem, mais tempo você leva para pôr
em dia suas atualizações.
Porém, também é possível que, quanto mais tempo você passe discutindo nos
fóruns da DataSciencester, mais você encontrará e fará amizade com pessoas
parecidas com você. Ou seja, passar mais tempo no site faz com que os usuários
tenham mais amigos.
Uma terceira possibilidade seria que os usuários mais dedicados com data
science passassem mais tempo no site (porque eles acham mais interessante) e
ativamente colecionassem mais amigos data science (porque eles não querem se
associar com mais ninguém).
Uma maneira de se sentir mais confiante sobre causalidade é conduzir
experimentos aleatórios. Se você pode dividir seus usuários aleatoriamente em
dois grupos com demografia parecida e dar a um dos grupos uma experiência um
pouco diferente, logo você verá que experiências diferentes estão causando
resultados diferentes.
Por exemplo, se você não se importar de ser acusado de fazer experimentos com
seus usuários (http://nyti.ms/1L2DzEg), você pode escolher um subconjunto
aleatório de usuários e mostrar a eles o conteúdo de somente uma parte dos seus
amigos. Se esse subconjunto subsequentemente passar menos tempo no site, isso
lhe dará mais confiança de que ter mais amigos faz passar mais tempo no site.







Baixar 5.26 Mb.

Compartilhe com seus amigos:
1   ...   43   44   45   46   47   48   49   50   ...   75




©historiapt.info 2023
enviar mensagem

    Página principal