Correlação e Causalidade
Você já deve ter escutado alguma vez que “correlação não é causalidade”, mais
possivelmente de uma pessoa pesquisando dados que impuseram desafios às
partes da visão de mundo que ele estava relutante em questionar.
Apesar disso,
este é um ponto importante — se
x
e
y
possuem uma forte correlação, isso talvez
signifique que
x
causa
y
, que
y
causa
x
e que cada um causa o outro, que algum
terceiro fator causa ambos ou pode não significar nada.
Considere a relação
entre
num_friends
e
daily_minutes
. É possível que ter mais amigos
faça com que os usuários da DataSciencester passem mais tempo no site. Esse
pode ser o caso se cada amigo postar uma certa quantidade de conteúdo
diariamente pois, quanto mais amigos você tem, mais tempo você leva para pôr
em dia suas atualizações.
Porém, também é possível que, quanto mais tempo você passe discutindo nos
fóruns da DataSciencester, mais você encontrará e fará
amizade com pessoas
parecidas com você. Ou seja, passar mais tempo no site
faz com que os usuários
tenham mais amigos.
Uma terceira possibilidade seria que os usuários mais dedicados com data
science passassem mais tempo no site (porque eles acham mais interessante) e
ativamente colecionassem mais amigos data science (porque eles não querem se
associar com mais ninguém).
Uma maneira de se sentir mais confiante sobre causalidade é
conduzir
experimentos aleatórios. Se você pode dividir seus usuários aleatoriamente em
dois grupos com demografia parecida e dar a um dos grupos uma experiência um
pouco diferente, logo você verá que experiências diferentes estão causando
resultados diferentes.
Por exemplo, se você não se importar de ser acusado
de fazer experimentos com
seus usuários (
http://nyti.ms/1L2DzEg), você pode escolher um subconjunto
aleatório de usuários e mostrar a eles o conteúdo de somente uma parte dos seus
amigos. Se esse subconjunto subsequentemente passar menos tempo no site, isso
lhe dará mais confiança
de que ter mais amigos faz passar mais tempo no site.