Data Science do zero: Primeiras regras com o Python



Baixar 5.26 Mb.
Pdf preview
Página46/75
Encontro24.07.2022
Tamanho5.26 Mb.
#24344
1   ...   42   43   44   45   46   47   48   49   ...   75
Data Science do zero - Primeiras regras
for i, x in enumerate(num_friends)
if i != outlier]
daily_minutes_good = [x
for i, x in enumerate(daily_minutes)
if i != outlier]
correlation(num_friends_good, daily_minutes_good) # 0.57
Sem o valor discrepante, há uma correlação bem mais forte (Figura 5-3).


Figura 5-3. Correlação após a remoção do valor discrepante
Você averígua e descobre que o valor discrepante era, na verdade, uma conta
teste interna que ninguém se preocupou em remover. Então sinta-se bem ao
excluí-la.


Paradoxo de Simpson
Uma surpresa incomum ao analisar dados é o Paradoxo de Simpson, em que as
correlações podem ser enganosas quando as variáveis de confusão são ignoradas.
Por exemplo, imagine que você possa identificar todos os seus membros como
cientistas de dados da Costa Leste e da Costa Oeste. Você decide examinar quais
são os mais amigáveis:
costa
quantidade de
membros
média da
quantidade de
amigos
Costa
Oeste
101
8.2
Costa
Leste
103
6.5
Certamente parece que os cientistas de dados da Costa Oeste são mais amigáveis
do que os da Costa Leste. Seus colegas de trabalho investem em todo o tipo de
teorias no motivo pelo qual isso talvez aconteça: talvez seja o sol, o café, a
produção orgânica ou a brisa descontraída do Pacífico.
Ao brincar com os dados, você descobre algo muito estranho. Se você olhar
somente para as pessoas com PhDs, os cientistas de dados da Costa Leste
possuem uma média maior de amigos. E, se você olhar para as pessoas sem
PhDs, os cientistas de dados da Costa Leste também possuem uma média maior
de amigos!


Uma vez que você verifica os diplomas dos usuários, a correlação vai em direção
oposta! Agrupando os dados como Costa Leste/Oeste mascarou o fato de que os
cientistas de dados da Costa Leste se distorcem mais intensamente com os tipos
de PhDs.
Tal fenômeno surge no mundo real com alguma regularidade. O ponto chave é
que a correlação é medir a relação entre suas duas variáveis com tudo o mais
sendo igual. Se as suas aulas de dados fossem atribuídas aleatoriamente, como se
fossem classificadas como um experimento bem projetado, “por mais que sejam
iguais” pode não ser uma premissa terrível. Mas quando há um padrão mais
profundo na atribuição de classe, “por mais que sejam iguais” pode ser uma
premissa terrível.
O único modo real de evitar isso é conhecendo seus dados e fazendo o que puder
para ter certeza de que verificou pelos possíveis fatores de confusão.
Evidentemente, nem sempre é possível. Se você não tivesse a informação
educacional desses 200 cientistas de dados, você talvez concluísse que havia
algo inerente e mais sociável sobre a Costa Oeste.



Baixar 5.26 Mb.

Compartilhe com seus amigos:
1   ...   42   43   44   45   46   47   48   49   ...   75




©historiapt.info 2022
enviar mensagem

    Página principal