Data Science do zero: Primeiras regras com o Python


def random_kid(): return



Baixar 5.26 Mb.
Pdf preview
Página50/75
Encontro24.07.2022
Tamanho5.26 Mb.
#24344
1   ...   46   47   48   49   50   51   52   53   ...   75
Data Science do zero - Primeiras regras
def random_kid():
return random.choice(["boy", "girl"])
both_girls = 0
older_girl = 0
either_girl = 0
random.seed(0)
for _ in range(10000):
younger = random_kid()
older = random_kid()
if older == "girl":
older_girl += 1
if older == "girl" and younger == "girl":
both_girls += 1
if older == "girl" or younger == "girl":
either_girl += 1
print "P(both | older):", both_girls / older_girl # 0.514 ~ 1/2
print "P(both | either): ", both_girls / either_girl # 0.342 ~ 1/3


Teorema de Bayes
Um dos melhores amigos do cientista de dados é o Teorema de Bayes, o qual é
uma maneira de “reverter” as probabilidades condicionais. Digamos que
precisamos saber a probabilidade de algum evento E ser condicionado à
ocorrência de outro evento F. Mas apenas temos a informação sobre a
probabilidade da ocorrência de F sendo condicionado a E. Usando a definição de
probabilidade condicional duas vezes, podemos dizer que:
P (E| F =P (E, F)/P (F) =P (F| E) P (E) /P (F)
O evento F pode ser dividido em dois eventos mutuamente exclusivos “F e E” e
“F e não E”. Se escrevermos E para “não E” (por exemplo, “E não acontece”),
logo:
então temos:
que é como o Teorema de Bayes é estabelecido.
Esse teorema é usado com frequência para demonstrar porque os cientistas de
dados são mais espertos do que médicos. imagine que uma determinada doença
afete 1 a cada 10.000 pessoas. E imagine que haja um teste para essa doença que
mostra o resultado correto (“doente” se você tem a doença e “não-doente” se
não) 99% das vezes.
O que significa um teste positivo? Vamos usar T para o evento “seu teste é
positivo” e D para o evento “você tem a doença”. O Teorema de Bayes diz que a
probabilidade de você ter a doença, condicional ao teste positivo, é:
Aqui vemos que P(T | D), a probabilidade de que alguém com a doença obtenha
um teste positivo, é 0,99. P(D), a probabilidade de que qualquer pessoa tenha a
doença é 1/10.000 = 0.0001. P (T|¬D), a probabilidade de que alguém sem a
doença obtenha um teste positivo é 0,01. E P(¬D), a probabilidade de que


qualquer pessoa não tenha a doença é 0,9999. Se você substituir esses números
no Teorema de Bayes você encontrará
P (D) | T = 0.98%
Ou seja, menos de 1% das pessoas que obtém um teste positivo realmente
possuem a doença.
Isso presume que as pessoas fazem o teste de forma aleatória. Se apenas as
pessoas que possuíssem alguns sintomas fizessem o teste, teríamos como
condição o evento “teste positivo e sintomas” e o número teria a possibili-dade
de ser bem maior.
Enquanto esse é um cálculo simples para os cientistas de dados, a maioria dos
médicos chutariam que P(D|T) seria perto de 2.
Uma forma mais intuitiva de ver isso é imaginar uma população de um milhão
de pessoas. Você esperaria que 100 delas tivessem a doença, e que 99 dessas 100
obtivessem um teste positivo. Por outro lado, você esperaria que 999.900 delas
não tivessem a doença, e que 9,999 delas obtivessem um teste positivo. O que
significa que você esperaria que somente 99 de (99 + 9999) testes positivos
realmente possuíssem a doença.



Baixar 5.26 Mb.

Compartilhe com seus amigos:
1   ...   46   47   48   49   50   51   52   53   ...   75




©historiapt.info 2022
enviar mensagem

    Página principal