Data Science do zero: Primeiras regras com o Python



Baixar 5.26 Mb.
Pdf preview
Página63/75
Encontro24.07.2022
Tamanho5.26 Mb.
#24344
1   ...   59   60   61   62   63   64   65   66   ...   75
Data Science do zero - Primeiras regras
Inferência Bayesiana
Os procedimentos que vimos se dedicaram a fazer as declarações de
probabilidade sobre nossos testes: “há apenas uma chance de 3% de você ter
observado tal estatística extrema se nossa hipótese nula fosse verdadeira”.
Uma abordagem alternativa para a inferência envolve tratar os parâmetros
desconhecidos como variáveis aleatórias. O analista (ou seja, você) começa com
uma distribuição anterior (a priori) para os parâmetros e usa os dados
observados e o Teorema de Bayes para receber uma atualização da distribuição
posterior (a posteriori) para os parâmetros. Em vez de julgar a probabilidade
sobre os testes, julgue a probabilidade sobre os próprios parâmetros.
Por exemplo, quando o parâmetro desconhecido é uma probabilidade (como no
nosso exemplo de lançamento de moeda), frequentemente usamos uma anterior a
partir da distribuição Beta, colocando todas as probabilidades entre 0 e 1:
def B(alpha, beta):
"""uma constante normalizada para que a probabilidade total seja 1"""
return math.gamma(alpha) * math.gamma(beta) / math.gamma(alpha + beta)
def beta_pdf(x, alpha, beta):
if x < 0 or x > 1: # sem peso fora de [0, 1]
return 0
return x ** (alpha - 1) * (1 - x) ** (beta - 1) / B(alpha, beta)
Em geral, essa distribuição centraliza seu peso em:
alpha / (alpha + beta)
e quanto maiores os
alpha
e
beta
são, mais “estreita” é a distribuição.
Por exemplo, se
alpha
e
beta
forem 1, é apenas a distribuição uniforme (centrada
em 0,5, muito dispersa). Se
alpha
for muito maior do que
beta
, a maioria do peso
fica perto de 1. E, se
alpha
for muito menor do que
beta
, a maioria do peso fica
perto de 0. A Figura 7-1 mostra várias distribuições Betas diferentes.
Então, digamos que presumimos uma distribuição anterior em p. Talvez não
queremos tomar uma posição se a moeda for honesta e nós escolhermos
alpha
e
beta
para ambas serem


1. Ou, talvez, tenhamos uma forte certeza de que dará cara 55% das vezes, e
escolhemos
alpha
igual a 55,
beta
igual a 45.
Lançamos nossa moeda muitas vezes e vemos h para heads (cara) e t para tails
(coroa). O Teorema de Bayes (e um pouco de matemática que é muito entediante
para eu tocar nesse assunto) nos diz que a distribuição posterior para p é
novamente uma distribuição beta mas com parâmetros
alpha + h
e
beta + t
.
Não é coincidência que a distribuição posterior seja novamente uma distribuição
beta. O número de caras é fornecido pela distribuição binomial, e a Beta é
conjugada
anterior
(http://www.johndcook.com/blog/conjugate_
prior_diagram/) dela. Isso significa que a qualquer momento que você atualizar
uma Beta anterior usando observações a partir do correspondente binomial,
você receberá uma Beta posterior.
Figura 7-1. Exemplos de distribuições Beta
Digamos que você lance a moeda 10 vezes mas só veja 3 caras.


Se você tivesse começado com uma distribuição anterior uniforme (de certa
forma se recusando a tomar uma posição sobre a honestidade da moeda), sua
distribuição posterior seria uma Beta(4, 8), centrada próximo de 0,33. Já que
você considerou todas as probabilidades igualmente possíveis, seu melhor
palpite é algo bem perto da probabilidade observada.
Se você tivesse começado com um Beta(20, 20) (acreditando que a moeda era
mais ou menos honesta), sua distribuição posterior seria um Beta(23, 27)
centrada próximo de 0,46, indicando uma segurança que talvez a moeda seja
levemente inclinada para coroa.
E se você começasse com um Beta(30, 10) (acreditando que a moeda estava
inclinada a lançar cara em 75%), sua distribuição posterior seria de um Beta(33,
17), centrado próximo de 0,66. Nesse caso, você ainda acreditaria na inclinação
para cara, mas menos do que acreditaria no início. Essas três distribuições
posteriores diferentes estão exibidas na Figura 7-2.
Figura 7-2. Posteriores surgindo de anteriores diferentes


Se você lançasse uma moeda mais e mais vezes, a anterior teria menos
importância até eventualmente ter (quase) a mesma distribuição posterior, sem
importar em qual anterior você começou.
Por exemplo, não importa a inclinação que você pensou que a moeda tinha, seria
difícil acreditar nisso depois de ver 1000 caras de 2000 lançamentos (a menos
que você seja um lunático que escolhe uma anterior tipo Beta(1000000,1)).
O interessante é que isso permite que façamos declarações de probabilidade
sobre hipóteses: “baseado na anterior e nos dados observados, há apenas 5% de
probabilidade que as caras da moeda estejam entre 49% e 51%”.
Filosoficamente, é muito diferente de uma declaração como “se a moeda fosse
honesta, esperaríamos observar dados tão extremos somente 5% das vezes”.
O uso da inferência Bayesiana para testar hipóteses é considerado um pouco
controverso — em parte porque sua matemática pode se tornar complicada e, em
Baixar 5.26 Mb.

Compartilhe com seus amigos:
1   ...   59   60   61   62   63   64   65   66   ...   75




©historiapt.info 2022
enviar mensagem

    Página principal