•
•
•
Para Mais Esclarecimentos
Continue lendo! Usaremos gradiente descendente para resolver problemas
pelo restante do livro.
Neste ponto, você já está cansado de me ver recomendar a leitura de livros
didáticos. Se servir de consolo,
Active Calculus (http://gvsu.edu/s/xr/)
parece mais legal do que os livros didáticos de cálculo com que eu
aprendi.
scikit-learn possui um módulo de Gradiente Descendente Estocástico
(
http://scikit-learn.org/stable/modules/sgd.html). Não é tão
geral quanto o
nosso em alguns pontos e mais geral em outros. Apesar de que, na maioria
das situações do mundo real, você usará bibliotecas nas quais a otimização
já estará pronta, então você não terá que se preocupar com elas (exato
quando não
funcionar corretamente, o que, um dia, inevitavelmente,
acontecerá).
CAPÍTULO 9
Obtendo Dados
Para escrevê-lo, levou três meses; para concebê-lo, três minutos; para coletar os dados nele, toda a minha
vida.
—F.
Scott Fitzgerald
Para se tornar um cientista de dados, você precisa de dados. Na verdade, como
um cientista de dados, você passará uma embaraçosa grande fração
do seu tempo
adquirindo, limpando e transformando dados. Em uma emergência, você sempre
pode inserir os dados você mesmo (ou, se você tiver minions, faça os fazê-lo)
mas, geralmente, não é um bom uso do seu tempo. Neste capítulo,
consideraremos maneiras diferentes de obter dados
para Python e nos formatos
adequados.
stdin e stdout
Se você executar seus scripts de Python na linha de comando, você pode
canalizar (
pipe) os dados por meio deles usando
sys.stdin
e
sys.stdout
.
Por exemplo,
este é um script que lê linhas de texto e devolve as que combinarem com uma
expressão regular:
# egrep.py
import sys, re
# sys.argv é a lista dos argumentos da linha de comandos
# sys.argv [0] é o nome do programa em si
# sys.argv [1] será o regex especificado na linha de comandos
regex = sys.argv[1]
# para cada linha passada pelo script
Compartilhe com seus amigos: