Data Science do zero: Primeiras regras com o Python



Baixar 5.26 Mb.
Pdf preview
Página6/75
Encontro24.07.2022
Tamanho5.26 Mb.
#24344
1   2   3   4   5   6   7   8   9   ...   75
Data Science do zero - Primeiras regras
Sistemas Recomendadores
Curadoria Manual
Recomendando O Que é Popular


23.
24.
25.
Filtragem Colaborativa Baseada no Usuário
Filtragem Colaborativa Baseada em Itens
Para Mais Esclarecimentos
Bases de Dados e SQL
CREATE TABLE e INSERT
UPDATE
DELETE
SELECT
GROUP BY
ORDER BY
JOIN
Subconsultas
Índices
Otimização de Consulta
NoSQL
Para Mais Esclarecimentos
MapReduce
Exemplo: Contagem de Palavras
Por que MapReduce?
MapReduce Mais Generalizado
Exemplo: Analisando Atualizações de Status
Exemplo: Multiplicação de Matriz
Um Adendo: Combinadores
Para Mais Esclarecimentos
Vá em Frente e Pratique Data Science
IPython
Matemática
Não Do Zero
NumPy
pandas
scikit-learn
Visualização
R


Encontre Dados
Pratique Data Science
Hacker News
Carros de Bombeiros
Camisetas
E Você?





Prefácio
Data Science
Data science tem sido chamada de “o emprego mais sexy do Século 21”
(http://bit.ly/1Bqe-1WY), provavelmente por alguém que nunca tenha visitado
um quartel do corpo de bombeiros. De qualquer forma, data science é um campo
em evidência e está em alta; não requer muita investigação para encontrar
prognósticos de analistas de que, nos próximos dez anos, precisaremos de
bilhões e bilhões de cientistas de dados a mais do que possuímos atualmente.
Mas o que é data science? Afinal de contas, não conseguimos produzir cientistas
de dados se não soubermos o que realmente é. De acordo com o diagrama de
Venn (http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagr), um
tanto famoso nesta área, data science se encontra na interseção de:
Habilidades de hacker
Conhecimento de estatística e matemática
Competência significativa
Originalmente, planejei escrever um livro abordando os três, mas eu rapidamente
percebi que uma abordagem completa de “competência significativa” exigiria
dezenas de milhares de páginas. Assim, eu decidi focar nos dois primeiros. Meu
objetivo é ajudá-lo a desenvolver habilidades de hacker, as quais você precisará
para iniciar a prática em data science. Meu outro objetivo é fazer você se sentir
confortável com matemática e estatística, que são a base de data science.
De alguma forma, este livro é uma grande ambição. A melhor maneira de
aprender a hackear é hackeando coisas. Ao ler este livro, você terá um bom
entendimento de como eu hackeio as coisas, que talvez não seja a melhor forma
para você. Você entenderá quais ferramentas eu uso que talvez não sejam as


melhores para você. Você verá como eu abordo os problemas com dados, que
talvez não seja a melhor abordagem para você. A intenção (e a esperança) é que
meus exemplos inspirarão você a experimentar as coisas do seu jeito. Todo o
código
e
dados
deste
livro
estão
disponíveis
no
GitHub
(https://github.com/joelgrus/data-science-from-scratch) para ajudar.
Do mesmo modo, a melhor maneira de aprender matemática é praticando. Na
verdade, este não é um livro de matemática e, na maior parte, nós não
“praticaremos matemática”. No entanto, você não pode praticar data science sem
ter algum entendimento de probabilidade, estatística e álgebra linear. Isso
significa que, quando necessário, vamos a fundo nas equações matemáticas,
intuições matemáticas, axiomas matemáticos e versões cartunescas de grandes
ideias matemáticas. Espero que você não tenha medo de ir fundo comigo.
Durante todo o livro, também espero que você veja que brincar com dados é
divertido, porque, bem, brincar com dados é divertido! ‘Especialmente se
comparado a algumas alternativas, como declaração de impostos ou exploração
de carvão.’





Do Zero
Existem várias e várias bibliotecas, estruturas, módulos e kits de ferramentas de
data science que implementam de modo eficiente os mais comuns (e também os
menos comuns) algoritmos e técnicas. Se você se tornar um cientista de dados,
será íntimo de NumPy, de scikit-learn, de pandas e de diversas outras bibliotecas.
Elas são ótimas para praticar data science e também ótimas para começar a
praticar sem entender de fato o que é data science.
Neste livro, abordaremos data science do zero. Isso significa que construiremos
ferramentas e implementaremos algoritmos à mão, a fim de entendê-los melhor.
Eu me empenhei bastante em criar implementações e exemplos que são claros,
bem comentados e legíveis. Na maioria dos casos, as ferramentas que
construiremos serão esclarecedoras, mas pouco práticas. Elas funcionarão bem
em pequenos conjuntos de dados, mas fracassarão nas escalas encontradas na
web.
No decorrer do livro, eu indicarei bibliotecas que você talvez use para aplicar
tais técnicas para aumentar os conjuntos de dados. Porém, não as usaremos aqui.
Há um sólido debate sobre qual a melhor linguagem para aprender data science.
Muitos acreditam que é a linguagem de programação estatística R. (Achamos
que essas pessoas estão erradas.) Poucos sugerem Java ou Scala. Contudo,
Python é a escolha evidente.
Python possui diversos recursos que o tornam mais adequado para o aprendizado
(e prática) de data science:
É gratuito.
É relativamente simples de codificar (e, o principal, de entender).
Possui muitas bibliotecas úteis relacionadas ao data science.
Fico receoso ao dizer que Python é minha linguagem de programação favorita.
Há outras linguagens que considero mais agradáveis, mais bem projetadas, ou
apenas mais divertidas de trabalhar. E, ainda assim, toda vez que eu começo um
projeto novo de data science, eu acabo usando Python. Toda vez que preciso


fazer um protótipo rápido que funcione, eu acabo usando Python. E toda vez que
quero demonstrar conceitos precisos de data science, de maneira fácil de
entender, acabo usando Python. Desta forma, o livro usa Python.
O objetivo deste livro não é ensinar Python. (Apesar de ser bem óbvio que, ao
ler este livro, você aprenderá um pouco de Python.) Irei levá-lo em um curso
intensivo pelo capítulo que destaca os recursos mais importantes para os nossos
propósitos, mas se você não sabe nada sobre programar em Python (ou sobre
programação no geral), talvez você queira turbinar este livro com algo como um
tutorial “Python para Iniciantes”.
O restante desta introdução ao data science terá a mesma abordagem — entrando
em detalhes quando parecer essencial ou esclarecedor, outras vezes deixando os
detalhes para você descobrir por si só (ou procurar na Wikipédia).
Ao longo dos anos, treinei um grande número de cientistas de dados. Apesar de
que nem todos eles seguiram o caminho de se tornarem cientistas de dados
ninjas rockstars, os deixei melhores do que quando os encontrei. Vim a acreditar
que qualquer pessoa que tenha alguma aptidão para a matemática e alguma
habilidade para programação tem o que é necessário para praticar data science.
Tudo o que precisa é de uma mente curiosa, vontade trabalhar bastante e este
livro. Portanto, este livro.



Baixar 5.26 Mb.

Compartilhe com seus amigos:
1   2   3   4   5   6   7   8   9   ...   75




©historiapt.info 2022
enviar mensagem

    Página principal