Outra maneira de se obter dados é extraindo-os das webpages. Pesquisar páginas
da web é muito fácil; extrair informações estruturadas e significativas não é tão
fácil.
HTML e Sua Subsequente Pesquisa
As páginas na internet são
escritas em HTML, na qual o texto (idealmente) é
marcado em elementos e atributos:
A
web page
id="author">Joel Grus
id="subject">Data Science
Compartilhe com seus amigos: