Data Science do zero: Primeiras regras com o Python


partes dos endereços de e-mails que vêm depois do



Baixar 5.26 Mb.
Pdf preview
Página73/75
Encontro24.07.2022
Tamanho5.26 Mb.
#24344
1   ...   67   68   69   70   71   72   73   74   75
Data Science do zero - Primeiras regras

partes dos endereços de e-mails que vêm depois do
@
. (O que nos dá uma
relação errada para endereços de e-mail como
joel@mail.datasciencester.com
.)
def get_domain(email_address):
"""separa no '@' e retorna na última parte"""
return email_address.lower().split("@")[-1]
with open('email_addresses.txt', 'r') as f:
domain_counts = Counter(get_domain(line.strip())
for line in f
if "@" in line)
Arquivos delimitados
O endereço de e-mail hipotético que acabamos de processar tem um endereço
por linha. Com mais frequência, você trabalhará com arquivos com muitos dados
em cada linha. Tais arquivos são separados por vírgula (comma-separated) ou
por tabulação (tab-separated). Cada linha possui diversos campos, com uma
vírgula (ou uma tabulação) indicando onde um campo termina e o outro começa.
Começa a ficar complicado quando você tem campos com vírgulas, tabulações e
newlines neles (inevitavelmente você terá). Por esse motivo, é quase sempre um
erro tentar analisar sozinho. Em vez disso, você deveria usar o modulo
csv
do
Python (ou as bibliotecas
pandas
). Por razões técnicas — fique à vontade para
culpar a Microsoft — você deve sempre trabalhar com arquivos
csv
no modo
binário incluindo um
b
depois de
r
ou
w
(veja Stack Overflow em
http://bit.ly/1L2Y7wl).
Se seu arquivo não possuir cabeçalho (o que significa que você quer que cada
linha seja como uma
list
que deposita em você o fardo de saber o conteúdo de
cada coluna), você pode usar
csv.reader
para iterar sobre as linhas, cada qual será
uma lista apropriadamente separada.
Por exemplo, se tivéssemos um arquivo delimitado por tabulação de preços de


ações:
6/20/2014 AAPL 90.91
6/20/2014 MSFT 41.68
6/20/2014 FB 64.5
6/19/2014 AAPL 91.86
6/19/2014 MSFT 41.51
6/19/2014 FB 64.34
poderíamos processá-los com:

Baixar 5.26 Mb.

Compartilhe com seus amigos:
1   ...   67   68   69   70   71   72   73   74   75




©historiapt.info 2023
enviar mensagem

    Página principal