Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology, pages 199-203



Baixar 0.61 Mb.
Pdf preview
Página1/4
Encontro25.06.2021
Tamanho0.61 Mb.
  1   2   3   4


199

Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology, pages 199–203,

Cuiab´

a, MT, Brazil, October 24–26, 2011. c



2011 Sociedade Brasileira de Computa¸c˜

ao

Resoluc¸˜ao da Heterogeneidade na Identificac¸˜ao de Pacientes



F´abio Filocomo

1

, Marcelo Finger



2†

, Diogo F. C. Patr˜ao

1

1

Laborat´orio de Inform´atica M´edica – CIPE



Fundac¸˜ao Antonio Prudente – Hospital A.C. Camargo

2

Departamento de Ciˆencia da Computac¸˜ao



Instituto de Matem´atica e Estat´ıstica – Universidade de S˜ao Paulo (USP)

{fabio.filocomo,djogo}@cipe.accamargo.org.br, mfinger@ime.usp.br

Abstract. This work deals with the identification of pacients in heterogeneous

databases. We deal with the problem of identifier matching as well as with name

matching. For that, a method for matching several identification formats was

developed; we also developed the QFS measure, which takes in consideration

the statistical distribution of names and cultural factors. We show that QFS-

measure is superior to several existing methods for matching names.

Resumo. Este trabalho trata da identificac¸˜ao de pacientes em bancos de dados

heterogˆeneos. Lidamos com o problema do emparelhamento de identificadores

de pacientes, bem como de nomes. Para tanto, um m´etodo de unificac¸˜ao de

diversos padr˜oes de identificac¸˜ao e uma medidas de similaridade entre nomes,

chamada de medida QFS, foi criada. Mostramos que esta medida ´e superior a

outros m´etodos no caso da identificac¸˜ao de nomes de pessoas.

1. Introduc¸˜ao

Como identificar pacientes em duas dezenas de bancos de dados?

O Hospital A. C. Camargo, localizado em S˜ao Paulo e fundado em 1953, ´e um hos-

pital oncol´ogico, sem fins lucrativos, com uma m´edia mensal de 2500 pacientes atendidos.

Cada paciente recebe um identificador denominado Registro Geral Hospitalar (RGH), o

qual, ao longo dos anos, sofreu modificac¸˜oes em seu formato e no processo de atribuic¸˜ao.

Diversos sistemas informatizados foram implantados, cada um com o RGH no formato

pr´oprio. Este trabalho descreve nossa estrat´egia e resultados na tarefa de resoluc¸˜ao da

heterogeneidade na identificac¸˜ao de pacientes (RHIP).

Para este fim, desenvolvemos dois m´etodos de identificac¸˜ao de pacientes, a saber,

o emparelhamento de identificadores e o emparelhamento de nomes. Falamos de empa-

relhamento de identificadores

quando as pessoas s˜ao representadas por um RGH padr˜ao

em algum formato. Por emparelhamento de nome entende-se a identificac¸˜ao de registros

contendo dados referentes a mesma pessoa, independente da forma como esta pessoa est´a

representada nos diversos bancos de dados.

O primeiro m´etodo promove o emparelhamento de RGHs; estes identificadores

sofreram evoluc¸˜ao ao longo de 5 d´ecadas, e formatos diferentes s˜ao usados em bancos

Trabalho desenvolvido e apoiado pelo projeto INCITO CNPq 573589/2008-9.



Bolsista CNPq PQ 302553/2010-0.




200

de dados diferentes. Para unific´a-los foi proposto um identificador ´unico denominado

CPFH [Filocomo et al. 2011]. O segundo m´etodo busca o emparelhamento dos nomes

de pacientes. Esta ´e uma tarefa significativamente mais complexa, valendo-se de dados

estat´ısticos como a distribuic¸˜ao de probabilidade de nomes de pacientes, fatores culturais

e erros t´ıpicos de digitac¸˜ao.

Este artigo se desenvolve da seguinte maneira. Na Sec¸˜ao 2, apresentamos os

m´etodos desenvolvidos para emparelhar identificadores e nomes, seguido pela avaliac¸˜ao

das medidas e sua comparac¸˜ao com outras existentes na Sec¸˜ao 2.2. Por fim, apresentamos

nossas conclus˜oes na Sec¸˜ao 3.

2. Metodologia

A tarefa de identificac¸˜ao de pacientes nos diversos sistemas do hospital seguiu as seguintes

fases:

• Unificac¸˜ao dos diversos sistemas de identificac¸˜ao de pacientes nos diversos siste-



mas de bancos de dados federados (CPFH).

• Avaliac¸˜ao do emparelhamento por CPFH por amostragem

• Criac¸˜ao de uma medida para identificac¸˜ao de pacientes, QFS (Qwerty Flex Score).

• Comparac¸˜ao da medida QFS com outros m´etodos de identificac¸˜ao de nomes.

2.1. Emparelhamento de Nomes

Para a identificac¸˜ao ´unica de pacientes, foi proposto um identificador denominado CPFH

[Filocomo et al. 2011]. Entretanto, devido aos m´etodos pr´oprios de identificac¸˜ao das

diversas bases de dados, ´e comum encontrar diferentes pacientes compartilhando um

mesmo RGH ou pacientes que sequer o possuam.

Para solucionar este problema, foi proposto um m´etodo de emparelhamento de

nomes (EN). O EN leva em conta uma s´erie de caracter´ısticas dependentes do contexto

geogr´afico e cultural em que se encontram os pacientes do hospital:

1.

a distˆancia Levenshtein com pesos para diferentes erros — este erros foram calibrados



por erros comuns de digitac¸˜ao num teclado brasileiro no padr˜ao ABNT-2;

2.

distribuic¸˜ao estat´ıstica dos nomes nas bases de dados do Hospital;



3.

datas de nascimento, filtrando erros de preenchimentos e datas inv´alidas;

4.

filtro autom´atico de nomes, tratando coment´arios, abreviaturas usuais, caracteres es-



peciais e etc.;

5.

fatores culturais, tais como a raridade da omiss˜ao do primeiro nome, a inserc¸˜ao de



nome p´os casamento, nomes n˜ao brasileiros incomuns na populac¸˜ao local.

O medida gera um valor num´erico entre 0 e 100 cujo limiar de separac¸˜ao entre nomes

emparelh´aveis e n˜ao-emparelh´aveis precisou ser determinado empiricamente, conforme

mostrado nos resultados. O limiar final ´e de 60.

Este m´etodo est´a descrito na Figura 1. Inicialmente, ambos os nomes em comparac¸˜ao

s˜ao segmentados e sua “raridade” ´e verificada. A raridade de um nome ´e definida em

relac¸˜ao `a distribuic¸˜ao de ocorrˆencia de nomes na populac¸˜ao. Em nosso caso, verifica-

mos empiricamente que ao fixar o percentil 7% como limiar de raridade, obtivemos os

melhores resultados.



201



Compartilhe com seus amigos:
  1   2   3   4


©historiapt.info 2019
enviar mensagem

    Página principal