Сборники трудов ИСП РАН


Метод поиска реквизитов физических лиц в базах данных на основе нечёткого сравнения

Н. Лиманова (ПГУТИ, Самара), М. Седов (ПГУТИ, Самара)

Аннотация

При передаче данных от одного чреждения к другому возникает проблема персональной идентификации физических лиц, у которых частично или полностью не совпадают реквизиты. Для правильного сопоставления персональных данных в базах данных источника и приемника необходимо выполнить интеллектуальный поиск таких данных и привязку к уже имеющимся персональным идентификационным номерам. В статье предлагаются метод и алгоритм нечеткого поиска реквизитов физических лиц в базах данных. Метод основан на модифицированной метрике Левенштейна с использованием трех операций: вставки, замены и удаления символов, где все три операции имеют одинаковый вес. Представлена общая схема алгоритма поиска на основе нечеткого сравнения с подробным описанием его работы и особенностей. Разработанную процедуру идентификации можно рассматривать как часть системы поддержки принятия решений. Процедура не требует вмешательства оператора, накапливает опыт и самообучается в процессе работы, позволяя, тем самым, полностью освободить специалистов от низкопрофильной, неэффективной ручной работы напрямую с наборами реквизитов физических лиц, хранящимися в базах данных. Встроенная система приоритета реквизитов позволяет идентифицировать человека в таких случаях, как смена фамилии, имени, переезд, ошибки при ручном вводе данных, а также при частично отсутствующих реквизитах. Приведены результаты сравнения технических и экономических показателей предложенного метода с существующими. Алгоритм реализован на языке PL-SQL в СУБД Oracle 11g и используется с 2007 года в промышленной эксплуатации при автоматизированной обработке информации в нескольких муниципальных учреждениях Самарской области. В перспективе предложенный метод обладает возможностью успешного внедрения в системы глобального объединения хранилищ государственных или коммерческих организаций для ведения единой базы данных населения любой страны мира. Логическая структура разработанного алгоритма дает возможность реализовать его на любом языке программирования. Масштабируемость алгоритма позволяет применять программные процедуры на его основе, как в малых организациях, так и в крупных корпорациях, везде, где ведётся и актуализируется реестр персональных данных физических лиц.

Ключевые слова

interdepartmental exchange of information; indistinct matching; search of personal details; function of intellectual matching; personal identification number (PIN)

Издание

Труды Института системного программирования РАН, том 27, вып. 3, 2015, стр. 329-342.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2015-27(3)-23

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома