Сборники трудов ИСП РАН


Обнаружение неточно повторяющегося текста в документации программного обеспечения

Л.Д. Кантеев (СПбГУ, Санкт-Петербург, Россия)
Ю.О. Костюков (СПбГУ, Санкт-Петербург, Россия)
Д.В. Луцив (СПбГУ, Санкт-Петербург, Россия)
Д.В. Кознов (СПбГУ, Санкт-Петербург, Россия)
М.Н. Смирнов (СПбГУ, Санкт-Петербург, Россия)

Аннотация

При создании документации программного обеспечения часто применяется копирование и вставка с последующим редактированием, в результате чего возникает много повторяющегося текста. Такие повторы усложняют и удорожают поддержку документации, особенно в случае длительных жизненных циклов программного обеспечения и документации. Ещё более усложняет ситуацию то, что зачастую информация повторяется приблизительно, т.е. одна и та же информация может быть многократно представлена с разными уровнями детализации, в различных контекстах и т.д. В данной работе предложен алгоритм, предназначенный для обнаружения неточных повторов в документации программного обеспечения. Алгоритм основан на модели N-грамм и реализован с использованием Natural Language Toolkit. Алгоритм апробирован на документации нескольких проектов с открытым исходным кодом.

Ключевые слова

документация программного обеспечения, нечёткие повторы, обработка текстов на естественных языках, модель N-грамм

Издание

Труды Института системного программирования РАН, том 29, вып. 4, 2017, стр. 303-314.

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2017-29(4)-21

Полный текст статьи в формате pdf (на английском) Вернуться к содержанию тома