Метод шинглов
Год/Year:
2016
№:
4
Серия/Series:
Сложные системы модели, анализ и управление / Complex systems: models, analysis, management
Выпуск/Issue:
4
Начальная страница/First page:
72
Авторы/Authors:
Название:
Метод шинглов
Title:
Shingle method
Краткое описание:
В данной статье рассматриваются методы по определению дублирования документов с целью недопущения их включения в коллекции; анализируются подходы для поиска нечетких дубликатов на основе метода шинглов с целью определения спама в электронной почте, поиска плагиата, очистки коллекций документов от дубликатов. В данной работе представлен разбор методики реализации и выбора параметров алгоритма шинглов, выработаны критерии для выбора функции контрольных сумм (сигнатур), разработана программа для определения дубликатов, предложены критерии выбора параметров оптимизации алгоритма шинглов с применением MinHash и алгоритма супершинглов.
Short description:
This article discusses the methods for identifying duplicate documents to prevent their inclusion into collections; it also analyses the approaches for fi nding near-duplicate documents based on the method of shingles to determine spam e-mail, search of plagiarism, to clean collections’ documents from duplicates. This paper also presents analysis methods and parameter selection of shingle algorithm, criteria of the checksums (signatures) selection. There was developed a program for identifying duplicates, and proposed the criteria for selecting the optimization algorithm of shingles with using MinHash and supershingles algorithm.
Ключевые слова:
шинглы, супершинглы, нечеткие дубликаты, подобие текстов, алгоритм шинглов
Keywords:
shingles, supershingles, fuzzy duplicates, similarity of texts, algorithm of shingles
Полная версия/Full version: