Метод шинглов

Год/Year: 
2016
№: 
4
Серия/Series: 
Сложные системы модели, анализ и управление / Complex systems: models, analysis, management
Выпуск/Issue: 
4
Начальная страница/First page: 
72
Название: 
Метод шинглов
Title: 
Shingle method
Краткое описание: 
В данной статье рассматриваются методы по определению дублирования документов с целью недопущения их включения в коллекции; анализируются подходы для поиска нечетких дубликатов на основе метода шинглов с целью определения спама в электронной почте, поиска плагиата, очистки коллекций документов от дубликатов. В данной работе представлен разбор методики реализации и выбора параметров алгоритма шинглов, выработаны критерии для выбора функции контрольных сумм (сигнатур), разработана программа для определения дубликатов, предложены критерии выбора параметров оптимизации алгоритма шинглов с применением MinHash и алгоритма супершинглов.
Short description: 
This article discusses the methods for identifying duplicate documents to prevent their inclusion into collections; it also analyses the approaches for fi nding near-duplicate documents based on the method of shingles to determine spam e-mail, search of plagiarism, to clean collections’ documents from duplicates. This paper also presents analysis methods and parameter selection of shingle algorithm, criteria of the checksums (signatures) selection. There was developed a program for identifying duplicates, and proposed the criteria for selecting the optimization algorithm of shingles with using MinHash and supershingles algorithm.
Ключевые слова: 
шинглы, супершинглы, нечеткие дубликаты, подобие текстов, алгоритм шинглов
Keywords: 
shingles, supershingles, fuzzy duplicates, similarity of texts, algorithm of shingles
Полная версия/Full version: