A.V. Zimbalov

Метод шинглов

Title: 
Shingle method
Год/Year: 
2016
№: 
4
Начальная страница/First page: 
72
Краткое описание: 
В данной статье рассматриваются методы по определению дублирования документов с целью недопущения их включения в коллекции; анализируются подходы для поиска нечетких дубликатов на основе метода шинглов с целью определения спама в электронной почте, поиска плагиата, очистки коллекций документов от дубликатов. В данной работе представлен разбор методики реализации и выбора параметров алгоритма шинглов, выработаны критерии для выбора функции контрольных сумм (сигнатур), разработана программа для определения дубликатов, предложены критерии выбора параметров оптимизации алгоритма шинглов с применением MinHash и алгоритма супершинглов.
Short description: 
This article discusses the methods for identifying duplicate documents to prevent their inclusion into collections; it also analyses the approaches for fi nding near-duplicate documents based on the method of shingles to determine spam e-mail, search of plagiarism, to clean collections’ documents from duplicates. This paper also presents analysis methods and parameter selection of shingle algorithm, criteria of the checksums (signatures) selection. There was developed a program for identifying duplicates, and proposed the criteria for selecting the optimization algorithm of shingles with using MinHash and supershingles algorithm.
Subscribe to RSS - A.V. Zimbalov