Shingle - некая последовательность элементов (слов) в документе. Например, в “a rose is a rose a rose” выделенное курсивом “is a rose” может считаться шинглом.
Идем дальше. w-shingling - это набор уникальных шинглов длины w.
Например, если мы ищем 4-shingling, то из “a rose is a rose is a rose” всего получится шесть последовательностей из 4 элементов:
{ (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is), (a,rose,is,a), (rose,is,a,rose) }.
Убираем дубликаты и получаем искомый 4-shingling:
{ (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }

С помощью шинглов оценивают схожесть двух текстов. Для этого сначала находят shinglings для первого текста S(A) и для второго S(B), а потом делят число элементов в пересечении множеств S(A) и S(B) на число элементов в объединении этих же множеств. В итоге получается величина от 0 до 1, которая и показывает степень схожести документов. Для идентичных документов это число равно единице.
Предлагаю скачать . Программа предназначена для сравнения текстов или статей методом шинглов (Shingles).
![]()
