Шингл - что это?

Что такое Шингл
К нам это слово пришло из английского языка, где его прямое значение – «ячейка», «кирпичик». В интернете шинглами называют те частички, на которые при проверке разделяется текст при проверке его на уникальность.

В интернет этот термин попал из лингвистики. При проведении лингвистического анализа именно для проверки уникальности сайтов его ввел в обиход Andrei Broder в 1997 году. Метод прижился и показал свою высокую эффективность. Сегодня существуют многочисленные системы проверки уникальности текстов, и все они используют метод проверки уникальности с использованием шинглов. Такая технология отлично распознает попытки уникализировать текст простым синонимизированием.

При повышении роли SEO-оптимизации в условиях современного рынка интернет-рекламы важность использования метода проверки уникальности по шинглам только возрастает.

Подготовка к проверке текста

Итак, при проверке текста шинг – небольшой фрагмент текста. Она состоит из нескольких слов. Обычная его длина 3-8 слов. Использование шинглов менее 3 слов делает анализ уникальности бессмысленным, а увеличение его размера более 8 слов чрезмерно усложняет его проведение и операция приводит к множеству погрешностей.

При этом сами шинглы проходят специальную обработку – канонизацию – перед использованием. В процессе такой обработки из них удаляются союзы, междометия и другие малозначащие слова.

Далее проводится выделение шинглов в тексте. Текст разделяется на шинглы таким образом, чтобы каждый следующий шингл захватывал минимум одно слово из предыдущего.

Алгоритм расчета уникальности

После разделения шинглов производится расчет контрольной суммы. При этом шинглы двух разных текстов могут сравниваться для проверки их на рерайт. Использование такой технологии делает попытки простого рерайта практически бесполезными для получения уникальных текстов.

Программы выбирают подобные документы, проводят анализ. В его процессе сравнивают количество шинглов, выбираются варианты совпадений. Поэтому для получения синонимизированием уникальных текстов требует использования сложных алгоритмов, замены фразеологических выражений и так далее. Точная технология, позволяющая пройти фильтры современных алгоритмов контроля уникальности, держится в секрете.

Опубликовано: 23 Февраль, 2016 | Просмотров: 2313 |     | Печать

Это интересно