Лучшие
результаты для двух алгоритмов кластеризации:
- K-means с отбором переменных во взвешенной матрице через Kmeans BOW (уплотнение векторов до их длины в 130) и последующим уплотнением отфильтрованной взвешенной матрицы с помощью LSA до 30 векторов;
- DBSCAN с максимальным радиусом соседства 0.646 и минимальным количеством соседей 3, которому на вход была дана уплотненная LSA до 100 компонентов невзвешенная матрица, из которой были удалены леммы, которые встречаются в более, чем 27% документов. Лучший результат DBSCAN обнаружил 95 кластеров, определив как шум 195 точек.
Ниже представлены лучшие
результаты для уплотнения векторного пространства с помощью RUBERT, кластеризации с удалением из документов стоп-слов (использовался тот же список стоп-слов, что и при подготовке корпуса для классификации) и варианты обработки и кластеризации K-means и DBSCAN для которых переменные не отбирались, а пространства не были уплотнены.
Так как вариация Kmeans была наилучшей по оценкам, то мы решили продемонстрировать работу классификатора на кластерах, выделенных этой вариацией K-means. Классификатор был кросс-валидирован, фолдами в данном случае были кластера сюжетов.