Хостинг "Narod.ru" появился 15 февраля 2000 года. Рекламным лозунгом сервиса была фраза: «Постройте свой сайт за 60 секунд!». Одним из основателей народа была компания «Яндекс», которой народ через 13 лет после запуска перестал приносить прибыль. В январе 2013 года «Яндекс» продал хостинг Ucoz’у. На волне «переезда» многие владельцы сайтов столкнулись с техническими трудностями, в результате которых часть сайтов оказалась утеряна.
Проект “Narod и цифровое наследие” направлен на изучение и сохранение уникального цифрового наследия сайтов хостинг-платформы “Народ.ру” (“Яндекс. Народ”). Созданный в 2024 году на базе ПАНДАН, в 2025 году проект расширился – к нему присоединились участники из DH ИТМО.
Поставлены задачи на будущее: тематическая кластеризация сайтов на основе текста, анализ CSS-стилей, поиск и анализ именованных сущностей, сбор медиафайлов и другие
Для получения целостного представления о сайтах "народ.ру" мы опробовали различные варианты их тематической группировки (кластеризации или моделирования). Помимо общей картографии сайтов, мы рассчитывали после получения кластеров, сфокусироваться на каких-то определенных среди них. В первую очередь, на тех, которые покажутся нам наиболее многообещающими с исследовательской точки зрения.
В нашем распоряжении был датасет с текстами главных страниц 10 тыс. сайтов, созданный студентами ПАНДАНа прошлых лет, занятых в этом проекте. На ранних этапах мы обсуждали возможность классификации страниц с помощью традиционных алгоритмов машинного обучения (т.н. обучение с учителем). Это можно было бы сделать с помощью ручной разметки небольшой тренировочный выборки из датасета, а далее моделью разметить оставшуюся часть. Однако трудность такого подхода в отсутствии готового списка тем для группировки наших данных.
Поэтому мы остановились на алгоритмах кластеризации и моделирования без учителя. Впоследствии результаты можно дополнить классификацией. Мы решили протестировать три наиболее популярных алгоритма группировки сайтов: кластерный анализ с помощью DBSCAN и k-means, а также тематическое моделирование LDA (Latent Dirichlet allocation).
Кроме того, при визуальной проверке мы также обнаружили довольно противоречивые результаты – некоторые из сформированных тем консистентные, но часть явно не соответствует данным
>>> В итоге мы остановились на алгоритме k-means как наиболее подходящем варианте для наших целей. Это алгоритм кластеризации, основанный на минимизации суммарного расстояния между точками данных и центроидами кластеров.
При этом качество кластеризации зависит от гиперпараметра – количества кластеров, перебором которого мы занимались. Для этого мы замеряли на каждом шаге качество шестью наиболее популярными метриками с наибольшим числом запросов в Google Hits и цитированиями в Google Scholar (читайте об этом подробнее): Silhouette index, Calinski-Harabasz index, Dunn index, Davies-Bouldin index, Gap index, Xie-Beni index.
Гиперпараметры в графиках |
Скачать html-файл для открытия локально можно по ссылке
В ходе исследования был проанализирован процесс цифровизации образования в России через призму появления и развития образовательных сайтов в 2000–2010-х годах, с акцентом на платформу “Народ.ру”. Работа с датасетом сайтов “Народ.ру” позволила выявить основные типы образовательных сайтов и их особенности
Концептуальная рамка:
Платформа “Народ.ру” стала массовым и доступным инструментом для создания образовательных сайтов, что способствовало формированию широкого спектра цифровых ресурсов, от персональных страниц до коллективных проектов.
Проанализирован кластер образовательных сайтов платформы “Народ.ру”, в результате которого выделено 5 основных классов сайтов:
Отдельно выделен класс “прочее”, куда вошли образовательные сайты, представленные в небольшом количестве (до 5 сайтов) (детские сады, административные ресурсы, подбор нянь и репетиторов)
Обработаны выбросы: сайты на других языках, сайты с отсутствующей или утерянной информацией, а также сайты библиотек и детских домов.
Образовательные сайты. Контекст
1.Школы
2.Университеты
Образовательные сайты на "Народ.ру"
«Народ.ру» не был просто бесплатным хостингом — он стал инструментом самовыражения, точкой входа в цифровую культуру, где фан-сообщества могли выстраивать устойчивые связи, обмениваться творчеством, формировать общее пространство смыслов — и всё это задолго до появления привычных нам соцсетей и агрегаторов контента. Фанатские сайты на «Народ.ру» — это не просто часть личной истории пользователей, но и ценный источник для понимания того, каким был ранний Рунет.
Архив «Народ.ру» для нас - архив повседневных цифровых практик, позволяющий изучать, как пользователи коллективно договаривались о смыслах и нормах, рассматривать интерфейсы, логику навигации, тактику использования ресурсов.
Феномен проекта "Народ.ру" - в его «народности». Простота создания сайтов, легкость модерирования привлекли и приобщили к интернет-активности разных пользователей: кто-то из них увлеченно знакомил интернет с рыбалкой, кто-то создавал чаты знакомств, а кто-то предлагал образовательные проекты.
Для постерной сессии на конференции «Актуальные ошибки гуманитарных наук» мы выбрали один сюжет, который смогли найти на народе: технические и пользовательские ошибки, приведшие к невозможности знакомства с контентом или его частью.
Развитие исследований образования
Работа с Народом как платформой
Изучение связей между сайтами
Народ 2.0
Народная история через призму метаданных изображений
Онтологический слой
Также благодарим Леонида Юлдашева, Татьяну Миронову, Дарью Иванс, Трофима Попова, а также проект "Если быть точным" (Алену Манузину и Анастасию Ларину) за участие в экспертном совете