Народ.ру и цифровое наследие

Коротко о проекте

Хостинг "Narod.ru" появился 15 февраля 2000 года. Рекламным лозунгом сервиса была фраза: «Постройте свой сайт за 60 секунд!». Одним из основателей народа была компания «Яндекс», которой народ через 13 лет после запуска перестал приносить прибыль. В январе 2013 года «Яндекс» продал хостинг Ucoz’у. На волне «переезда» многие владельцы сайтов столкнулись с техническими трудностями, в результате которых часть сайтов оказалась утеряна.


Проект “Narod и цифровое наследие” направлен на изучение и сохранение уникального цифрового наследия сайтов хостинг-платформы “Народ.ру” (“Яндекс. Народ”). Созданный в 2024 году на базе ПАНДАН, в 2025 году проект расширился – к нему присоединились участники из DH ИТМО.

Контекст и значимость

Нередко сайты и цифровые артефакты прошлого оказываются утерянными или недоступными. Платформа «Народ.ру» — это важный культурный и исторический феномен, содержащий ранние интернет-практики, дизайн и пользовательские сценарии, а также социальные и культурные контексты своего времени. Наш проект помогает сохранить эти материалы, понять, как создавались и использовались эти сайты.



Подробнее о проекте 2024 года>>>
Цели проекта

>> Сохранение цифрового наследия: обеспечение доступа к дизайну и контенту сайтов.
>> Работа с данными и анализ: структурирование и систематизация данных о сайтах для глубокого понимания их состава и особенностей.
>> Объяснение и интерпретация: создание общего знания о культурных, технических и социальных аспектах эпохи.
>> Интеграция результатов исследований в разные научные и образовательные пространства.
>> В долговременной перспективе: создание интерактивного интерфейса для поиска и фильтрации
работа с данными

Кластеризация

Для получения целостного представления о сайтах "народ.ру" мы опробовали различные варианты их тематической группировки (кластеризации или моделирования). Помимо общей картографии сайтов, мы рассчитывали после получения кластеров, сфокусироваться на каких-то определенных среди них. В первую очередь, на тех, которые покажутся нам наиболее многообещающими с исследовательской точки зрения.


В нашем распоряжении был датасет с текстами главных страниц 10 тыс. сайтов, созданный студентами ПАНДАНа прошлых лет, занятых в этом проекте. На ранних этапах мы обсуждали возможность классификации страниц с помощью традиционных алгоритмов машинного обучения (т.н. обучение с учителем). Это можно было бы сделать с помощью ручной разметки небольшой тренировочный выборки из датасета, а далее моделью разметить оставшуюся часть. Однако трудность такого подхода в отсутствии готового списка тем для группировки наших данных.


Поэтому мы остановились на алгоритмах кластеризации и моделирования без учителя. Впоследствии результаты можно дополнить классификацией. Мы решили протестировать три наиболее популярных алгоритма группировки сайтов: кластерный анализ с помощью DBSCAN и k-means, а также тематическое моделирование LDA (Latent Dirichlet allocation).

DBSCAN
DBSCAN – алгоритм кластеризации, основанный на плотности данных и группировки их точек по близости друг к другу. Мы использовали трансформер BERTopic, где этот алгоритм стоит по умолчанию. Количество кластеров не задается, модель сама его определяет. При этом часть данных, которые не удалось сгруппировать, она относит к «шуму» (кластер -1). В итоге этот алгоритм относил к «шуму» критически много страниц сайтов.

Хотя мы варьировали такой гиперпараметр как минимальный размер кластера, в «шум» попадало стабильно около 50% данных. Нас такой результат не устроил, и мы перешли к другим алгоритмам.

>>> В итоге мы остановились на алгоритме k-means как наиболее подходящем варианте для наших целей. Это алгоритм кластеризации, основанный на минимизации суммарного расстояния между точками данных и центроидами кластеров.


При этом качество кластеризации зависит от гиперпараметра – количества кластеров, перебором которого мы занимались. Для этого мы замеряли на каждом шаге качество шестью наиболее популярными метриками с наибольшим числом запросов в Google Hits и цитированиями в Google Scholar (читайте об этом подробнее): Silhouette index, Calinski-Harabasz index, Dunn index, Davies-Bouldin index, Gap index, Xie-Beni index.

Гиперпараметры в графиках
Перебор показал, что 41 кластер является оптимальным. После этого перед нами встала задача присвоить наименования кластерам на основании 50 ключевых слов, ранжированных по весу tf-idf (пропорционален частоте употребления слова в документе и обратно пропорционален частоте употребления слова во всех документах датасета). Для этом мы направили json c ключевыми словами по API-ключу в большую языковую модель. В финале мы визуализировали результат в виде атласа.

Скачать html-файл для открытия локально можно по ссылке

Кластер «Образование» получился наиболее выраженным и многочисленным (494 главные страницы). Мы провалидировали его, опять же с помощью большой языковой модели. Для этого мы направили в виде json тексты всех страниц из этого кластера, сформулировав prompt следующим образом:

«Действуй как эксперт в области тематической кластеризации веб-страниц. Эти тексты в json объединены в один кластер "образование ". Тебе нужно изучить данные и ответить, насколько эти тексты образуют данный кластер. Какой примерно процент из них не имеет отношения к образованию и к каким другим потенциальным кластерам они тогда относятся?».
Ответ модели нас обнадежил: «Не менее 80-90% текстов имеют прямое или косвенное отношение к образованию. Около 10-20% текстов могут не иметь прямого отношения к образованию, потенциально относясь к культурным мероприятиям, региональным новостям, экономическим или социальным темам. Для более точного ответа необходим детальный анализ и классификация каждого текста по соответствующим категориям». В итоге мы сконцентрировались далее именно на этом кластере (см. раздел исследование образовательного кластера)


Датировка сайтов

16 мая мы провели в онлайн-режиме совет с ведущими экспертами в области цифровых исследований. Встреча оказалась очень полезной для проекта – мы обменялись идеями и получили ценные предложения, какой информацией можно было бы обогатить наш датасет. В частности, по нашим изначальным представлениям, датирование сайтов казалось нереализуемой задачей. Эту информацию нельзя было извлечь из html-кода страниц, поскольку после переезда на Ucoz датировка всех страниц указывала на даты переезда, а именно 2013 года.

Однако в качестве ориентировочной датировки времени наиболее раннего существования страниц нам посоветовали обратиться к временным меткам снапшотов Internet Archive Wayback Machine, которые доступны по ссылке https://web.archive.org/web/timemap/link/ + нужный url страницы. С помощью цикла в Python мы извлекли первую и последнюю даты меток. В итоге мы получили для почти 2/3 сайтов датировки (3323 сайтов вернули NA).






Разумеется, полученная информация не говорит нам о точной дате создания сайтов. Но по крайне мере мы теперь знаем самую раннюю дату, на которую сайт наверняка существовал. В виде линейной диаграммы это выглядит следующим образом:


Мы видим на графике пик в мае 2013 года (1472 сайта), что, вероятнее всего, является артефактом переезда на платформу Ucoz. Возможно, имеет смысл впоследствии отфильтровать эти сайты.
Далее мы прицельно изучили датировки сайтов кластера «Образование»
На графике представлена визуализация периодов между самыми ранними и самыми поздними заархивированными следами жизни образовательных сайтов. На графике видно, что наибольшая плотность существования (исходя из дат снапшотов) образовательных сайтов наблюдается в промежутке приблизительно с 2013 по 2020 год.
Исследования

Образование – "народу": исследование образовательного кластера

В ходе исследования был проанализирован процесс цифровизации образования в России через призму появления и развития образовательных сайтов в 2000–2010-х годах, с акцентом на платформу “Народ.ру”. Работа с датасетом сайтов “Народ.ру” позволила выявить основные типы образовательных сайтов и их особенности

Концептуальная рамка:

  • Цифровизация образования в России происходила в двух ключевых сегментах: школьное и высшее образование.
  • Для школ внедрение интернет-ресурсов было закреплено на нормативном уровне (законы, ГОСТы, ФГОС), что привело к появлению обязательных официальных сайтов.
  • В вузах и колледжах процесс цифровизации был менее регламентирован, но инициировался изнутри академического сообщества для повышения открытости и привлечения абитуриентов.
  • Наряду с официальными сайтами, педагоги и коллективы создавали собственные цифровые ресурсы (методические сайты, ресурсы для обмена опытом, сайты кружков и объединений).

Платформа “Народ.ру” стала массовым и доступным инструментом для создания образовательных сайтов, что способствовало формированию широкого спектра цифровых ресурсов, от персональных страниц до коллективных проектов.


Культура и чтение: Народ как площадка для фанфиков

«Народ.ру» не был просто бесплатным хостингом — он стал инструментом самовыражения, точкой входа в цифровую культуру, где фан-сообщества могли выстраивать устойчивые связи, обмениваться творчеством, формировать общее пространство смыслов — и всё это задолго до появления привычных нам соцсетей и агрегаторов контента. Фанатские сайты на «Народ.ру» — это не просто часть личной истории пользователей, но и ценный источник для понимания того, каким был ранний Рунет.

Визуально эти сайты были воплощением DIY-культуры (do it yourself) : вручную написанные HTML-страницы, яркие фоны, анимации, кастомные баннеры. Всё — в условиях медленного интернета, отсутствия конструкторов и минимального хостингового функционала. Даже без централизованной инфраструктуры и единой платформы, создатели фанфиков следовали общим неписаным правилам.

Рассматривая фанфикшн-сайты, можно проследить трансляцию норм внутри любительских сообществ, адаптацию технологий, формирование культурных кодов.

Архив «Народ.ру» для нас - архив повседневных цифровых практик, позволяющий изучать, как пользователи коллективно договаривались о смыслах и нормах, рассматривать интерфейсы, логику навигации, тактику использования ресурсов.


Предупреждён значит предупреждён: объявления об изменениях, переездах и ошибках на сайтах хостинга narod.ru
Плакат для постерной сессии на конференции "Актуальные ошибки гуманитарных наук"

Феномен проекта "Народ.ру" - в его «народности». Простота создания сайтов, легкость модерирования привлекли и приобщили к интернет-активности разных пользователей: кто-то из них увлеченно знакомил интернет с рыбалкой, кто-то создавал чаты знакомств, а кто-то предлагал образовательные проекты.


Для постерной сессии на конференции «Актуальные ошибки гуманитарных наук» мы выбрали один сюжет, который смогли найти на народе: технические и пользовательские ошибки, приведшие к невозможности знакомства с контентом или его частью.

библиотека
Параллельно с работой с данными у нас идет работа по поиску аналитических инструментов для работы с ними и выработке языка описания. У команды есть небольшая "библиотека" с конспектами текстов, которые могут помочь понять, как изучать значимость сайтов «Народ.ру» для авторов и посетителей, процесс создания сайтов.

Для нас на данный момент важно не ограничивать себя в подходах и рассматривать литературу по разным направлениям. Так, тексты по истории интернета и медиархеологии помогают вписать Народ.ру в глобальный контекст раннего "вернакулярного" или «народного» веба, дают нам инструменты для анализа интерфесов, эстетики и практик. Тексты по исследованиям платформ подсвечивают, что на "Народ.ру" существовали свои правила, ограничения и возможности, которые направляют и формируют творчество пользователей и "культуру" общения, размещения контента. Исследования памяти и цифрового наследия дают нам представление о нашей исследовательской позиции, об этике и методологии сохранения хрупкого цифрового наследия.

Ниже мы приводим краткие аннотации ключевых текстов, а также список литературы, с которым можно работать в дальнейшем.

Краткие аннотации ключевых текстов

На кого еще можно ориентироваться?

  • Тема:
    Теория и методология: как изучать интернет-культуру
    Работы:
    • Baldwin, C. Y., & Woodard, C. J. (2009). The Architecture of Platforms: A Unified View.
    • Baym, N. K. (1995). The Emergence of Community in Computer-Mediated Communication
    • Gillespie, T. (2018). Custodians of the Internet: Platforms, Content Moderation, and the Hidden Decisions That Shape Social Media.
    • Van Dijck, J. (2013). The Culture of Connectivity: A Critical History of Social Media.
    • Bruns, A. (2008). Blogs, Wikipedia, Second Life, and Beyond: From Production to Produsage.
    • Roberts, S. T. (2019). Behind the screen: Content moderation in the shadows of social media.
    • Cohen, D., & Rosenzweig, R. (2005). Digital History: A Guide to Gathering, Preserving, and Presenting the Past on the Web.
  • Тема:
    Материальность кода: как технологии формируют культуру
    Работы:
    • Kirschenbaum, M. G. (2008). The .txtual Condition: Digital Humanities, Born-Digital Archives, and the Future Literary.
    • Fuller, M. (2003). Behind the Blip: Essays on the Joints of Media and Culture. (Включает важную статью On Software, or the Persistence of Visual Knowledge)
    • Raley, R. (2006). Code.surface||Code.depth.
    • Сайт сообщества Critical Code Studies
  • Тема:
    Контекст: Рунет и Россия в 2000-е
    Работы:
    • Кузнецов, С. (2004). Ощупывая слона. Заметки по истории русского Интернета. (Классическая работа по истории Рунета).
    • Интернет и города России: коллективная монография (2020) / под ред. П. Колозариди, О. Довбыш.
    • Control + Shift. Public and Private Usages of the Russian internet. – Natalja Konradova, Henrike Schmidt, Katy Teubener
Перспективы

Развитие исследований образования

Работа с Народом как платформой

Изучение связей между сайтами

Планируется классификация образовательных сайтов по двум основаниям:
  • по типу организации (школы, вузы, ДПО и др.)
  • по типу автора (учителя, учреждения, учащиеся).
Подробнее
В англоязычной литературе платформы становятся частью предмета исследования. Появляются методологические приёмы, позволяющие учитывать особенности их интерфейса и репертуар пользовательских практик. Так, социальные сети и блоги стали изучаться как некоторое отдельное явление.
Подробнее
Создатели сайтов Народ.ру не действовали в одиночку. Как показывает исследование фанфиков, изучение школ и аккаунтов педагогов, между создателями сайтов были связи. С помощью количественного и качественного анализа мы планируем обнаружить, как была устроена сеть ссылок между создателями и/или посетителями сайтов.

Народ 2.0

Народная история через призму метаданных изображений

Онтологический слой

Ещё одним важным свойством народных сайтов является их незавершенность и потенциальная возможность их «воскрешения», когда, увидев свое творчество в каталоге, владельцы сайтов могут решить возобновить их наполнение и развитие. Тогда «археологический раскоп» может превратиться в «зоопарк», то есть стать коллекцией живых развивающихся объектов. Такая динамика может сама по себе быть интересной и создать новые сюжеты для исследовательской работы.

Анализ метаданных EXIF из изображений, размещённых на платформе Narod.ru, открывает уникальные возможности для изучения цифрового наследия 2000-х годов. Эти данные позволяют проследить, как менялись технологии создания контента: переход от профессиональных зеркальных камер к компактным устройствам и ранним смартфонам, смена популярных программ для обработки фото.
Для Narod.ru, где пользователи активно делились личными снимками, это особенно ценно — метаданные помогают восстановить технический контекст эпохи. Изучая временные метки и параметры изображений, можно выявить периоды активности на сайте, коррелирующие с появлением новых моделей камер или обновлений софта. Например, рост числа мобильных фото мог повлиять на частоту публикаций. Геотеги (если они сохранились) покажут географию контента, а анализ моделей устройств — уровень технологической оснащённости пользователей. Хотя EXIF не раскрывает содержание изображений, он даёт важные косвенные данные о цифровых практиках того времени. Для таких платформ, как Narod.ru, это способ сохранить не только сами файлы, но и контекст их создания. В сочетании с анализом контента EXIF превращается в инструмент «цифровой археологии», помогающий сохранить техническую историю народного интернета.
Выделение сущностей — людей, организаций, географий, и модель их отношений. В архиве народ.ру — множество неформальных текстов (блоги, дневники, заметки), которые не индексировались как часть официальной истории. Онтологический слой делает возможным «второе дыхание» этих архивов — мы видим, как народ сам рассказывал о своей реальности, а не как её интерпретировали официальные СМИ.

А ТАКЖЕ:
  • Анализ эхо-эффекта: как одна статья или запись провоцировала волну реакций на других ресурсах. Эхо-эффект — это прослеживание, как одна единица контента (текст, блог, веб-страница) провоцирует дискурсивную цепочку: обсуждение, переосмысление, опровержение или переработку на других платформах. народ.ру в 2000-х служил площадкой самовыражения и часто оказывался первоисточником или триггером веховых дискуссий в рунете. Включение анализа эхо-эффекта в исследование делает проект не просто архивом контента, а живой моделью влияния народной речи на культуру рунета. Это открывает новые перспективы: от понимания цифровой памяти до выявления механизмов информационного резонанса незадолго до эпохи социальных сетей.
  • Интерактивные инструменты для пользователя: дашборды, таймлайны и прочее. Создание визуального слоя — не просто дополнение, а способ раскрытия исторического материала через язык современности. Такой интерфейс делает базу данных “народа” исследовательски плодотворной и доступной. Интерактивные инструменты могут стать ключевым расширением проекта, превращая корпус архивных сайтов в живую аналитическую среду. Возможна разработка дашборда, где пользователь сможет исследовать массив данных по множеству переменных: дате публикации (с возможностью выделения по месяцам, годам и пиковым значениям), языкам и кодировкам, тематическим кластерам, ключевым словам и их распределению, а также по плотности контента во времени и на разных платформах. Подробнее
Над проектом работали
ПАНДАН
  • Ильяс Асланов
    Куратор технической части проекта
  • Анна Козлова
    Куратор проекта от ПАНДАНа
  • Иван Бибилов
    куратор проекта от ПАНДАНа
  • Александра Горваль
  • Александра Филипова
  • Тимур Бочаров
  • Егор Смирнов
  • Игорь Ходачек
DH ИТМО
  • Полина Колозариди
    куратор проекта от DH ИТМО
  • Анна Абрамова
  • Вика Бордукова
  • Оливия Капкаева
  • Анастасия Кузнецова

Также благодарим Леонида Юлдашева, Татьяну Миронову, Дарью Иванс, Трофима Попова, а также проект "Если быть точным" (Алену Манузину и Анастасию Ларину) за участие в экспертном совете

Made on
Tilda