ЭХО ДНЕЙ
поиск похожих документов в электронном архиве дневников "Прожито"
Цель проекта

Разработать прототип механизма рекомендаций похожих записей дневников для пользователей электронного архива "Прожито"
Прототип будущего архива "Прожито"
Фрагмент структуры данных архива "Прожито"
Проблемы в ранних версиях исходных данных:
1. Ошибки, которые не позволяли связать дневниковые записи с биографиями авторов по id.
2. Ошибочная или отсутствующая информации об авторах (годы рождения или смерти авторов дневников).
3. Наличие, помимо дневников, автобиографий, записей наблюдения за новорожденными и др.
4. Короткие записи, состоящие из одного предложения.
5. Упоминание в одной дневниковой записи нескольких дней (иногда больше месяца и даже года).


Очистка текстов записей
Тексты дневников написаны на русском языке в современной и дореволюционной орфографии.
Они выгружены в raw-виде и содержат html/xml-теги.
В тексте есть редакторские пометки в [ ].
В [ ] и { } также заворачиваются восстановленные лакуны.
В некоторых случаях [ ] содержат авторский текст (напр., "[Запись на странице сделана почерком не Лии, а ее двоюродной сестры Люси : «Когда буду за сотни километров отсюда, а ты допишешь свой дневник до этой страницы сделай этой открытие. Люська 7/IX.1932 в 11 ч. дня» — Ред. ]").

«Вставные» документы (напр., вклеенные) иногда оформляются оборотом в <>, например:
[В тетрадь подшито письмо Липкину от матери — Прожито.] < Добрый вам день, дорогие, Матвей Евсеевич, ...
Извлечение метаданных
Извлечение геолокаций не всегда происходило точно из-за разнообразия форматов. Например, из биографии: "Астраханский художник, археолог, поэт, автор песен под гитару и научных статей по нумизматике Золотой Орды" извлекается только геолокация: [{'государство': 'ЗОЛОТАЯ ОРДА'}].
Что уже сделано?

Решение задачи разработки механизма рекомендаций в классическом смысле пока не возможно, так как информация о поведении и предпочтениях пользователей "Прожито" не доступна.
Усилия сконцентрированы на расчете схожести дневниковых записей по различным параметрам.
Результаты векторизации



Что дальше?
Новые гипотезы
Проверяем других кандидатов на векторное представление и расчёт схожести:
  • SentenceTransformers,
  • BERTopic,
  • Fine-tuning трансформеров
      Выбор лучших метрик
      Используем разметку данных, для того чтобы заменить отсутствующее звено системы – поведение пользователей.
      Препродакшен
      Готовим версию, которая будет способна обрабатывать новые дневниковые записи
      и новых пользователей.
       
      Кураторы проекта: Алексей Сенюхин,
      Ольга Тушканова


      Участники проекта: Андреев Николай, Кузнецова Анна, Севостьянов Александр, Серебрякова Александра, Шмакова Анна
      Made on
      Tilda