Как классификация и кластеризация могут улучшить поиск в каталоге музейных объектов?
На примере наследия Михаила Махаева

Примечание: Общие сведения о предметах, включенных в Музейный фонд Российской Федерации, с указанием его описания и принадлежности конкретной коллекции музея являются открытыми данными в соответствии с Федеральным законом от 26.05.1996 № 54-ФЗ «О Музейном фонде Российской Федерации и музеях в Российской Федерации». Изображения публикуются в информационных целях и являются собственностью музеев Российской Федерации.
В рамках проекта мы работали с открытыми данными Государственного каталога Музейного фонда Российской Федерации в котором содержатся сведения о более чем 30 миллионах музейных предметов. При поиске какого-либо предмета в Госкаталоге мы часто сталкивались с большим количеством результатов поисковой выдачи – с репродукциями, повторениями, с предметами, которые изданы большим тиражом, например, с марками, открытками, афишами.

Так как проверять гипотезы на сведениях о более чем 30 миллионах предметов крайне затруднительно, в рамках проекта мы решили ограничиться творчеством одного художника XVlll века, мастера рисунка и гравюры Михаила Ивановича Махаева
Цель нашего проекта – научиться разделять предметы по степени опосредованности оригинала и по сюжету произведения.
Разделение объектов по сюжетам и по степени опосредованности может облегчить поиск для исследователей.
Наш опыт также может быть интересен командам разработки баз данных и интерфейсов для хранения информации о музейных предметах.
Для того чтобы познакомиться с творчеством Михаила Махаева мы изучили каталог "Петербург Михаила Махаева. Графика и живопись второй половины XVIII века", изданный к одноименной выставке в Русском музее.
Сбор данных
Чтобы получить данные, мы решили сформировать выгрузку всех объектов, которые содержат "Махаев" в названии, описании или в поле "автор", а затем разметить вручную полученные данные.

Так у нас появилась выгрузка из 1724 предметов музейного фонда. Для того, чтобы использовать ее дальше, нам было необходимо разметить "степень опосредованности оригиналу" для каждого предмета – сделать пометку о том, какое отношение к оригинальным работам, сделанным рукой Михаила Махаева, имеет каждый найденный нами предмет.
Иерархия или идея дерева
В первом приближении мы постарались выделить все возможные типы предметов, а затем поделить их на пять групп по степени опосредованности оригинала. Мы создали "дерево", на основании которого поделили все предметы по степени опосредованности к оригиналу и обозначили каждую степень числом от 0 до 5. Ниже вы можете видеть распределение опосредованности в данных

Предложенное нами разбиение на категории не может быть однозначным, и мы и не стремились добиться строгого разделения, так как это не мешает общей идее, все равно позволяя достаточно эффективно ранжировать предметы, пусть и с некоторой допустимой неточностью.
Распределение степени опосредованности среди всех объектов.
Пример разметки по степеням опосредованности оригинала
Валидация разметки по дереву
Исходя из таких оценок можно утверждать, что предложенная нами иерархия музейных объектов хорошо описывает те музейные данные, что мы анализируем.
После разметки степени опосредованности оригинала мы решили проверить, отражают ли обнаруженные нами степени скрытую в данных структуру. Эту задачу мы рассмотрели, как задачу классификации текстовых данных.

Корпус для обучения и тестирования классификатора был составлен из полей "Название", "Автор" и "Материал, техника" всех 1724 предметов, которые мы извлекли из Госкаталога.

После формирования корпуса мы избавились от объектов, не имеющих отношение к произведениям Махаева (осталось 1383 объекта), три объединенных поля привели к нижнему регистру, лемматизировали слова, избавились от арабских и римских цифр, знаков пунктуации и стоп-слов, взятых из модуля Python Natural Language Toolkit. Векторизация была произведена без взвешивания слов с помощью метрики TF-IDF.

В качестве baseline-модели была использована мультиномиальная логистическая регрессия, которая дала средний ROC AUC на тестовой выборке, равный 97.1%, и средний ROC AUC на обучающей выборке, равный 100%.
Разметка сюжетов
Возможность группировать по сюжетам должна улучшить ранжирование выдачи при более детальных поисковых запросах. Для разметки нам было важно, чтобы для группы предметов, которые мы объединяли сюжетом, совпадала перспектива и ключевые объекты и таким образом было очевидно, что они созданы с одного оригинала.
  • Посмотрели
    1724
    предмета
    и выписали возможные сюжеты
  • Разметили по сюжетам
    ~250
    предметов для валидационной выборки
  • Получили
    95*
    сюжетов
Распределение сюжетов среди объектов валидационной выборки.
В валидационной выборке оказались представлены только 70 из 95 сюжетов, которые вдобавок к этому представлены очень неравномерно. Поэтому оценки качества кластеризации на этой выборке не могут быть полностью перенесены на всю совокупность предметов.
В проекте одновременно развивались две траектории – исследование текстовых данных и исследование изображений, что в комплексе дало нам более качественный результат
Кластеризация предметов по сюжету на основе изображений
Кластеризация предметов по сюжету на основе текстовых данных
Результаты проекта
Кластеризация изображений методами компьютерного зрения показывает оценки метрики несколько хуже, чем кластеризация по текстам, но при этом позволяет выявить схожесть предметов, которые невозможно выделить при анализе текстовых данных. Например, так мы смогли объединить в один сюжет гравюру и медные доски, с которых она была напечатана или вычленить разные части одной карты или плана. Поэтому для дальнейших исследований нам кажется важным использовать одновременно оба подхода – анализ как текстовых данных, так и изображений.

Очевидно, что при масштабируемости подходов на всё множество музейных объектов потребует более изощренных методов обработки и анализа данных. К тому же, иерархия и количество степеней опосредованности оригинала и список сюжетов может претерпеть изменения, так как мы выделили степени только на одном очень маленьком подмножестве.

Тем не менее мы убеждены, что предложенный нами подход может быть полезен тем командам, которые также работают над поисковыми системами для музейных предметов. А самое главное – он может принести пользу исследователям, сделав их кропотливый труд чуточку удобнее.
Мы хотели бы выразить особую благодарность:
  • Юлии Ходько за ее невероятно полезные экспертные комментарии, которые не давали нам сбиться с пути;
  • Наставникам проекта Ольге Тушкановой и Олегу Лашманову, которые научили нас решать любые задачи даже в самые сжатые сроки;
  • Всем, кто создает программу ПАНДАН, потому что без них ничего бы этого не было.
Хотите узнать больше о нашей работе?
GitHub проекта
Полный вариант отчета о нашей работе
Команда
  • Роман Лисюков
    магистр программы ПАНДАН, старший лаборант-исследователь ИРЛИ РАН
  • Кристина Резникова-Левит
    студентка ДПО программы ПАНДАН
  • Анна Козлова
    студентка ДПО программы ПАНДАН, менеджер проектов ПЦ "МАСТ"
  • Ольга Тушканова
    руководитель проекта, доцент факультета социологии
  • Олег Лашманов
    руководитель проекта, научный руководитель и исполнительный директор Лаборатории «Искусство и искусственный интеллект»
Проект «Иерархия музейных предметов. Дерево гравюр» — один из учебных групповых проектов программы «Прикладной анализ данных» (ПАНДАН) Европейского университета в 2023 году.
Made on
Tilda