Russian Consolidated Statements Database (RCSD)
Проект - "Консолидированная отчетность"
Европейский университет | ПАНДАН | projects.pandan.eusp.org

О проекте "Консолидированная отчетность"

Цель проекта
  • High Quality
    Создать датасет с отчетностью по МСФО российских компаний
  • Good Support
    Создать сайт
Что такое МСФО?
Аналогия:
Аналогия:
Пример:
Что значит "консолидированный"?
МСФО - международный стандарт финансовой отчетности
Семейный бюджет = консолидация финансов всех членов семьи
Отчетность Газпрома за 2024 год:
  • РСБУ 1 рубль зарплаты = 81,6 рубля выручки
  • МСФО 1 рубль зарплаты = 8,9 рубля выручки
МСФО для бизнеса - это как английский язык для международного общения
  • Установленные формы отчётности
  • Единые правила рассчёты показателей
https://www.list-org.com/company/456/graph?show_old=on&max_cnt=

Обзор проекта

В чём ценность проекта?

  • Подобного датасета нет в открытом доступе
  • ЦА пользователей датасета - это специалисты со всего мира

Как это сделать?

  • Из открытых источников собрать отчётность по МСФО
  • Обработать собранные данные

Что будет в итоге?

  • Открытая база данных отчётности по МСФО российских компаний, выложенная на сайте
  • Данные будут доступны в виде оригинальных pdf и табличных форм
Этапы проекта
Скрейпинг
Сбор PDF-файлов финансовой отчётности компаний по МСФО из открытых источников

Извлечение
Извлечение форм отчётности из PDF-файлов годовых отчётов компаний
Individual Approach
Краткое описание??
Создание сайта?
Краткое описание??

Этап - Скрейпинг (сбор отчетности)

Годовая консолидированная отчётность российских эмитентов по МСФО доступна на сайтах пяти информационных агенств, официально аккредитованных Банком России на раскрытие информации о ценных бумагах и иных финансовых инструментах.

Среди этих агенств:
  1. агентство «Интерфакс» (с 2015 года)
  2. агентство «АК&М» (2001 года)
  3. агентство «АЗИПИ» (с 1995 года)
4. агентство «ПРАЙМ Раскрытие» (с 2007 года)
5. агентство «СКРИН» (с 2012 года)

Кроме информационных агентств, объемную коллекцию корпоративной отчетности содержит сайт ИНИОН РАН, где она собрана в исследовательских целях.

Наконец, данные по отчетам МСФО можно найти в хранилище крупнейшего в рунете тематического портала для инвесторов и трейдеров Смартлаб.

Как собирались данные
Пайплайн сбора данных включает несколько этапов:
  • Парсер на Selenium обходит карточки всех компаний, представленных на портале, и при обнаружении файлов годовой консолидированной отчетности скачивает их, одновременно фиксируя метаданные компании: название, ИНН, ОГРН, дату регистрации, отчетный год.
  • Отчеты содержатся в архивах формата ZIP, 7z, а также как одно- и многотомные RAR. При обработке тип архива определяется по сигнатуре (magic bytes). Далее архивы распаковываются.
  • Извлеченные из архивов файлы повторно проходят проверку сигнатуры, что позволяет корректно конвертировать их в требуемый формат PDF.
  • При необходимости файлы PDF объединяются в один документ, чтобы привести данные к формату "1 компания - 1 год - 1 отчет".
Основные сложности:
  • рекурсивная распаковка вложенных архивов
  • многотомные архивы, которые распаковываются вместе и склеиваются в единый PDF-файл
  • более 5 форматов, в которых хранятся файлы отчетов (PDF, DOC/DOCX, RTF, XLSX, XML, сканы - TIF, JPG)
  • Защищенные PDF с AES-шифрованием, блокировавшим чтение и склейку PDF
  • Необходимость поддерживать маппинг file_id → компания/год на всех этапах обработки
  • 7114
    файлов отчетов за 2006-2025 года
  • 993
    российские компании, подававшие отчетность МСФО
  • 2006-2025
    временной охват собранной отчетности

Этап - Извлечение

Цель этапа
Из многостраничного pdf файла извлечь 4 формы финансовой отчетности
Что такое форма отчётности?
Форма отчётности
Простыми словами
Баланс (BS)
Это некий "показатель здоровья" компании,
который позволяет увидеть финансовое
состояние с разных сторон
Отчёт о прибылях и убытках (PnL)
Зарабатывает компания или несет убытки
Что есть у компании
Откуда пришли и куда ушли деньги
Как меняется стоимость бизнеса и его владельцев
Отчёт о движении денежных средств (CF)
Отчёт о об изменении капитала(EQ)
Этап 2 - "Извлечение"
Получаем от команды "Скрейпинга" данные
Первый скрипт - ищем формы отчетности в pdf файлах
Второй скрипт - вырезаем страницы с формами из pdf
С какими трудностями столкнулись
  • Многообразие форматов файлов
(как справлялись: ... кратко)
  • Неверная(?) кодировка
(как справлялись: ... кратко)
  • Английский
(как справлялись: ... кратко)
  • Ложные срабатывания
(как справлялись: ... кратко)
  • Страницы с нестандартной ориентацией
(как справлялись: ... кратко)
  • Скошенные страницы
(как справлялись: ... кратко)
Подбор, тестирование и инференс OCR моделей
Какие характеристики моделей важны для нашей задачи:

  • распознавание структуры сложных таблиц (Table Structure Recognition)
  • распознавание русскоязычного текста
  • хорошие показатели работы с финансовыми таблицами без
обязательного дообучения
  • единый встроенный пайплайн для распознавания текста и табличной структуры и их сопоставления
  • открытые веса
  • возможность коммерческого использования
  • вес модели для возможности тестирования в Colab Free
Обзор позволил выделить следующие решения:

GLM-OCR (State-of-the-art согласно бенчмарку OmniDocBench V1.5)
PaddleOCR-VL-0.9B
PaddleOCR (classic)
DeepSeek-OCR
Kimi-VL-A3B (3B)
Qwen2.5-VL (3B)
MinerU (1.2B)


Однако, остальные выделенные модели при тестировании в Colab Free приводили к CUDA Out of Memory либо к несовместимости версии CUDA колаба с версиями CUDA, под которые были написаны библиотеки моделей.

Оптимальным выходом из ситуации стал сервис openrouter.ai, предоставляющий доступ к большому количеству моделей от различных провайдеров, включая мультимодальные модели для работы с изображениями и документами.
Optical Character Recognition - технология оптического распознавания текста с изображений
Тут три пикчи с MinerU красиво проматывающихся, с подписями
Пример результата тестирования модели MinerU 3.0.0.
Инференсы с использованием OpenRouter API:
Финальный промпт:
Extract the table structure from the scanned image and the text within table elements. Provide your answer in Markdown format. Ignore everything outside the table. Keep the text within table elements unchanged. Preserve the table structure completely.
добавить звездочки-сноски?
S3-подобное хранилище - это тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про.

тут скрин как с3 выглядит
Пример результата тестирования модели MinerU 3.0.0.
5 этап
Создание сайта
Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта
ДАЛЬНЕЙШИЕ НАПРАВЛЕНИЯ:
Приводим показатели разных компаний к единой структуре и номенклатуре, чтобы обеспечить сопоставимость данных между отчетами
Корреспонденция (гармонизация)
3 этап
Проверяем логическую и математическую согласованность показателей на основе контрольных соотношений IFRS Taxonomy и выявляем потенциальные ошибки
Артикуляция (валидация)
4 этап
Руководители проекта
  • Дмитрий Скугаревский
    Идейный вдохновитель
    Научный сотрудник Института проблем правоприменения ЕУ СПб
  • Ника Зыкова
    Куратор проекта
    Программист прикладного центра МАСТ ЕУСПб, преподаватель Computer Vision
Команда проекта
  • Никита Бугрин
    Студент программы ПАНДАН
  • Галина Лоскутникова
    Студентка программы ПАНДАН
  • Ярослав Кашкарев
    Студент программы ПАНДАН
  • Полина Рысакова
    Студентка программы ПАНДАН
  • Дарья Тимбуш
    Студентка программы ПАНДАН
Санкт-Петербург, ул. Шпалерная, 2/4, каб. 420
Email: admissions.pandan@eu.spb.ru, pandan.eu@yandex.ru.
Made on
Tilda