Russian Consolidated Statements Database (RCSD)

Проект - "Консолидированная отчетность"

Европейский университет | ПАНДАН | projects.pandan.eusp.org

О проекте "Консолидированная отчетность"

Цель проекта

High Quality

Создать датасет с отчетностью по МСФО российских компаний
Good Support

Создать сайт

Что такое МСФО?

Аналогия:

Пример:

Что значит "консолидированный"?

МСФО - международный стандарт финансовой отчетности

Семейный бюджет = консолидация финансов всех членов семьи

Отчетность Газпрома за 2024 год:

РСБУ 1 рубль зарплаты = 81,6 рубля выручки
МСФО 1 рубль зарплаты = 8,9 рубля выручки

МСФО для бизнеса - это как английский язык для международного общения

Установленные формы отчётности
Единые правила рассчёты показателей

Структура Газпрома

https://www.list-org.com/company/456/graph?show_old=on&max_cnt=

Обзор проекта

В чём ценность проекта?

Подобного датасета нет в открытом доступе
ЦА пользователей датасета - это специалисты со всего мира

Как это сделать?

Из открытых источников собрать отчётность по МСФО
Обработать собранные данные

Что будет в итоге?

Открытая база данных отчётности по МСФО российских компаний, выложенная на сайте
Данные будут доступны в виде оригинальных pdf и табличных форм

Этапы проекта

Скрейпинг

Сбор PDF-файлов финансовой отчётности компаний по МСФО из открытых источников

Извлечение

Извлечение форм отчётности из PDF-файлов годовых отчётов компаний

Individual Approach

Краткое описание??

Создание сайта?

Краткое описание??

Этап - Скрейпинг (сбор отчетности)

Годовая консолидированная отчётность российских эмитентов по МСФО доступна на сайтах пяти информационных агенств, официально аккредитованных Банком России на раскрытие информации о ценных бумагах и иных финансовых инструментах.

Среди этих агенств:

агентство «Интерфакс» (с 2015 года)
агентство «АК&М» (2001 года)
агентство «АЗИПИ» (с 1995 года)

4. агентство «ПРАЙМ Раскрытие» (с 2007 года)
5. агентство «СКРИН» (с 2012 года)

Кроме информационных агентств, объемную коллекцию корпоративной отчетности содержит сайт ИНИОН РАН, где она собрана в исследовательских целях.

Наконец, данные по отчетам МСФО можно найти в хранилище крупнейшего в рунете тематического портала для инвесторов и трейдеров Смартлаб.

Как собирались данные

Пайплайн сбора данных включает несколько этапов:

Парсер на Selenium обходит карточки всех компаний, представленных на портале, и при обнаружении файлов годовой консолидированной отчетности скачивает их, одновременно фиксируя метаданные компании: название, ИНН, ОГРН, дату регистрации, отчетный год.
Отчеты содержатся в архивах формата ZIP, 7z, а также как одно- и многотомные RAR. При обработке тип архива определяется по сигнатуре (magic bytes). Далее архивы распаковываются.
Извлеченные из архивов файлы повторно проходят проверку сигнатуры, что позволяет корректно конвертировать их в требуемый формат PDF.
При необходимости файлы PDF объединяются в один документ, чтобы привести данные к формату "1 компания - 1 год - 1 отчет".

Основные сложности:

рекурсивная распаковка вложенных архивов
многотомные архивы, которые распаковываются вместе и склеиваются в единый PDF-файл
более 5 форматов, в которых хранятся файлы отчетов (PDF, DOC/DOCX, RTF, XLSX, XML, сканы - TIF, JPG)
Защищенные PDF с AES-шифрованием, блокировавшим чтение и склейку PDF
Необходимость поддерживать маппинг file_id → компания/год на всех этапах обработки

7114

файлов отчетов за 2006-2025 года
993

российские компании, подававшие отчетность МСФО
2006-2025

временной охват собранной отчетности

Этап - Извлечение

Цель этапа

Из многостраничного pdf файла извлечь 4 формы финансовой отчетности

Что такое форма отчётности?

Форма отчётности

Простыми словами

Баланс (BS)

Это некий "показатель здоровья" компании,
который позволяет увидеть финансовое
состояние с разных сторон

Отчёт о прибылях и убытках (PnL)

Зарабатывает компания или несет убытки

Что есть у компании

Откуда пришли и куда ушли деньги

Как меняется стоимость бизнеса и его владельцев

Отчёт о движении денежных средств (CF)

Отчёт о об изменении капитала(EQ)

Этап 2 - "Извлечение"

Получаем от команды "Скрейпинга" данные

Первый скрипт - ищем формы отчетности в pdf файлах

Второй скрипт - вырезаем страницы с формами из pdf

С какими трудностями столкнулись

Многообразие форматов файлов

(как справлялись: ... кратко)

Неверная(?) кодировка

(как справлялись: ... кратко)

Английский

(как справлялись: ... кратко)

Ложные срабатывания

(как справлялись: ... кратко)

Страницы с нестандартной ориентацией

(как справлялись: ... кратко)

Скошенные страницы

(как справлялись: ... кратко)

Подбор, тестирование и инференс OCR моделей

Какие характеристики моделей важны для нашей задачи:

распознавание структуры сложных таблиц (Table Structure Recognition)
распознавание русскоязычного текста
хорошие показатели работы с финансовыми таблицами без

обязательного дообучения

единый встроенный пайплайн для распознавания текста и табличной структуры и их сопоставления
открытые веса
возможность коммерческого использования
вес модели для возможности тестирования в Colab Free

Обзор позволил выделить следующие решения:

GLM-OCR (State-of-the-art согласно бенчмарку OmniDocBench V1.5)
PaddleOCR-VL-0.9B
PaddleOCR (classic)
DeepSeek-OCR
Kimi-VL-A3B (3B)
Qwen2.5-VL (3B)
MinerU (1.2B)

Однако, остальные выделенные модели при тестировании в Colab Free приводили к CUDA Out of Memory либо к несовместимости версии CUDA колаба с версиями CUDA, под которые были написаны библиотеки моделей.

Оптимальным выходом из ситуации стал сервис openrouter.ai, предоставляющий доступ к большому количеству моделей от различных провайдеров, включая мультимодальные модели для работы с изображениями и документами.

Optical Character Recognition - технология оптического распознавания текста с изображений

Тут три пикчи с MinerU красиво проматывающихся, с подписями

Пример результата тестирования модели MinerU 3.0.0.

Инференсы с использованием OpenRouter API:

Финальный промпт:
Extract the table structure from the scanned image and the text within table elements. Provide your answer in Markdown format. Ignore everything outside the table. Keep the text within table elements unchanged. Preserve the table structure completely.

добавить звездочки-сноски?

S3-подобное хранилище - это тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про.

тут скрин как с3 выглядит

Пример результата тестирования модели MinerU 3.0.0.

5 этап

Создание сайта

Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта

ДАЛЬНЕЙШИЕ НАПРАВЛЕНИЯ:

Приводим показатели разных компаний к единой структуре и номенклатуре, чтобы обеспечить сопоставимость данных между отчетами

Корреспонденция (гармонизация)

3 этап

Проверяем логическую и математическую согласованность показателей на основе контрольных соотношений IFRS Taxonomy и выявляем потенциальные ошибки

Артикуляция (валидация)

4 этап

Руководители проекта

Дмитрий Скугаревский

Идейный вдохновитель

Научный сотрудник Института проблем правоприменения ЕУ СПб
Ника Зыкова

Куратор проекта

Программист прикладного центра МАСТ ЕУСПб, преподаватель Computer Vision

Команда проекта

Никита Бугрин

Студент программы ПАНДАН
Галина Лоскутникова

Студентка программы ПАНДАН
Ярослав Кашкарев

Студент программы ПАНДАН
Полина Рысакова

Студентка программы ПАНДАН
Дарья Тимбуш

Студентка программы ПАНДАН

Санкт-Петербург, ул. Шпалерная, 2/4, каб. 420
Email: admissions.pandan@eu.spb.ru, pandan.eu@yandex.ru.