ЦА пользователей датасета - это специалисты со всего мира
Как это сделать?
Из открытых источников собрать отчётность по МСФО
Обработать собранные данные
Что будет в итоге?
Открытая база данных отчётности по МСФО российских компаний, выложенная на сайте
Данные будут доступны в виде оригинальных pdf и табличных форм
Этапы проекта
Скрейпинг
Сбор PDF-файлов финансовой отчётности компаний по МСФО из открытых источников
Извлечение
Извлечение форм отчётности из PDF-файлов годовых отчётов компаний
Individual Approach
Краткое описание??
Создание сайта?
Краткое описание??
Этап - Скрейпинг (сбор отчетности)
Годовая консолидированная отчётность российских эмитентов по МСФО доступна на сайтах пяти информационных агенств, официально аккредитованных Банком России на раскрытие информации о ценных бумагах и иных финансовых инструментах.
Кроме информационных агентств, объемную коллекцию корпоративной отчетности содержит сайт ИНИОН РАН, где она собрана в исследовательских целях.
Наконец, данные по отчетам МСФО можно найти в хранилище крупнейшего в рунете тематического портала для инвесторов и трейдеров Смартлаб.
Как собирались данные
Пайплайн сбора данных включает несколько этапов:
Парсер на Selenium обходит карточки всех компаний, представленных на портале, и при обнаружении файлов годовой консолидированной отчетности скачивает их, одновременно фиксируя метаданные компании: название, ИНН, ОГРН, дату регистрации, отчетный год.
Отчеты содержатся в архивах формата ZIP, 7z, а также как одно- и многотомные RAR. При обработке тип архива определяется по сигнатуре (magic bytes). Далее архивы распаковываются.
Извлеченные из архивов файлы повторно проходят проверку сигнатуры, что позволяет корректно конвертировать их в требуемый формат PDF.
При необходимости файлы PDF объединяются в один документ, чтобы привести данные к формату "1 компания - 1 год - 1 отчет".
Основные сложности:
рекурсивная распаковка вложенных архивов
многотомные архивы, которые распаковываются вместе и склеиваются в единый PDF-файл
более 5 форматов, в которых хранятся файлы отчетов (PDF, DOC/DOCX, RTF, XLSX, XML, сканы - TIF, JPG)
Защищенные PDF с AES-шифрованием, блокировавшим чтение и склейку PDF
Необходимость поддерживать маппинг file_id → компания/год на всех этапах обработки
7114
файлов отчетов за 2006-2025 года
993
российские компании, подававшие отчетность МСФО
2006-2025
временной охват собранной отчетности
Этап - Извлечение
Цель этапа
Из многостраничного pdf файла извлечь 4 формы финансовой отчетности
Что такое форма отчётности?
Форма отчётности
Простыми словами
Баланс (BS)
Это некий "показатель здоровья" компании, который позволяет увидеть финансовое состояние с разных сторон
Отчёт о прибылях и убытках (PnL)
Зарабатывает компания или несет убытки
Что есть у компании
Откуда пришли и куда ушли деньги
Как меняется стоимость бизнеса и его владельцев
Отчёт о движении денежных средств (CF)
Отчёт о об изменении капитала(EQ)
Этап 2 - "Извлечение"
Получаем от команды "Скрейпинга" данные
Первый скрипт - ищем формы отчетности в pdf файлах
Второй скрипт - вырезаем страницы с формами из pdf
С какими трудностями столкнулись
Многообразие форматов файлов
(как справлялись: ... кратко)
Неверная(?) кодировка
(как справлялись: ... кратко)
Английский
(как справлялись: ... кратко)
Ложные срабатывания
(как справлялись: ... кратко)
Страницы с нестандартной ориентацией
(как справлялись: ... кратко)
Скошенные страницы
(как справлялись: ... кратко)
Подбор, тестирование и инференс OCR моделей
Какие характеристики моделей важны для нашей задачи:
распознавание структуры сложных таблиц (Table Structure Recognition)
распознавание русскоязычного текста
хорошие показатели работы с финансовыми таблицами без
обязательного дообучения
единый встроенный пайплайн для распознавания текста и табличной структуры и их сопоставления
открытые веса
возможность коммерческого использования
вес модели для возможности тестирования в Colab Free
Однако, остальные выделенные модели при тестировании в Colab Free приводили к CUDA Out of Memory либо к несовместимости версии CUDA колаба с версиями CUDA, под которые были написаны библиотеки моделей.
Оптимальным выходом из ситуации стал сервис openrouter.ai, предоставляющий доступ к большому количеству моделей от различных провайдеров, включая мультимодальные модели для работы с изображениями и документами.
Optical Character Recognition - технология оптического распознавания текста с изображений
Тут три пикчи с MinerU красиво проматывающихся, с подписями
Пример результата тестирования модели MinerU 3.0.0.
Инференсы с использованием OpenRouter API:
Финальный промпт: Extract the table structure from the scanned image and the text within table elements. Provide your answer in Markdown format. Ignore everything outside the table. Keep the text within table elements unchanged. Preserve the table structure completely.
добавить звездочки-сноски?
S3-подобное хранилище - это тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про S3 тут про.
тут скрин как с3 выглядит
Пример результата тестирования модели MinerU 3.0.0.
5 этап
Создание сайта
Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта Текст про крутость сайта
ДАЛЬНЕЙШИЕ НАПРАВЛЕНИЯ:
Приводим показатели разных компаний к единой структуре и номенклатуре, чтобы обеспечить сопоставимость данных между отчетами
Корреспонденция (гармонизация)
3 этап
Проверяем логическую и математическую согласованность показателей на основе контрольных соотношений IFRS Taxonomy и выявляем потенциальные ошибки
Артикуляция (валидация)
4 этап
Руководители проекта
Дмитрий Скугаревский
Идейный вдохновитель
Научный сотрудник Института проблем правоприменения ЕУ СПб
Ника Зыкова
Куратор проекта
Программист прикладного центра МАСТ ЕУСПб, преподаватель Computer Vision