Можно ли научить машину переживать как подросток?
Три месяца мы обучали языковую модель писать тексты, неотличимые от дневниковых записей юношей и девушек.

Проверьте, получилось ли у нас.

Начнём с небольшой игры?
Прежде чем читать о результатах проекта, попробуйте оценить их в нашей версии
Теста Тьюринга
Что это за тест?
Тест Тьюринга — эмпирический тест, позволяющий определить, может ли машина мыслить как человек.
Мы покажем Вам 5 записей из дневников подростков. Какие-то из них написаны
людьми, а какие-то — сгенерированы компьютерной моделью. Попробуйте угадать, кто написал эти тексты.
Начать тест
Кто написал этот текст?
Ошибаетесь — этот текст создала наша натренированная компьютерная модель. После теста расскажем в подробностях о принципах её работы.
И вы совершенно правы! Мы долго учили нашу модель писать складные тексты, но вас не проведешь.
Далее
Проверить
Узнать результат
Кто написал этот текст?
Правильно! Это написала пятнадцатилетняя Ольга Берггольц в 1925 году.
Ошибаетесь: это написала пятнадцатилетняя Ольга Берггольц в 1925 году. Хотите узнать, что волновало подростков в те годы — листайте сайт дальше, там всё подробно описано.
Далее
Проверить
Узнать результат
Кто написал этот текст?
Вы абсолютно правы! Попробуем ещё один пример?
А вот и нет, этот текст сгенерировала наша версия ruGPT-3! После теста расскажем, почему её записи выглядят так правдоподобно.
Далее
Проверить
Узнать результат
Кто написал этот текст?
Хорошая попытка, но нет: эту запись написала модель ruGPT-3, обученная на дневниках подростков из корпуса «Прожито».
Вы угадали! Хотите сами сгенерировать записи? Листайте до конца страницы.
Далее
Проверить
Узнать результат
Кто написал этот текст?
А вот и нет: эту запись сделала Марина Добрынина в апреле 1946 года. Хотя наша модель может генерировать и не такие похожие на человека варианты.
Всё верно: эту запись в свой дневник добавила Марина Добрынина в апреле 1946 года.
Далее
Проверить
Узнать результат
Нашей модели удалось вас запутать
Но не расстраивайтесь, мы много работали над тем, чтобы научить эту модель создавать тексты, похожие на дневниковые записи, хотя это и оказалось очень непросто.
Листайте страницу дальше: там можно узнать про обучение модели и самим сгенерировать запись в подростковый дневник.
Нашей модели не удалось вас обмануть!
Хотя мы очень старались научить эту модель создавать тексты, похожие на дневниковые записи, это оказалось совсем не просто. Листайте страницу дальше: там можно узнать про обучение модели и самим сгенерировать запись в подростковый дневник.
Давайте посмотрим, как нам удалось научить модель писать такие замысловатые дневниковые записи.
И, конечно, погенерируем ещё тексты.
О проекте
«Прожито» развивает корпус личных дневников — электронную библиотеку датированных личных записей, которая позволяет пользователям работать не только с конкретными дневниками, но и всей совокупностью текстов эпохи: получать выборки по датам, полу, возрасту, месту ведения дневника и пр.
Давайте посмотрим, как нам удалось научить модель писать такие замысловатые дневниковые записи.
И, конечно, погенерируем ещё тексты.

СЛОЖНАЯ ЗАДАЧА
Не всякая запись из дневника подойдет для обучения модели. Нам потребовались 3 шага, чтобы отобрать подходящие образцы
Шаг первый: Изучаем корпус
Предобрабатываем тексты дневниковых записей, считаем основные статистики и визуализируем их.
Шаг второй: Ищем переживания
Разрабатываем, тестируем и пускаем в работу алгоритм поиска переживаний в тексте дневниковой записи. Ищем и формализуем характерные тематические паттерны в записях.
Шаг третий: Обучаем модель
Используем найденные паттерны, проводим дообучение модели ruGPT-3 и создаём выборку записей для сайта.

1
Пара слов о корпусе дневников
Благодаря проекту «Прожито» в распоряжении нашей команды оказался уникальный архив записей подростковых дневников, написанных на русском языке. Вот тут можно подробнее посмотреть статистику и графики.
59478

дневниковых записей
578

авторов
13–21

возраст авторов, в годах
91%

написаны в XX веке

2
Убрать нейтральные записи: Dostoevsky
Мы провели эксперимент по ручному поиску записей с переживанием и выяснили, что понимаем переживания очень по-разному. Только в 17 случаях из 50 мнение команды о том, есть ли в записи переживание, совпало полностью. Эти записи объединяло то, что в них автор явно говорил о своем состоянии, настроении.

«Четверг. Был Борис, мой любимый. Хорошо!!!»
Определить, что такое переживание
Чтобы убрать нейтральные записи, мы использовали библиотеку для анализа тональности текстов на русском языке Dostoevsky. Библиотека позволяет определить вероятность того, что текст в целом является негативным, позитивным или нейтральным. Мы выбрали те записи, в которых вероятность позитивной или негативной тональности была больше 50%.
1
2
Как найти записи с переживаниями?
Нейтральная
Негативная
Положительная
Убрать военные записи
Выбрать записи с явными переживаниями: RuSentilex
С помощью словаря оценочных слов русского языка RuSentilex, в котором отдельно сгруппированы слова, отражающие эмоцию автора (например, грустно), мы отфильтровали записи, содержащие такие слова.

Четверг. Был Борис, мой любимый. Хорошо!!!

3
4
Мы составили собственный словарь слов, связанных с войной, и исключили записи, в которых они встречались, чтобы отобранные записи были похожи на описание реалий мирной жизни.
1202
дневниковые записи
Убрать военные записи
Выбрать записи с явными переживаниями: RuSentilex

С помощью словаря оценочных слов русского языка RuSentilex, в котором отдельно сгруппированы слова, отражающие эмоцию автора (например, грустно), мы отфильтровали записи, содержащие такие слова.

Четверг. Был Борис, мой любимый. Хорошо!!!

3
4
Мы составили собственный словарь слов, связанных с войной, и исключили записи, в которых они встречались, чтобы отобранные записи были похожи на описание реалий мирной жизни.
1202
дневниковые записи
Можно ли сгруппировать записи с переживаниями?
Каждая точка представляет собой одну запись, близкие записи обозначены одним цветом. Для получения такой визуализации мы сопоставили каждой лемме наших избранных записей 300-мерный вектор из готовой модели RusVectōrēs, обученной на корпусе Taiga из 5 млрд слов. К усреднённым векторам всех записей были применены снижение размерности алгоритмом UMAP и затем кластеризация методом k-средних.
3 особенности наших текстов
Для модели генерации текстов важно, чтобы выборка записей была сбалансированной. Мы обнаружили три особенности в выбранных текстах и учли их на моменте дообучения модели
Гендерный дисбаланс
Эмоции по декадам
Весело или грустно?
Хотя в основном корпусе преобладают записи юношей, в выборке с переживаниями большая часть записей написана девушками
Девушки пишут эмоциональнее во все времена
Эмоциональные записи чаще относятся к категории «негативных»

3
Языковая модель ruGPT-3 в деле
Модель ruGPT-3 — версия англоязычной GPT-3 от OpenAI, дообученная «Сбербанком» на более чем 600Гб русскоязычных текстов («Википедии», художественной литературе, диалогах, программном коде). На сегодня это самая сложная и объемная языковая модель на русском языке. Она способна эффективно решать множество задач из области NLP, продолжая любую фразу, которую ей формулирует пользователь.

Для генерации подростковых записей с переживаниями мы дообучили ruGPT-3 на отобранных нами записях из корпуса «Прожито». Ниже вы можете почитать разные дневниковые записи, созданные языковой моделью.
Время нажимать на кнопки
Хотите почитать ещё дневников?
Безо всяких мук совести и абсолютно легально
мальчика
девочки
веселую
грустную
Показать запись:
Здесь появится предварительно сгенерированная моделью дневниковая запись с переживаниями заданного автора/типа.
Вместо послесловия
Удалось ли нам научить модель генерировать тексты с подростковыми переживаниями?
Золотого стандарта для однозначной оценки качества генеративной модели не существует. Для нас лучший критерий успешности модели — результаты теста Тьюринга на этом сайте. Статистика голосования выше показывает, в скольких случаях неискушённый пользователь может отличить дневниковые записи реальных подростков от записей, созданных языковой моделью.

Модель ruGPT-3 даёт новые возможности для работы с такими сложными личными документами, как дневниковые записи и мемуары. Даже на уровне сгенерированных записей видно, как сложно бывает распознать «машинное лицо» за строчками, казалось бы, абсолютно человеческой эмоциональной записи. Возможно, не за горами наши «цифровые двойники». Будущее, представленное в научной фантастике и современных медиа, стало для нашей команды на один шаг ближе.
Команда проекта
Анна Тимошенко
anna10son@gmail.com
Светлана Изотова
izotova.svetlana.v@yandex.ru
Ксения Зиндер
kzinder@eu.spb.ru
Лена Веретённик
everetennik@eu.spb.ru
Эльвира Гизатуллина
eg.gizatullina@gmail.com
Валерия Бабушкина
valerikache@yandex.ru
Екатерина Туранова
ekaterinaturanova@gmail.com
Анастасия Карасёва
akarasyova@eu.spb.ru
Наши кураторы и вдохновители
Дмитрий Скугаревский
Ассоциированный профессор ПАО «МТС» по эмпирико-правовым исследованиям ЕУСПб
Михаил Мельниченко
Историк, создатель и идеолог проекта «Прожито»
Анастасия Кузнецова
Аспирант НИУ ВШЭ, аналитик, автор Telegram-канала «настенька и графики»
Павел
Браславский
Доцент факультета компьютерных наук
НИУ ВШЭ
Иван Бибилов
Содиректор программы ПАНДАН Европейского университета в Санкт-Петербурге
При использовании модели ruGPT-3 дневниковые записи формируются на автоматической основе. Команда и кураторы проекта «Дневники Подростков» (ПАНДАН) не несут ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данной функции.
СЦЕНА ПОСЛЕ ТИТРОВ
Может показаться, что алгоритм нашей работы прост и линеен.
Это не совсем так.
На тернистом пути к хорошим машинным текстам с переживаниями мы прошли много тупиковых путей, а также сгенерировали изрядное количество неудачных, но иногда довольно смешных записей. Приглашаем вас полистать их в галерее ниже.
Менеджер по модельным ляпам
Made on
Tilda