This repository is dedicated to processing data on a study devoted to the very first memories of people speaking Russian.
Этот репозиторий посвящен обработке данных первых воспоминаний людей. Обычно респонденты отвечали на два вопроса: «Каково ваше первое воспоминание? К какому возрасту оно относится?». По возможности фиксировалось имя и пол отвечающего.
Сбор ответов осуществлялся через социальные сети (vk, twitter) в форме диалога в личных сообщениях, а также анонимного опроса в Google-форме. Часть воспоминаний была прислана на e-mail в результате распространения исследования. Ответы продолжают приниматься, поэтому если вы случайно натолкнулись на этот опрос – перед исследованием ответов заполните форму.
Описание полей набора данных:
- № – номер записи; одна запись может содержать несколько воспоминаний, обычно они отделяются друг от друга одной пустой строкой
- Имя – имя респондента (данное в ответе или обозначенное в профиле)
- Name – перевод имени на английский язык
- Воспоминание – текст ответа на русском языке (если это язык оригинального ответа); если в одной записи воспоминаний несколько, тексты отдельных воспоминаний разделены по возможности пустой строкой
- Translation – перевод текста ответа (частично воспоминания переведены на английский язык)
- Translation footnote – комментарий к переводу текста воспоминания для сносок
- Пол – пол респондента (если известен или понятен из текста)
- Кол-во – количество воспоминаний, содержащихся в ответе
- Возраст – возраст (возраста) воспоминаний, данный отвечающим, указывается в годах, в случае месяца указывается доля месяца. Если для разных воспоминаний указан разный возраст, перечислены через точку с запятой. Также приводятся интервалы времени и случаи больше/меньше («не раньше двух лет», «после года»)
- Ориентир возраста – указатель возраста в воспоминании или подтверждение возраста лицом из воспоминания, например, родственником. В случае если возраст не указан, может служить как уточняющий маркер (неумение ходить, неумение говорить)
- Мотив – категория воспоминания, своеобразные тэги для разделения воспоминаний на группы, описывают происходящую ситуацию
- Лица – упомянутые отвечающим одушевленные сущности (люди и животные)
- Предметы – упомянутые отвечающим предметы
- Цвета – встречающиеся в тексте воспоминания категории цвета (за исключением имен персонажей, например, Красная шапочка)
- Звуки — упомянутые или определенные из текста воспоминания звуки
- Запахи, вкус
- Другие ощущения/действия (тепло, темнота, объятия и т.д.)
- Сущности – наиболее субъективное поле, описывающее не объекты и ощущения напрямую, а процессы и ситуации (близко к комментарии)
- Пространство – место действия одного или нескольких воспоминаний, упомянутое или определенное из текста воспоминания. В скобках указывается более крупная категория пространство по отношению к описанной, например: «диван (помещение)»
- Время дня, упомянутое, реже – определенное из текста воспоминания. Если время дня можно предположить, но на это нет явных указаний, после времени дня идет знак «(?)», также используется союз «или»
- Время года, упомянутое, реже – определенное из текста воспоминания. Использование знак «(?)» аналогично пункту время дня
- Поведение – «активное» в случае совершения активных действий рассказчиком, пассивное – если все действия совершаются лишь по отношению к рассказчику, нет явного проявления какого-либо активного действия
- Комментарий – замечание исследователя «на полях»
Результаты исследования планируется оформить в виде публикации на Medium, в pdf (с помощью LaTeX) и в других форматах, удобных для книжного чтения: epub, fb2. Публикация будет состоять из двух частей: 1) исследование со ссылками на конкретные воспоминания, 2) сами воспоминания. В конце этой странице даны ссылки на страницы социальных сетей, где для удобства чтения один раз в день публикуется одна запись из набора данных.
Набор данных планируется опубликовать отдельно на Kaggle. Датасет может представлять пользу не только как набор воспоминаний, но и для различных задач обработки текстов на естественных языках: это и переводы с русского на английский язык, и одновременно набор микротекстов, из которых выделены одушевленные сущности, предметы, запахи и пр.
Предыдущие результаты исследования описаны в текущей pdf-версии.
Русскоязычные страницы проекта в социальных сетях:
Social networks pages for Engilsh speakers: