Возможности автоматического анализа текста в задаче определения психологических особенностей автора

453

Аннотация

С помощью разработанного в ФИЦ ИУ РАН инструмента автоматического анализа текста и методов машинного обучения получены первые результаты в задаче выявления текстовых параметров, специфичных для людей с определенными психологическими особенностями. Инструмент корпусных лингвостатистических исследований, опирающийся на использование реляционно-ситуационного анализа, психолингвистических показателей и словарей, охватывающих лексику эмоциональной и рациональной оценки, позволили получить значения для 177 текстовых признаков эссе, написанных 486 испытуемыми. Для получения данных об уровне выраженности характерологических и личностных особенностей испытуемых применялся ряд психологических опросников. При обработке данных использовались алгоритмы бинарной классификации — методы опорных векторов (SVM) и «Случайный лес» (Random Forest). Полученные результаты позволяют сделать выводы о перспективности использования некоторых текстовых параметров в задачах популяционной психодиагностики и об адекватности примененных алгоритмов классификации.

Общая информация

Ключевые слова: автоматический анализ текста, личностные особенности, методы бинарной классификации

Рубрика издания: Психолингвистика

Тип материала: научная статья

DOI: https://doi.org/10.17759/exppsy.2020130111

Финансирование. Работа выполнена при частичной финансовой поддержке РФФИ (проект № 17-29-02247 «Создание методов диагностики распространения фрустрации в сетевых дискуссиях» и проект № 18-00-00233 «Методы комплексного интеллектуального анализа информации различных типов для социогуманитарных исследований в социальных медиа»).

Для цитаты: Ковалёв А.К., Кузнецова Ю.М., Пенкина М.Ю., Станкевич М.А., Чудова Н.В. Возможности автоматического анализа текста в задаче определения психологических особенностей автора // Экспериментальная психология. 2020. Том 13. № 1. С. 149–158. DOI: 10.17759/exppsy.2020130111

Полный текст

 

Введение

Проблема определения личностных особенностей автора по созданному им тексту не нова для гуманитарных наук [Алмаев, 2009]; во второй половине ХХ в. на стыке психологии и лингвистики возникла новая отрасль знания — психолингвистика; в последние годы исследования в этой области получили новый импульс в связи с появлением инструментов автоматического анализа текстов (см., например: [Pennebaker, 2015; Литвинова, 2015]; а также обзор в нашей работе: [Воронцова, 2018]). В настоящей работе представлены результаты оценки личностных особенностей автора по его текстам, полученные с помощью разрабатываемого в ФИЦ ИУ РАН инструмента корпусных лингвостатисти­ческих исследований, основанного на использовании реляционно-ситуационного анализа, психолингвистических показателей и словарей, охватывающих лексику эмоциональной и рациональной оценки [Ениколопов, 2019]. Результаты пилотажных исследований, выполненных с помощью данного инструмента, представлены в работах [Ениколопов, 2019а; Воронцова, 2018], где для обработки данных были использованы методы математической статистики, позволившие получить первые представления о наличии устойчивой связи между текстовыми параметрами и свойствами .чинности. Однако корреляционный анализ и анализ различий не могут быть признаны релевантными задаче выделения текстовых признаков, на основании которых можно выделить и описать психологические особенности написавшего текст субъекта. Сложившаяся к настоящему времени традиция анализа текстов в психодиагностических целях подразумевает привлечение на этапе установления связей методов обработки данных, более соответствующих уровню сложности анализируемого материала, в том числе, задействующих возможности искусственного интеллекта: машинное обучение с последующим использованием классификаторов на основе деревьев решений, наивного байесовского классификатора, SVM, нейронных (рекуррентных и сверточных) сетей и т. д. [Gupta, 2017]. Данные методы позволяют количественно оценить достоверность установления того или иного психологического свойства по присутствию в текстах анализировавшихся признаков.

По сравнению с указанным пилотажным исследованием в настоящей работе коллекция текстов была увеличена более чем в 3 раза и к обработке данных лингвистического анализа были привлечены методы машинного обучения.

Методы и процедура исследования

В Институте проблем искусственного интеллекта ФИЦ ИУ РАН разрабатывается система когнитивного анализа текста, основанная на методах реляционно-ситуационного анализа, лексико-частотного анализа и психолингвистического анализа русскоязычных текстов научного, публицистического и бытового жанров — «Машина РСА». Метод РСА опирается на синтаксемный анализ Г.А.Золотовой [Золотова, 2004] и на аппарат неоднородных семантических сетей Г.С. Осипова [Осипов, 1997]. РСА работает на основе Словаря предикатов (2,7 тыс. глаголов, причастий, деепричастий и девербативов) и Определителя семантических ролей (75 семантических отношений) и семантических связей (32 семантические связи) [Осипов, 2008]. Кроме того, в Машине РСА используется анализатор PLATIn [Девяткин, 2014], разработанный для лек­сико-частотного и психолингвистического анализа текстов, в том числе для автоматического анализа веб-страниц. Лексико-частотный анализ опирается на специально созданные в ФИЦ ИУ РАН словари, содержащие лексику экспрессии, лексику отрицательной эмоциональной оценки, лексику отрицательной рациональной оценки, лексику социального стресса; всего в состав созданных 29 словарей входит более 51 тыс. лексических единиц. Психолингвистический анализ осуществляется по 27 психолингвистическим показателям, находящимся, как показали результаты проведенного нами пилотажного исследовании, в статически значимой взаимосвязи с более чем 50 различными психологическими свойствами личности. В настоящий момент в Машине РСА используется еще 14 частеречных показателя, которые, возможно, пополнят список психолингвистических показателей.

В ходе проведенного исследования (с участием 487 испытуемых — студентов и взрослых г. Москвы и г. Кургана) испытуемым было предложено написать эссе на тему «Я, другие, мир» объемом в одну страницу и заполнить десять опросников. Результаты для такой черты, как агрессивность, отражены в нашей публикации [Ковалёв, 2019], а в настоящей работе представлены данные, полученные на основе следующих семи опросников: опросник нарцис- сических черт личности (НЧЛ) Н.М. Клепиковой, О.А. Шамшиковой; опросник «Стиль саморегуляции поведения» (ССПМ) В.И. Моросановой;тест жизнестойкости (ТЖ) С. Мадди в адаптации Д.А. Леонтьева и Е.И. Рассказовой; опросник черт характера (ОЧХ) В.М. Русалова и О.Н. Маноловой; а также русскоязычные версии методик: Personal Need for Structure Thompson (Naccarato, Parker, & Moskowitz (шкала «Потребность в структуре», ШПС)), Multidimensional scale of anomie (Heydari, Davoudi, & Teymoori (Шкала аномии, ША)), New Personal Fable Scale Lapsley (Fitzgerald, Rice, & Jackson (опросник «Личный миф», ЛМ)) в адаптации Ю.М. Кузнецовой.

Тексты эссе были обработаны с помощью инструмента «Машина РСА», так что текст каждого автора оказался численно охарактеризован по 177 параметрам.

Данные представляют собой набор из 177 признаков для 487 испытуемых. Признаки разбиты на шесть групп:

1)     психолингвистические показатели (PI) — 27 признаков;

2)     семантические роли (SR) — 75 признаков;

3)     семантические связи (SL) — 32 признака;

4)     словари оценки и состояния (AS) — 20 признаков;

5)     тематические словари (SD) — 9 признаков;

6)     части речи (PS) — 14 признаков.

В качестве целевых признаков выступали показатели 69 шкал использованных в исследовании опросников. Для каждого целевого признака высчитывались значения первого и третьего квартиля. Испытуемые, у которых значение целевого признака больше первого квартиля, но меньше третьего квартиля, исключались из выборки. Значение больше третьего квартиля считалось высоким, и таким испытуемым присваивалась метка класса 1; значения меньше третьего квартиля считались низкими, и таким испытуемым присваивалась метка класса 0. Таким образом, задача предсказания значения целевого признака сводилась к задаче классификации.

Также признаки, которые принимали значение «ноль» в более чем 70% случаев, би­наризовались — значения, не равные нулю, приравнивались к единице и играли роль индикатора.

В качестве алгоритмов бинарной классификации использовались методы опорных векторов (SVM) и «Случайный лес» (Random Forest), реализованные в библиотеке «Scikii-leai’ii». Метод опорных векторов — линейный классификатор, переводящий объекты в пространство более высокой размерности, чем исходное, и строящий в этом пространстве гиперплоскость, разделяющую объекты разных классов с максимальным зазором. Случайный лес представляет собой ансамбль моделей, в котором базовой моделью является дерево решений (decision tree), и сочетает в себе метод бэггинга (bagging), базовые алгоритмы строятся по бутстрепированным выборкам, и метод случайных подпространств — при построении базового алгоритма используется только часть признаков. Классификация происходит путем голосования — каждое дерево относит объект к одному из классов; побеждает тот класс, за который проголосовало наибольшее число деревьев. Метрика качества — доля верных ответов (accuracy). Настройка гиперпараметров (параметр регуляризации и тип ядра для метода опорных векторов, количество базовых моделей в ансамбле, максимальная глубина дерева для случайного леса) производилась подбором по сетке с пятикратным скользящим контролем. Из-за небольшого количества данных качество классификации оценивалось не на отложенной выборке, а путем усреднения значения метрики качества с каждой итерации пятикратного скользящего контроля.

Эксперименты проводились отдельно для каждой группы признаков. С помощью оценки важности признаков в алгоритме случайного леса в каждой группе отбирались 5 признаков с наибольшим значением важности. Совокупность этих признаков по всем группам составила группу наиболее важных признаков (TOP 5). Также были проведены эксперименты на всех признаках (ALL).

Результаты и их обсуждение

Проведенная обработка позволила выявить текстовые признаки, наличие которых дает возможность отличить тексты, написанные людьми с высоким уровнем измеренных в нашем исследовании личностных особенностей.

Рассмотрим вначале проблему достоверности полученных результатов. Наиболее высокую степень уверенности при оценке личностных особенностей по текстовым признакам можно иметь, выявляя такие особенности, как общая жизнестойкость (интегральный показатель теста жизнестойкости, достоверность связи — 0,707 ± 0,086), способность к осознанному программированию собственных действий (шкала «Программирование» опросника «Стиль саморегуляции поведения», достоверность — 0,696 ± 0,061), зависть к окружающим (шкала «Сверхзанятость чувством зависти» опросника «Нарциссические черты личности», достоверность — 0,733 ± 0,068), надменность в отношении к окружающим (шкала «Дерзкое и заносчивое поведение» опросника «Нарциссические черты личности», достоверность — 0,695 ± 0,081). Эти черты распознаются по текстовым признакам при автоматическом анализе текста с уверенностью около 0,7.

Ниже приведен список черт, распознаваемых с уверенностью, лежащей в интервале 0,65—0,69:

1)    стиль саморегуляции поведения (на основании показателей шкалы «Оценивание результата» — 0,664 ± 0,128);

2)        стиль саморегуляции поведения (на основании показателей шкалы «Самостоятельность» — 0,671 ± 0,075);

3)    нарциссические черты личности (на основании показателей шкалы «Вера в собственную уникальность» — 0,687 ± 0,076 и показателей шкалы Потребность во внимании 0,652 ± 0,111);

4)    уровень жизнестойкости (на основании показателей шкалы «Вовлеченность» — 0,684 ± 0,046 и показателей шкалы «Принятие риска» — 0,662 ± 0,055);

5)    потребность в структурировании деятельности и времени (на основании показателей шкалы «Независимость» — 0,671 ± 0,086 и показателей шкалы «Манипулятивность» — 0,68 ± 0,084);

6)    показатели методики «Личный миф» (на основании показателей шкалы «Уникальность» — 0,669 ± 0,03, шкалы «Неузявимость» — 0,66 ± 0,092, шкалы «Всесилие в общении» — 0,668 ± 0,104 и шкалы «Всесилие общее» — 0,662 ± 0,088).

Другие черты распознаются с уверенностью менее 0,65; в связи с этим они не представляют интереса для процедур классификации авторов на основе данных автоматического анализа их текстов.

В табл. 1 представлены данные о 10 наиболее значимых текстовых признаках, характерных для людей с высокими баллами по шкалам «Общая жизнестойкость» — ТЖ, «Программирование» — ССПМ, «Сверхзанятость чувством зависти» и «Дерзкое, заносчивое поведение» — НЧЛ.

Как видно из представленной выше таблицы, между признаками , характерными для людей с высоким уровнем жизнестойкости, и признаками , характерными для людей с высоким уровнем нарциссизма, обнаруживается пересечение по половине списка. Такие характеристики текста, как присутствие молодежного жаргона, значительное преобладание глаголов над существительными и в целом повышенная частота использования глаголов, частая встречаемость местоимения «мы», «наше» и т. п., частая встречаемость слов в позиции объекта описания, — все эти особенности характерны как для людей с проявлениями нарциссизма, так и для людей, обладающих высокой жизнестойкостью.

Далее, можно видеть, что другие признаки, характерные для текстов людей с высокими баллами по двум шкалам НЧЛ, оказываются существенны и для текстов людей, склонных к программированию своей деятельности (согласно данным по опроснику ССПМ). Таким образом, 6 из 10 текстовых признаков, позволяющих говорить о наличии у автора текста проявлений нарциссизма, оказываются плоходифференцирующими, и требуется дополнительная проверка — уже на отделение от текстов «жизнестойких» и «программирующих».

Полученные данные могут быть интерпретированы с точки зрения диагностической ценности выделенных связей между личностными свойствами индивида и признаками текста.

Тест жизнестойкости, общая шкала

Опросник стиля саморегуляции поведения, шкала «Программирование»

Опросник нарцисси- ческих черт личности, шкала «Занятость чувством зависти»

Опросник нарцисси- ческих черт личности, шкала «Дерзкое, заносчивое поведение»

Молодежный жаргон

Часть речи: местоимение-прилагательное

Доля местоимений 1-го лица мн. числа

Коэффициент опредме- ченности действия

Коэффициент опред- меченности действия (глаголы/существи- тельные)

Тональность слов

Семантическая связь: LOC

Семантическая роль: объект

Безысключительная и усилительная лексика

Число знаков препинания / число слов

Тональность слов

Семантическая связь: OBJ

Доля местоимений 1-го лица мн. числа

Средняя глубина синтаксического дерева

Число знаков препинания / число слов

Тональность слов

Коэффициент Трейгера

Семантическая роль: делибератив

Уголовный жаргон

Часть речи: прилагательное

Семантическая роль: предикат

Семантическая роль: предикат

Часть речи: наречие

Часть речи: глагол

Семантическая роль: объект

Часть речи: частица

Семантическая связь: COM

Семантическая роль: директив

Часть речи: глагол

Лексика социального разобщения

Семантическая роль: локатив

Доля глаголов прошедшего времени

Часть речи: предлог

Часть речи: наречие

Молодежный жаргон

Уголовный жаргон

Доля глаголов 3-го лица

Семантическая связь: CAUS

Прецедентные тексты, архаизмы, междометия и др.

Лексика мотивации, деятельности и напряжения

 

В этом отношении определяемые с помощью нашего инструмента текстовые признаки различаются по своей способности дифференцировать носителей разных психологических особенностей. Наименее ценным в диагностическом плане является признак «Тональность слов», поскольку он связан одновременно с тремя из четырех упоминаемых в таблице психологических свойств. Данный факт заслуживает внимания, поскольку оценка тональности текста (сантимент-анализ) до настоящего времени остается базовой техникой текстового анализа в диагностических целях. Исследовательский интерес к данному параметру определяется интуитивным представлением о том, что в речи и текстах людей, у которых определенные психологические особенности выражены выше нормы, скапливается относительно большое количество аффективно заряженных слов и выражений; однако именно универсальность данного признака снижает его ценность при решении задач текстовой диагностики личности. Напротив, полезными в диагностическом плане являются «уникальные» связи, такие как, например, повышение частоты встречаемости в текстах жизнестойких людей безысключительной и усилительной лексики или в текстах людей с выраженной способностью к программированию — встречаемости частиц. Формирование текстовых «профилей», включающих в себя показатели Машины РСА, наиболее достоверно идентифицирующие психологические особенности, позволит решать задачи диагностики таких особенностей по порождаемым человеком текстам, а при анализе больших массивов текстов (в том числе сетевых) — задачи их классификации на принадлежащие авторам с выраженной и невыраженной диагностируемой особенностью.

В завершение отметим, что нами не были обнаружены взаимосвязи между выделяемыми с помощью Опросника черт характера взрослого человека В.М. Русалова чертами личности и параметрами текста, используемыми в Машине РСА: оба метода классификации не дают надежных результатов при работе с характерологическими особенностями испытуемого — распознавание по всем группам признаков по всем шкалам ОЧХ оказывается не выше 0,59. Другими словами, наличие ярко выраженных черт характера не проявляется в тексте. Этот вывод подкрепляется и данными проведенного нами пилотажного исследования [Ениколопов, 2019а], в котором между показателями шкал ОЧХ и параметрами текста не было обнаружено значимых корреляций, за исключением положительной корреляции выраженности так называемого дистимного типа характера с использованием инвектив. Связано ли это со спецификой самого понятия «характер» (в концепции В.М. Русалова и разработанном им с О.Н. Маноловой опроснике, характер понимается как интегральная структура индивидуальности, как сформировавшийся в детстве и юности инструмент адаптации к социальным требованиям) или с тем, что используемые нами текстовые признаки имеют слишком частный характер и не позволяют описывать специфику сверхфразового единства, — пока вопрос открытый.

Заключение

Результаты, полученные в данном исследовании, позволяют проводить отбор текстов, чьи авторы с некоторой долей уверенности могут быть охарактеризованы в отношении таких личностных свойств, как: стиль саморегуляции, жизнестойкость, нарциссизм, потребность в структуре, наличие личного мифа. Сами тексты при этом должны быть предварительно отнесены (или заданы испытуемым в психодиагностическом исследовании) к выполненному в эссеистическому стиле. Этот стиль определяется следующим образом: «... прозаическое сочинение небольшого объема и свободной композиции, выражающее индивидуальные впечатления и соображения по конкретному поводу или вопросу и заведомо не претендующее на определяющую или исчерпывающую трактовку предмета» [Эссе. Большая советская]. Эссеистический стиль трактуется в жанроведении как стиль, в котором на первый план выступает личность автора. В связи с развитием коммуникации в социальных сетях этот стиль стал востребован многими пользователями в небольших постах Живого журнала или Фейсбука, излагающими свои взгляды на мир и значимые для них события личной и общественной жизни. Таким образом, результаты нашего исследования могут быть полезными для сетевой психодиагностики и популяционных исследований на основе данных сетевой активности.

 

Литература

  1. Алмаев Н.А., Дороднев А.Б., Малкова Г.Ю. Проявление психологической травмы в автобиографических рассказах // Экспериментальная психология. 2009. Т. 2. № 2. С. 104—115.
  2. Воронцова О.Ю., Ениколопов С.Н., Кузнецова Ю.М., Чудова Н.В. и др. Лингвистические характеристики текстов психически больных и здоровых людей [Электронный ресурс] // Психологические исследования. 2018. Т. 11. № 61. URL: http://psystudy.ru/index.php/ num/2018v11n61/1622-enikolopov61.html
  3. Девяткин Д.А., Кузнецова Ю.М., Чудова, Н.В., Швец А.В. Интеллектуальный анализ проявлений вербальной агрессивности в текстах сетевых сообществ // Искусственный интеллект и принятие решений. 2014. № 2. С. 95—109.
  4. Ениколопов С.Н., Кузнецова Ю.М., Смирнов И.В., Станкевич М.А., Чудова Н.В. Создание инструмента автоматического анализа текста в интересах социогуманитарных исследований. Ч. 1. Методические и методологические аспекты // Искусственный интеллект и принятие решений. 2019. № 2. С. 28—38. DOI 10.14357/20718594190203.
  5. Ениколопов С.Н., Кузнецова Ю.М., Минин А.Н., Пенкина М.Ю., Смирнов И.В., Станкевич М.А., Чудова Н.В. Особенности текста и психологические особенности: опыт эмпирического компьютерного исследования // Труды ИСА РАН. 2019. № 3. С. 91—99.
  6. Золотова Г.А., Онипенко Н.К., Сидорова М.Ю. Коммуникативная грамматика русского языка. М.: Ин-т рус. яз. РАН им. В.В. Виноградова, 2004.
  7. Ковалёв А.К., Кузнецова Ю.М., Минин А.Н., Пенкина М.Ю., Смирнов И.В., Станкевич М.А., Чудова Н.В. Методы выявления по тексту психологических характеристик автора (на примере агрессивности) // Вопросы кибербезопасности. 2019. № 4(32). С. 72—80.
  8. Литвинова Т.А., Литвинова О.А., Рыжкова Е.С., Бирюкова Е.Д., Середин П.В., Загоровская О.В. Исследование влияния пола и психологических характеристик автора на количественные параметры его текста с использованием программы Linguistic Inquiry and Word Count // Научный диалог. 2015. № 12 (48). С. 101—109.
  9. Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. М.: Наука, Физматлит, 1997. 142 с.
  10. Осипов Г.С., Смирнов И.В., Тихомиров И.А. Реляционно-ситуационный метод поиска и анализа текстов и его приложения // Искусственный интеллект и принятие решений. 2008. № 2. С. 3—10.
  11. Эссе. Большая советская энциклопедия. М.: Советская энциклопедия, 1969—1978.
  12. Gupta U., Chatterjee A., Srikanth R., Agrawal P. A Sentiment-and-Semantics-Based Approach for Emotion Detection in Textual Conversations [Электронный ресурс] // Neu-IR: Workshop on Neural Information Retrieval, SIGIR. 2017, ACM. URL: arXiv:1707.06996
  13. Pennebaker J., Boyd R., Jordan K., Blackburn K. The development and psychometric properties of LIWC-2015 [Электронный ресурс]. 2015. URL: https://repositories.lib.utexas.edu/bitstream/ handle/2152/31333/LIWC2015_LanguageManual.pdf

Информация об авторах

Ковалёв Алексей Константинович, младший научный сотрудник, Федеральный исследовательский центр “Информатика и управление” Российской академии наук (ФИЦ ИУ РАН), Москва, Россия, ORCID: https://orcid.org/0000-0001-7309-7382, e-mail: alexeykkov@gmail.com

Кузнецова Юлия Михайловна, кандидат психологических наук, старший научный сотрудник, Федеральный исследовательский центр “Информатика и управление” Российской академии наук (ФИЦ ИУ РАН), Москва, Россия, ORCID: https://orcid.org/0000-0001-9380-4478, e-mail: kuzjum@yandex.ru

Пенкина Марина Юрьевна, Старший преподаватель кафедры общей психологии института экспериментальной психологии, Московский государственный психолого-педагогического университет (ФГБОУ ВО МГППУ), Москва, Россия, ORCID: https://orcid.org/0000-0001-7046-6963, e-mail: penkinamju@mgppu.ru

Станкевич Максим Алексеевич, младший научный сотрудник, Федеральный исследовательский центр “Информатика и управление” Российской академии наук (ФИЦ ИУ РАН), Москва, Россия, ORCID: https://orcid.org/0000-0003-0705-5832, e-mail: maxastan95@gmail.com

Чудова Наталья Владимировна, кандидат психологических наук, старший научный сотрудник, Федеральный исследовательский центр “Информатика и управление” Российской академии наук (ФИЦ ИУ РАН), Москва, Россия, ORCID: https://orcid.org/0000-0001-9306-1280, e-mail: nchudova@gmail.com

Метрики

Просмотров

Всего: 863
В прошлом месяце: 19
В текущем месяце: 5

Скачиваний

Всего: 453
В прошлом месяце: 4
В текущем месяце: 1