Кластеризация и многоступенчатый семантический анализ научных текстов

49

Аннотация

На сегодняшний день многие проблемы компетентностного подхода остаются не решенными как в методологическом и методическом плане, так и в плане организации деятельности и создания соответствующих технологий. Для формирования научно-исследовательских компетенций университета соответствующие сведения о проектах, научных работах и специализации сотрудников университета необходимо собирать и обрабатывать, что в современных условиях при большом разнообразии научных направлений и количестве отдельных работ и проектов требует создания специализированной информационной системы. Задача выявления компетенций сотрудников научной организации может быть решена путем кластеризации текстов их научных работ.

Общая информация

Ключевые слова: информационная система, научно-исследовательская компетенция, база данных, семантика

Рубрика издания: Краткие сообщения

Тип материала: краткое сообщение

DOI: https://doi.org/10.17759/mda.2022120408

Получена: 19.11.2022

Принята в печать:

Для цитаты: Исаков С.С. Кластеризация и многоступенчатый семантический анализ научных текстов // Моделирование и анализ данных. 2022. Том 12. № 4. С. 105–109. DOI: 10.17759/mda.2022120408

Полный текст

Постановка задачи

Известно, что перед высшей профессиональной школой сегодня поставлена задача подготовки выпускников к проведению научных исследований, что в терминах компетентностного подхода звучит как формирование научно-исследовательской компетентности.

На сегодняшний день многие проблемы компетентностного подхода остаются не решенными как в методологическом и методическом плане, так и в плане организации деятельности и создания соответствующих технологий. Научно-исследовательские компетенции университета в первую очередь определяются составом его сотрудников, преподавателями и научными работниками, которые могут осуществлять различные научно-исследовательские работы на должном уровне. Поэтому научно-исследовательские компетенции университета, по-видимому, следует и можно определять по тем проектам и научно-исследовательским работам, которые осуществляет университет с учетом общей квалификации его научного персонала (образования и специализации сотрудников). При этом профессиональная направленность этих компетенций так или иначе связана с известными научными специальностями научных сотрудников. Для формирования научно-исследовательских компетенций университета соответствующие сведения о проектах, научных работах и специализации сотрудников университета необходимо собирать и обрабатывать, что в современных условиях при большом разнообразии научных направлений и количестве отдельных работ и проектов требует создания специализированной информационной системы.

Цель работы по созданию веб-ресурса для формирования научно-исследовательских компетенций заключалась в разработке компьютерной информационной системы для определения научно-исследовательских компетенций МГППУ и планирования научной деятельности высшего учебного заведения с функциями частичной автоматизации формирования описаний научно-исследовательских компетенций.

Задачи проекта включали: анализ вопросов формализации описаний научно-исследовательских компетенций; определение функциональных требований к ИС и составление технического задания на разработку ИС; синтаксический и семантический анализ структуры и алгоритмизация отношений между составляющими научно-исследовательских компетенций; разработка механизмов реляционной базы данных научной специализации и научно-исследовательских работ и проектов университета; синтаксический и семантический анализ структуры и алгоритмизация отношений между составляющими научно-исследовательских компетенций; разработка механизмов реляционной базы данных научной специализации и научно-исследовательских работ и проектов университета; разработка алгоритмов автоматизации формирования описаний научно-исследовательских компетенций.

Такая информационная система может обеспечить систематизацию, упорядочение и автоматизацию сведений о научно-исследовательских компетенциях университета и упрощение работы с этой информацией, даст возможность лучше координировать и планировать дальнейшую научно-исследовательскую деятельность университета и осуществлять экспертизу постановки новых научных задач, позволит провести рекламу и продвижение проектов университета. Это в результате может дать университету необходимые конкурентные преимущества на рынке. В настоящее время стандартных информационных систем такого типа на рынке не существует, что делает проект по разработке информационной системы «научно-исследовательские компетенции университета» актуальным.

Техническая реализация

Программная реализация информационной системы представляет из себя веб-ресурс, хранящийся на сервере МГППУ. В качестве приложения-сервера используется широко распространенное приложение Apache. Система написана с использованием языков: PHP, JavaScript, CSS, HTML. В качестве приложения базы данных используется приложение MySQL. Так как разрабатываемый веб-ресурс является информационной системой сложной структуры, то для разработки используется фреймворк Laravel, включающий в себя фреймворк Symfony.

В качестве языка представления шаблонов графических HTML элементов в системе используется язык Twig. Гибкое и эффективное взаимодействие с базой данных совершается с использованием библиотеки Eloquent. Вся передача данных внутри системы и от сервера к клиентскому приложению производится на языке структуризации данных JSON. В целом архитектура приложения создана на шаблоне проектирования MVC (Model View Controller).

Шаблон проектирования MVC предполагает разделение данных приложения, пользовательского интерфейса и управляющей логики на три отдельных компонента: Модель, Представление и Контроллер – таким образом, что модификация каждого компонента может осуществляться независимо. Такой систематизированный подход позволяет в достаточной степени и с наилучшей эффективностью использовать концепцию объектно-ориентированного программирования, основанную на представлении программы в виде совокупности объектов, каждый из которых является экземпляром определённого класса, а классы образуют иерархию наследования.

Математическая модель

Задача выявления компетенций сотрудников научной организации может быть решена путем кластеризации текстов их научных работ. При этом необходимо учитывать наличие у сотрудников утвержденной научной квалификации и их распределение по научным специальностям соответствующей номенклатуры. Наиболее простой вариант решения задачи сводится к формализованному представлению текстов с последующей оценкой их семантической близости. Связь представлений текстов и научных специальностей представляется матрицей в метрике TF-IDF.

Предлагаемый подход предполагает вычисление оценок согласованности документов с ключевыми фрагментами описаний научных специальностей. Размерность пространства, в котором представлены эти тексты, понижается с помощью сингулярного разложения матриц в метрике TF-IDF. Это обеспечивает понижение размерности задачи и удаление несущественной информации. Последующее многомерное шкалирование позволяет получить представления научных текстов в пространстве малой размерности, что является исходными данными для последующей кластеризации. Сингулярное разложение матрицы, связывающей сотрудников и кластеры научных текстов, с последующим многомерным шкалированием позволяет выполнить кластеризацию носителей компетенций.

Литература

1.           Андреев А.В., Митрофанова О.А., Соколов К.В. Введение в формальную семантику. СПб.: СПбГУ. РИО. Филол. фак., 2014. 88 с.

Информация об авторах

Исаков Сергей Сергеевич, преподаватель, аспирант, факультет информационных технологий, ФГБОУ ВО «Московский государственный психолого-педагогический университет» (ФГБОУ ВО МГППУ), Москва, Россия, ORCID: https://orcid.org/0000-0003-1719-2355, e-mail: isakovss@mgppu.ru

Метрики

Просмотров

Всего: 162
В прошлом месяце: 10
В текущем месяце: 5

Скачиваний

Всего: 49
В прошлом месяце: 4
В текущем месяце: 0