Пн. Ноя 30th, 2020

На основе топологического и метрического подходов к анализу сложных данных разработаны алгоритмы сентимент-анализа текстов. Был проведен анализ 20 млн текстов публикаций в рецензируемых журналах, зарегистрированных в Web of Science и представленных в базе данных PUBMED. Большинство текстов публикаций, индексируемых в Pubmed (более 80%), характеризуются положительными значениями β-балла. Иначе говоря, доля лженаучных (псевдонаучных) публикаций в исследованной выборке текстов не превышает 20%. Этот факт соответствует приемлемому качеству подавляющего числа публикаций в Pubmed и еще раз показывает, что Pubmed – ценнейший ресурс для поиска информации по фундаментальной медицине, клинической медицине и по смежным областям (науки о живых системах).

Около 18,5% публикаций в Pubmed (3,68 млн из 19,92 млн) все же характеризовались отрицательными значениями β-балла (рис. 1). Интересно отметить, что наибольшим вкладом в отрицательное значение β-балла этих публикаций вносили «сектантская» лексика (β11=6,18), негативные сентименты (β13=4,92) и манипулятивная лексика (β1=4,24). «Сектантская» лексика включала, в частности, конструкции, основанные на терминах, подразумевающих подавление воли адептов секты, в т.ч. наведение жесткой дисциплины тоталитарного характера и нетерпимость к «уклонистам» («personnel must be», «necessary to use», «aberrations», «mandatory», «staff management», «staff clearance», «training program», «mental training» и др.). Конечно, по отдельности такие термины могут встречаться и в профессионально написанных статьях по тренировке медицинского персонала или по психологии. Однако определенные сочетания этих терминов, наряду с избыточно частым их употреблением, распознаются разработанными алгоритмами анализа текстов как языковые шаблоны, характерные для менеджмента адептов тоталитарных сект, а вовсе не для тренировки медицинского персонала.

Рисунок 1. Вклад различных негативных сентиментов в формирование отрицательных значений β-балла для 3,68 млн из 19,92 млн публикаций в Pubmed. Длины прямоугольников на нижней полосе пропорциональны значениям соответствующих β-баллов (см. табл. 1).

Удивительно, что лингвистические конструкции на основе терминов явно публицистического характера (которые к тому же широко используются организаторами массовых беспорядков − балл β10 в таблице) также нередко встречаются в предположительно «научной» литературе (β10=2,89): «resistance forces» (силы сопротивления), «political» в сочетании с «repressions» (политические репрессии), «struggle against» (борьба против [режима]), «attack» в связке с «military» (атаковать/атакуйте военнослужащих) и т.п. При этом в статье могут обсуждаться вовсе не какие-то военные операции или явно противоправные действия, а, казалось бы, совершенно другие темы.

Негативные сентименты (β13=4.92) также были весьма типичны для текстов с <0. Действительно, чрезмерно частое употребление конструкций на основе таких словосочетаний как «waste» (понапрасну), «is poorly» ([есть] плохо), «the worst» (наихудшее), «poor quality» (очень низкого качества), «a worse» (еще хуже), «zero potential» (нулевой потенциал), «has to avoid» (до́лжно избегать) и др. может целенаправленно настраивать эмоции читателя такого текста на негативное отношение к затрагиваемой в тексте публикации научной теме.

от tty135