На основе топологического и метрического подходов к анализу сложных данных разработаны алгоритмы сентимент-анализа текстов. Был проведен анализ 20 млн текстов публикаций в рецензируемых журналах, зарегистрированных в Web of Science и представленных в базе данных PUBMED. Большинство текстов публикаций, индексируемых в Pubmed (более 80%), характеризуются положительными значениями β-балла. Иначе говоря, доля лженаучных (псевдонаучных) публикаций в исследованной выборке текстов не превышает 20%. Этот факт соответствует приемлемому качеству подавляющего числа публикаций в Pubmed и еще раз показывает, что Pubmed – ценнейший ресурс для поиска информации по фундаментальной медицине, клинической медицине и по смежным областям (науки о живых системах).
Около 18,5% публикаций в Pubmed (3,68 млн из 19,92 млн) все же характеризовались отрицательными значениями β-балла (рис. 1). Интересно отметить, что наибольшим вкладом в отрицательное значение β-балла этих публикаций вносили «сектантская» лексика (β11=6,18), негативные сентименты (β13=4,92) и манипулятивная лексика (β1=4,24). «Сектантская» лексика включала, в частности, конструкции, основанные на терминах, подразумевающих подавление воли адептов секты, в т.ч. наведение жесткой дисциплины тоталитарного характера и нетерпимость к «уклонистам» («personnel must be», «necessary to use», «aberrations», «mandatory», «staff management», «staff clearance», «training program», «mental training» и др.). Конечно, по отдельности такие термины могут встречаться и в профессионально написанных статьях по тренировке медицинского персонала или по психологии. Однако определенные сочетания этих терминов, наряду с избыточно частым их употреблением, распознаются разработанными алгоритмами анализа текстов как языковые шаблоны, характерные для менеджмента адептов тоталитарных сект, а вовсе не для тренировки медицинского персонала.
Рисунок 1. Вклад различных негативных сентиментов в формирование отрицательных значений β-балла для 3,68 млн из 19,92 млн публикаций в Pubmed. Длины прямоугольников на нижней полосе пропорциональны значениям соответствующих β-баллов (см. табл. 1).
Удивительно, что лингвистические конструкции на основе терминов явно публицистического характера (которые к тому же широко используются организаторами массовых беспорядков − балл β10 в таблице) также нередко встречаются в предположительно «научной» литературе (β10=2,89): «resistance forces» (силы сопротивления), «political» в сочетании с «repressions» (политические репрессии), «struggle against» (борьба против [режима]), «attack» в связке с «military» (атаковать/атакуйте военнослужащих) и т.п. При этом в статье могут обсуждаться вовсе не какие-то военные операции или явно противоправные действия, а, казалось бы, совершенно другие темы.
Негативные сентименты (β13=4.92) также были весьма типичны для текстов с <0. Действительно, чрезмерно частое употребление конструкций на основе таких словосочетаний как «waste» (понапрасну), «is poorly» ([есть] плохо), «the worst» (наихудшее), «poor quality» (очень низкого качества), «a worse» (еще хуже), «zero potential» (нулевой потенциал), «has to avoid» (до́лжно избегать) и др. может целенаправленно настраивать эмоции читателя такого текста на негативное отношение к затрагиваемой в тексте публикации научной теме.
Литература
Торшин И.Ю., Громова О.А., Стаховская Л.В., Ванчакова Н.П., Галустян А.Н., Кобалава Ж.Д., Гришина Т.Р., Громов А.Н., Иловайская И.А., Коденцова В.М., Калачева А.Г., Лиманова О.А., Максимов В.А., Малявская С.И., Мозговая Е.В., Тапильская Н.И., Рудаков К.В., Семенов В.А. Анализ 19,9 млн публикаций базы данных PubMed/MEDLINE методами искусственного интеллекта: подходы к обобщению накопленных данных и феномен “fake news”. ФАРМАКОЭКОНОМИКА. Современная фармакоэкономика и фармакоэпидемиология. 2020;13(2):146-163. https://doi.org/10.17749/2070-4909/farmakoekonomika.2020.021