Пн. Ноя 30th, 2020

Анализ PUBMED

На основании разработанных алгоритмов проведен анализ массива из 19918308 публикаций, найденных в базе данных Pubmed по запросу «(1970 [Date − Publication]: 2019 [Date − Publication])». Массив включал аннотированные публикации в англоязычных рецензируемых научных журналах с полным текстом абстракта. Анализ этого массива текстов был проведен с использованием современных методов машинного обучения, основанных на топологической теории сентимент-анализа (то есть анализа эмоциональной модальности текста), развиваемой в рамках алгебраического подхода к распознаванию и классификации.

Была изучена встречаемость 16 классов сентиментов (манипулятивные обороты речи, пропаганда, негативное личное отношение, и др. (см. таблицу 1)). В течение всего этого периода количество публикаций с низким показателем сентимент-качества (β-балл текста ниже нуля, что соответствует преобладанию манипулятивных и негативных сентиментов) росло гораздо медленнее, чем общее число публикаций в Pubmed (рис. 1).

Рисунок 1. Динамика публикаций в Pubmed, в т.ч. публикаций с отрицательным β-баллом.

Визуальный анализ распределений значений β-балла (рис. 2) показывает, что полученный результат весьма позитивен, ведь большинство текстов публикаций, индексируемых в Pubmed (более 80%), характеризуются положительными значениями β-балла.

Рисунок 2. Эмпирическая функция распределения (э.ф.р.) значений β-балла по 19,9 млн публикаций в Pubmed: А) Плотность вероятности э.ф.р.; Б) Интегральная форма э.ф.р.

Анализ распределения значений β+ и β(рис. 3) показывает, что большинство исследований (более 90%, включая некоторые из исследований со значениями <0) характеризуются низкими значениями и балла β+, и балла β. Иначе говоря, большинство исследований в Pubmed практически не содержат манипулятивных или эмоционально перегруженных конструкций, будь то положительные или отрицательные эмоциональные коннотации. Этот факт соответствует приемлемому качеству подавляющего числа публикаций в Pubmed и еще раз показывает, что Pubmed – ценнейший ресурс для поиска информации по фундаментальной медицине, клинической медицине и по смежным областям (науки о живых системах).

Рисунок 3. Распределение значений β+ и βпо 19,9 млн публикаций в Pubmed (вид сверху). Цветовая шкала отображает число публикаций с соответствующими значениями позитивных (балл β+) и манипулятивных (балл β) языковых конструкций. Очевидно преобладание статей с достаточно малыми значениями β+ и β (0…6 баллов).

Литература

Торшин И.Ю., Громова О.А., Стаховская Л.В., Ванчакова Н.П., Галустян А.Н., Кобалава Ж.Д., Гришина Т.Р., Громов А.Н., Иловайская И.А., Коденцова В.М., Калачева А.Г., Лиманова О.А., Максимов В.А., Малявская С.И., Мозговая Е.В., Тапильская Н.И., Рудаков К.В., Семенов В.А. Анализ 19,9 млн публикаций базы данных PubMed/MEDLINE методами искусственного интеллекта: подходы к обобщению накопленных данных и феномен “fake news”. ФАРМАКОЭКОНОМИКА. Современная фармакоэкономика и фармакоэпидемиология. 2020;13(2):146-163. https://doi.org/10.17749/2070-4909/farmakoekonomika.2020.021