Пн. Ноя 30th, 2020

Сентименты

Было изучено 16 классов текстов и построены соответствующие алгоритмы для распознавания этих классов (табл. 1). В результате обучения алгоритмов на коллекции из 2529638 текстов были выделены 7116 языковых конструкций, являющихся наиболее информативными лингвистическими признаками, позволяющими с достаточной точностью распознавать исследованные классы текстов (среднее значение площади под кривой работы алгоритма – 0,88).

Таблица 1. Классы текстов с сентиментами, изученные в настоящем исследовании.

Классы текстов N AUC m β-балл
1 Манипулятивные обороты 12201 0,90 74 β1, βманип.
2 Адекватное изложение клинических результатов 15827 0,87 25 β2, βклин.
3 Положительные результаты 14394 0,84 13 β3, βполж.
4 Безрезультатные исследования 5672 0,96 16 β4, βотриц.
5 Пропаганда 14229 0,88 202 β5, βпроп.
6 Некоммерческие организации-иноагенты 4525 0,89 38 β6, βНКО
7 Подделка результатов 6733 0,83 101 β7, βотозв.
8 Негативное личное отношение 18920 0,91 132 β8, βнег.
9 Позитивное личное отношение 20992 0,92 143 β9, βпоз.
10 Сеяние раздора, агрессии, массовых беспорядков 8830 0,86 199 β10, βраздор
11 Язык тоталитарных сект 5221 0,84 783 β11, βсекта
12 Позитивный эмоциональный фон 459993 0,83 1790 β12, βпоз.эм.
13 Негативный эмоциональный фон 475952 0,93 1117 β13, βнег.эм.
14 Конструктивный диалог 459993 0,82 2009 β14, βконстр.
15 Неконструктивный диалог 475952 0,89 113 β15, βнеконстр.
16 Дипломатический «слэнг» 530204 0,88 361 β16, βдипл.
ИТОГО 2529638 0,88 7116

Примечание. N − число текстов в обучающей выборке; AUC − площадь под кривой, как оценка точности алгоритма в кросс-валидации; m − общее число выявленных наиболее информативных признаков (языковых конструкций, сентиментов); β-балл − обозначения соответствующего β-балла (см. текст).

В качестве источников обучающих выборок были использованы собственные выборки текстов, накопленные авторами за последние 20 лет исследований (адекватное изложение клинических результатов, положительные результаты исследований, безрезультатные исследования, пропаганда, публикации с установленной фальсификацией результатов, данные о публикациях в Pubmed, поддержанных некоммерческими организациями-иноагентами, официально зарегистрированными в госдепартаментах соответствующих стран, информация с сайтов www.state.gov, www.ngoadvisor.net др.), тексты из англоязычных ресурсов, приводимых в монографиях (см. ссылки здесь) и на сайте www.earthnewspapers.com (манипулятивные обороты, тоталитарные секты, раздор, агрессия, пропаганда), а также публично доступные интернет-ресурсы, контент которых представлялось возможным использовать для проведения сентимент-анализа , в т.ч. базы данных сообщений из ресурсов Twitter, IMDB, Wikileaks и др. (эмоциональный фон, конструктивность дискурса, дипломатический «слэнг»). Полученные алгоритмы отличались достаточно высокой точностью (AUC=0,88; 95% ДИ: 0,82−0,96) и, в среднем, позволяют идентифицировать 90% текстов с соответствующими сентиментами с ложнопозитивными определениями всего в 8−15%.

Общая балльная оценка текста каждого исследования  вычислялась как разность между значением балльной оценки «положительных» сентиментов β+= β23+β9+β1214 и балльной оценкой «отрицательных» сентиментов β1456781011131516 (см. табл. 1).