Было изучено 16 классов текстов и построены соответствующие алгоритмы для распознавания этих классов (табл. 1). В результате обучения алгоритмов на коллекции из 2529638 текстов были выделены 7116 языковых конструкций, являющихся наиболее информативными лингвистическими признаками, позволяющими с достаточной точностью распознавать исследованные классы текстов (среднее значение площади под кривой работы алгоритма – 0,88).
Таблица 1. Классы текстов с сентиментами, изученные в настоящем исследовании.
№ | Классы текстов | N | AUC | m | β-балл |
1 | Манипулятивные обороты | 12201 | 0,90 | 74 | β1, βманип. |
2 | Адекватное изложение клинических результатов | 15827 | 0,87 | 25 | β2, βклин. |
3 | Положительные результаты | 14394 | 0,84 | 13 | β3, βполж. |
4 | Безрезультатные исследования | 5672 | 0,96 | 16 | β4, βотриц. |
5 | Пропаганда | 14229 | 0,88 | 202 | β5, βпроп. |
6 | Некоммерческие организации-иноагенты | 4525 | 0,89 | 38 | β6, βНКО |
7 | Подделка результатов | 6733 | 0,83 | 101 | β7, βотозв. |
8 | Негативное личное отношение | 18920 | 0,91 | 132 | β8, βнег. |
9 | Позитивное личное отношение | 20992 | 0,92 | 143 | β9, βпоз. |
10 | Сеяние раздора, агрессии, массовых беспорядков | 8830 | 0,86 | 199 | β10, βраздор |
11 | Язык тоталитарных сект | 5221 | 0,84 | 783 | β11, βсекта |
12 | Позитивный эмоциональный фон | 459993 | 0,83 | 1790 | β12, βпоз.эм. |
13 | Негативный эмоциональный фон | 475952 | 0,93 | 1117 | β13, βнег.эм. |
14 | Конструктивный диалог | 459993 | 0,82 | 2009 | β14, βконстр. |
15 | Неконструктивный диалог | 475952 | 0,89 | 113 | β15, βнеконстр. |
16 | Дипломатический «слэнг» | 530204 | 0,88 | 361 | β16, βдипл. |
ИТОГО | 2529638 | 0,88 | 7116 | − |
Примечание. N − число текстов в обучающей выборке; AUC − площадь под кривой, как оценка точности алгоритма в кросс-валидации; m − общее число выявленных наиболее информативных признаков (языковых конструкций, сентиментов); β-балл − обозначения соответствующего β-балла (см. текст).
В качестве источников обучающих выборок были использованы собственные выборки текстов, накопленные авторами за последние 20 лет исследований (адекватное изложение клинических результатов, положительные результаты исследований, безрезультатные исследования, пропаганда, публикации с установленной фальсификацией результатов, данные о публикациях в Pubmed, поддержанных некоммерческими организациями-иноагентами, официально зарегистрированными в госдепартаментах соответствующих стран, информация с сайтов www.state.gov, www.ngoadvisor.net др.), тексты из англоязычных ресурсов, приводимых в монографиях (см. ссылки здесь) и на сайте www.earthnewspapers.com (манипулятивные обороты, тоталитарные секты, раздор, агрессия, пропаганда), а также публично доступные интернет-ресурсы, контент которых представлялось возможным использовать для проведения сентимент-анализа , в т.ч. базы данных сообщений из ресурсов Twitter, IMDB, Wikileaks и др. (эмоциональный фон, конструктивность дискурса, дипломатический «слэнг»). Полученные алгоритмы отличались достаточно высокой точностью (AUC=0,88; 95% ДИ: 0,82−0,96) и, в среднем, позволяют идентифицировать 90% текстов с соответствующими сентиментами с ложнопозитивными определениями всего в 8−15%.
Общая балльная оценка текста каждого исследования (бета-балл) вычислялась как разность между значением балльной оценки «положительных» сентиментов β+= β2+β3+β9+β12+β14 и балльной оценкой «отрицательных» сентиментов β–=β1+β4+β5+β6+β7+β8+β10+β11+β13+β15+β16 (см. табл. 1).