Сентименты – ANTIFAKE: what's the news?

Было изучено 16 классов текстов и построены соответствующие алгоритмы для распознавания этих классов (табл. 1). В результате обучения алгоритмов на коллекции из 2529638 текстов были выделены 7116 языковых конструкций, являющихся наиболее информативными лингвистическими признаками, позволяющими с достаточной точностью распознавать исследованные классы текстов (среднее значение площади под кривой работы алгоритма – 0,88).

Таблица 1. Классы текстов с сентиментами, изученные в настоящем исследовании.

№	Классы текстов	N	AUC	m	β-балл
1	Манипулятивные обороты	12201	0,90	74	β₁, βманип.
2	Адекватное изложение клинических результатов	15827	0,87	25	β₂, βклин.
3	Положительные результаты	14394	0,84	13	β₃, βполж.
4	Безрезультатные исследования	5672	0,96	16	β₄, βотриц.
5	Пропаганда	14229	0,88	202	β₅, βпроп.
6	Некоммерческие организации-иноагенты	4525	0,89	38	β₆, βНКО
7	Подделка результатов	6733	0,83	101	β₇, βотозв.
8	Негативное личное отношение	18920	0,91	132	β₈, βнег.
9	Позитивное личное отношение	20992	0,92	143	β₉, βпоз.
10	Сеяние раздора, агрессии, массовых беспорядков	8830	0,86	199	β₁₀, βраздор
11	Язык тоталитарных сект	5221	0,84	783	β₁₁, βсекта
12	Позитивный эмоциональный фон	459993	0,83	1790	β₁₂, βпоз.эм.
13	Негативный эмоциональный фон	475952	0,93	1117	β₁₃, βнег.эм.
14	Конструктивный диалог	459993	0,82	2009	β₁₄, βконстр.
15	Неконструктивный диалог	475952	0,89	113	β₁₅, βнеконстр.
16	Дипломатический «слэнг»	530204	0,88	361	β₁₆, βдипл.
ИТОГО		2529638	0,88	7116	−

Примечание. N − число текстов в обучающей выборке; AUC − площадь под кривой, как оценка точности алгоритма в кросс-валидации; m − общее число выявленных наиболее информативных признаков (языковых конструкций, сентиментов); β-балл − обозначения соответствующего β-балла (см. текст).

В качестве источников обучающих выборок были использованы собственные выборки текстов, накопленные авторами за последние 20 лет исследований (адекватное изложение клинических результатов, положительные результаты исследований, безрезультатные исследования, пропаганда, публикации с установленной фальсификацией результатов, данные о публикациях в Pubmed, поддержанных некоммерческими организациями-иноагентами, официально зарегистрированными в госдепартаментах соответствующих стран, информация с сайтов www.state.gov, www.ngoadvisor.net др.), тексты из англоязычных ресурсов, приводимых в монографиях (см. ссылки здесь) и на сайте www.earthnewspapers.com (манипулятивные обороты, тоталитарные секты, раздор, агрессия, пропаганда), а также публично доступные интернет-ресурсы, контент которых представлялось возможным использовать для проведения сентимент-анализа , в т.ч. базы данных сообщений из ресурсов Twitter, IMDB, Wikileaks и др. (эмоциональный фон, конструктивность дискурса, дипломатический «слэнг»). Полученные алгоритмы отличались достаточно высокой точностью (AUC=0,88; 95% ДИ: 0,82−0,96) и, в среднем, позволяют идентифицировать 90% текстов с соответствующими сентиментами с ложнопозитивными определениями всего в 8−15%.

Общая балльная оценка текста каждого исследования (бета-балл) вычислялась как разность между значением балльной оценки «положительных» сентиментов β₊= β₂+β₃₊β₉₊β₁₂+β₁₄ и балльной оценкой «отрицательных» сентиментов β_–=β₁+β₄+β₅+β₆+β₇+β₈+β₁₀+β₁₁+β₁₃+β₁₅+β₁₆(см. табл. 1).