Пт. Мар 29th, 2024

Предлагаемая математическая методология сентимент-анализа биомедицинских текстов имеет непосредственное отношение к проблеме различения «научных» и «псевдонаучных» текстов. В традиционной философии науки имеются особые критерии разграничения научного от ненаучного (псевдонаучного) и, прежде всего, критерий фальсифицируемости известного австрийского философа науки К.Р. Поппера. Согласно последнему, утверждение относится к области науки тогда и только тогда, когда существует возможность его экспериментального опровержения с использованием доступного в настоящее время научного инструментария. Если эксперт использует критерий фальсифицируемости и помещает в класс К1 тексты, удовлетворяющие данному критерию (соответственно, в класс К2 помещаются тексты, не удовлетворяющие этому критерию), то формулы (1−3) позволяют «обучать» алгоритмы для решения задачи классификации «научных» и «псевдонаучных» текстов.

К.Р. Поппер достаточно мягко относился к проблеме псевдонаучных публикаций («…наука часто ошибается, и псевдонаука может случайно натолкнуться на истину»). Тем не менее, для здравомыслящего ученого очевидна недопустимость использования излишне эмоциональных и уж тем более манипулятивных и пропагандистских языковых конструкций (сентиментов) в тексте научной статьи. В настоящем исследовании мы считаем, что преобладание такого рода сентиментов косвенно указывает на псевдонаучность и даже лженаучность соответствующего текста – ведь излишняя эмоциональность (1) ассоциирована с нарушениями правил логики, (2) может отражать скрываемый конфликт интересов, (3) указывает на необъективность индивидуума, пишущего такой текст. Эти факторы не могут не провоцировать и формирование заведомо ложных утверждений в рамках соответствующего текста, и нарушения принципа фальсифицируемости. Поэтому сформулированные выше количественные оценки сентимент-качества текстов (β1…β16 в таблице 1,  и ) могут интерпретироваться как количественные оценки научности/псевдонаучности текстов в соответствии со следующими критериями:

  • Изложение научного результата должно использовать конструктивную лексику (β14) , содержать хотя бы какие-нибудь положительные результаты (β3) и проводиться на основе специальной терминологии соответствующей научной области (β2);
  • Излишне депрессивный эмоциональный фон текста (, β4, β8, β13) несовместим с конструктивным изложением результатов (β14);
  • Эмоциональный фон научного текста должен быть нейтральным (β129~0) или слегка положительным (>0, что интуитивно ясно, так как настоящий исследователь всегда радуется новому открытию);
  • Направленная манипуляция эмоциями (характерная, в частности, для ретрагированных исследований, β7) абсолютно недопустима;
  • Научный текст не может содержать языковых конструкций пропагандистского характера (β5) или конструкций, указывающих выраженное «личное отношение», в особенности эмоциональное приятие/неприятие обсуждаемого результата (β8);
  • Изложение научного результата не может содержать манипулятивных приемов изложения (β1), в т.ч. используемых при вербовке прозелитов тоталитарных сект (β11), в работе некоммерческих организаций (НКО) являющихся иноагентами (β6), при организации массовых митингов (β5) или массовых беспорядков (β10);
  • Манипулятивные языковые конструкции, повсеместно используемые политиками или средствами массовой информации (β15), неприемлемы для научных текстов; Двуличный языковый стандарт дипломатического слэнга также недопустим (β16).

Очевидно, что значения суммарного балла >0 для текста некоторой публикации соответствуют преимущественному выполнению этих критериев, а значения <0 – преобладанию соответствующих негативных и неконструктивных сентиментов в тексте соответствующей публикации по биомедицине. Заметим, что разработанная система алгоритмов была обширно апробирована ранее при проведении многочисленных систематических анализов литературы по различным аспектам фундаментальной и клинической медицины и показала свою практическую эффективность.

от tty135