logo
Журнал «Синтез доказательств»  Телеграм-канал @evidence_synthesis
Публикации Уровни подписки Контакты О проекте Фильтры Метки Контакты Поделиться
О проекте
Телеграм-канал @evidence_synthesis — единственное издание на русском языке, посвященное систематическим обзорам и другим обзорам литературы.
Термин «evidence synthesis» малоизвестен за пределами медицины, но набирает популярность. А еще есть «proof synthesis».
Если не указано иное, контент публичных постов распространяется по лицензии CC BY-SA 4.0
Публикации, доступные бесплатно
Уровни подписки
У проекта в настоящий момент нет открытых подписок
Фильтры
Обновления проекта
Читать: 15+ мин
logo Журнал «Синтез доказательств»

Методы извлечения признаков для ранжирования документов по релевантности

Павел ‎Желнов

Текст‏ ‎сгенерирован ‎8 ‎апреля ‎2025 ‎г.‏ ‎с ‎помощью‏ ‎Gemini‏ ‎2.0 ‎Flash ‎по‏ ‎моим ‎запросам,‏ ‎итеративно ‎отредактирован ‎по ‎дополнительным‏ ‎запросам‏ ‎через ‎Canvas, после‏ ‎чего ‎вручную‏ ‎вычитан ‎и ‎доредактирован ‎мной.

1. Введение ‎в‏ ‎ранжирование‏ ‎текстов ‎в‏ ‎синтезах ‎доказательств

1.1. Почему‏ ‎это ‎важно?

В ‎основе ‎классических ‎подходов‏ ‎к‏ ‎автоматизации‏ ‎скрининга ‎в‏ ‎синтезах ‎доказательств‏ ‎лежит ‎задача‏ ‎ранжирования‏ ‎текстов ‎по‏ ‎релевантности. ‎Синтезы ‎доказательств ‎— ‎это‏ ‎процесс ‎исчерпывающего‏ ‎выявления,‏ ‎критической ‎оценки ‎и‏ ‎обобщения ‎результатов‏ ‎исследований ‎по ‎определенной ‎теме.‏ ‎Традиционно‏ ‎этот ‎процесс‏ ‎требует ‎больших‏ ‎затрат ‎времени ‎и ‎усилий, ‎так‏ ‎как‏ ‎исследователям ‎приходится‏ ‎вручную ‎просматривать‏ ‎множество ‎научных ‎публикаций.

1.2. Применение ‎машинного ‎обучения

Для‏ ‎облегчения‏ ‎этой‏ ‎задачи ‎применяются‏ ‎методы ‎машинного‏ ‎обучения, ‎которые‏ ‎позволяют‏ ‎автоматизировать ‎процесс‏ ‎отбора ‎наиболее ‎релевантных ‎исследований. ‎Машинное‏ ‎обучение ‎—‏ ‎это‏ ‎современный ‎вариант ‎статистики,‏ ‎где ‎вычисления‏ ‎производятся ‎не ‎вручную, ‎а‏ ‎с‏ ‎использованием ‎вычислительных‏ ‎методов ‎и‏ ‎с ‎полным ‎задействованием ‎возможностей ‎современных‏ ‎компьютеров.‏ ‎Машинное ‎обучение‏ ‎лежит ‎и‏ ‎в ‎основе ‎нейросетей ‎и ‎современного‏ ‎искусственного‏ ‎интеллекта,‏ ‎включая ‎нейросети‏ ‎трансформер-архитектуры ‎(например,‏ ‎большие ‎языковые‏ ‎модели),‏ ‎а ‎также‏ ‎диффузионки, ‎GAN ‎и ‎нейросети ‎других‏ ‎архитектур ‎(применения:‏ ‎компьютерное‏ ‎зрение, ‎генерация ‎картинок,‏ ‎автономные ‎роботы).

1.3. Современные‏ ‎подходы ‎к ‎автоматизированному ‎скринингу

Re-ranking.‏ ‎В‏ ‎современных ‎решениях,‏ ‎применимых ‎к‏ ‎автоматизированному ‎скринингу, ‎часто ‎используется ‎многоэтапный‏ ‎подход.‏ ‎Сначала ‎методы‏ ‎машинного ‎обучения‏ ‎используются ‎для ‎ранжирования ‎всех ‎доступных‏ ‎документов‏ ‎(например,‏ ‎научных ‎статей)‏ ‎в ‎порядке‏ ‎убывания ‎их‏ ‎вероятной‏ ‎релевантности ‎теме‏ ‎обзора. ‎Затем, ‎на ‎втором ‎этапе‏ ‎(реранжирование, ‎re-ranking), применяются‏ ‎более‏ ‎сложные ‎методы ‎для‏ ‎уточнения ‎порядка‏ ‎релевантности ‎среди ‎небольшого ‎подмножества‏ ‎документов,‏ ‎отобранных ‎на‏ ‎первом ‎этапе.

RAG.‏ ‎Также ‎здесь ‎могут ‎применяться ‎методы‏ ‎генерации,‏ ‎дополненной ‎поиском‏ ‎(Retrieval ‎Augmented‏ ‎Generation, ‎RAG). ‎RAG ‎предполагает, ‎что‏ ‎большая‏ ‎языковая‏ ‎модель ‎не‏ ‎только ‎генерирует‏ ‎текст, ‎но‏ ‎и‏ ‎обращается ‎к‏ ‎внешним ‎источникам ‎информации ‎(например, ‎базе‏ ‎данных) ‎для‏ ‎получения‏ ‎дополнительных ‎знаний, ‎которые‏ ‎затем ‎используются‏ ‎при ‎генерации. ‎Это ‎позволяет‏ ‎повысить‏ ‎точность ‎и‏ ‎полноту ‎ответов‏ ‎модели.

Агенты. ‎Кроме ‎того, ‎в ‎последнее‏ ‎время‏ ‎все ‎большее‏ ‎внимание ‎привлекают‏ ‎агентные ‎системы, ‎выводящие ‎идею ‎RAG‏ ‎на‏ ‎новый‏ ‎уровень. ‎В‏ ‎таких ‎системах‏ ‎компьютерная ‎программа,‏ ‎помимо‏ ‎использования ‎методов‏ ‎машинного ‎обучения, ‎получает ‎возможность ‎выполнять‏ ‎и ‎другие‏ ‎операции,‏ ‎такие ‎как ‎поиск‏ ‎в ‎базах‏ ‎данных ‎или ‎в ‎интернете,‏ ‎и‏ ‎использовать ‎результаты‏ ‎этих ‎операций‏ ‎для ‎принятия ‎решений. ‎Это ‎позволяет‏ ‎создавать‏ ‎более ‎гибкие‏ ‎и ‎мощные‏ ‎системы, ‎способные ‎самостоятельно ‎находить ‎и‏ ‎обрабатывать‏ ‎информацию‏ ‎из ‎различных‏ ‎источников.

1.4. Состояние ‎дел‏ ‎в ‎синтезе‏ ‎доказательств

Практических‏ ‎решений ‎для‏ ‎автоматизации ‎скрининга ‎в ‎синтезах ‎доказательств‏ ‎с ‎использованием‏ ‎наиболее‏ ‎инновационных ‎технологий, ‎таких‏ ‎как ‎RAG‏ ‎и ‎агенты, ‎в ‎настоящее‏ ‎время‏ ‎в ‎широком‏ ‎доступе ‎не‏ ‎существует, ‎но ‎мы, ‎исследователи ‎в‏ ‎сфере‏ ‎методов ‎синтезов‏ ‎доказательств, ‎работаем‏ ‎в ‎этом ‎направлении)

1.5. Процесс ‎ранжирования

До ‎ранжирования. См.‏ ‎ниже‏ ‎(«Предобработка‏ ‎текста»).

Само ‎ранжирование‏ ‎(не ‎разбирается‏ ‎в ‎статье).‏ ‎После‏ ‎представления ‎исходных‏ ‎текстов ‎в ‎виде ‎«фич» ‎(см.‏ ‎об ‎этом‏ ‎ниже),‏ ‎производится ‎их ‎пересортировка‏ ‎по ‎релевантности‏ ‎(в ‎один ‎или ‎несколько‏ ‎этапов)‏ ‎— ‎как‏ ‎уже ‎отмечалось,‏ ‎это ‎и ‎есть ‎ранжирование. ‎Какие‏ ‎именно‏ ‎методы ‎применяются‏ ‎для ‎ранжирования,‏ ‎мы ‎не ‎будем ‎разбирать ‎в‏ ‎этой‏ ‎статье,‏ ‎чтобы ‎сконцентрироваться‏ ‎на ‎этапе‏ ‎представления ‎текста.

После‏ ‎ранжирования‏ ‎может ‎происходить‏ ‎классификация ‎документов ‎по ‎интересующим ‎категориям,‏ ‎например ‎«включить»‏ ‎или‏ ‎«исключить» ‎(либо ‎кластеризация‏ ‎с ‎определением‏ ‎категорий ‎на ‎основе ‎данных,‏ ‎если‏ ‎это ‎необходимо).

Human‏ ‎in ‎the‏ ‎loop. Чтобы ‎ускорить ‎процесс ‎отбора ‎после‏ ‎ранжирования,‏ ‎может ‎устанавливаться‏ ‎статический ‎или‏ ‎динамический ‎порог. Все ‎документы, ‎набранные ‎выше‏ ‎этого‏ ‎порога,‏ ‎считаются ‎релевантными‏ ‎и ‎включаются‏ ‎в ‎обзор,‏ ‎а‏ ‎остальные ‎исключаются из‏ ‎дальнейшего ‎рассмотрения. ‎Такой ‎подход ‎позволяет‏ ‎значительно ‎сократить‏ ‎объем‏ ‎ручной ‎работы, ‎необходимой‏ ‎для ‎проведения‏ ‎синтеза ‎доказательств, ‎путем ‎автоматического‏ ‎исключения‏ ‎большей ‎части‏ ‎нерелевантных ‎документов,‏ ‎при ‎этом ‎сохраняя ‎«человека ‎в‏ ‎цикле»‏ ‎(human ‎in‏ ‎the ‎loop),‏ ‎то ‎есть ‎позволяя ‎сохранить ‎полный‏ ‎контроль над‏ ‎происходящим‏ ‎(полуавтоматизированный скрининг).

2. Предобработка ‎текста

Предобработка‏ ‎текста ‎—‏ ‎это ‎процесс‏ ‎подготовки‏ ‎текста ‎к‏ ‎извлечению ‎признаков ‎и ‎последующему ‎ранжированию.‏ ‎Он ‎может‏ ‎включать‏ ‎в ‎себя ‎различные‏ ‎шаги, ‎такие‏ ‎как:

  • Удаление ‎HTML-разметки. ‎Удаление ‎тегов‏ ‎и‏ ‎других ‎элементов,‏ ‎которые ‎не‏ ‎являются ‎частью ‎фактического ‎текста.
  • Удаление ‎специальных‏ ‎символов.‏ ‎Удаление ‎символов,‏ ‎которые ‎не‏ ‎являются ‎буквами, ‎цифрами ‎или ‎знаками‏ ‎препинания.
  • Приведение‏ ‎к‏ ‎нижнему ‎регистру.‏ ‎Преобразование ‎всего‏ ‎текста ‎в‏ ‎нижний‏ ‎регистр, ‎чтобы‏ ‎слова ‎«Привет» ‎и ‎«привет» ‎считались‏ ‎одинаковыми.
  • Удаление ‎стоп-слов. Удаление‏ ‎часто‏ ‎встречающихся ‎слов, ‎которые‏ ‎обычно ‎не‏ ‎несут ‎большого ‎смысла, ‎таких‏ ‎как‏ ‎«и», ‎«в»‏ ‎и ‎«на».
  • Токенизация. Разделение‏ ‎текста ‎на ‎отдельные ‎единицы, ‎называемые‏ ‎токенами.‏ ‎Это ‎очень‏ ‎важно, ‎поэтому‏ ‎выношу ‎ее ‎в ‎отдельный ‎раздел‏ ‎для‏ ‎подробного‏ ‎разбора.

3. Токенизация

Токенизация ‎—‏ ‎это ‎процесс‏ ‎разделения ‎текста‏ ‎на‏ ‎более ‎мелкие‏ ‎единицы, ‎называемые ‎токенами. ‎Токены ‎могут‏ ‎быть ‎отдельными‏ ‎словами,‏ ‎частями ‎слов ‎или‏ ‎знаками ‎препинания.‏ ‎Смысл ‎токенизации ‎заключается ‎в‏ ‎том,‏ ‎что ‎мы‏ ‎готовы ‎отказаться‏ ‎от ‎человекоугодных, ‎общепринятых ‎принципов ‎разделения‏ ‎слов‏ ‎(по ‎словам,‏ ‎буквам) ‎в‏ ‎угоду ‎машинной ‎модели, ‎чтобы ‎ей‏ ‎удобнее‏ ‎было‏ ‎делать ‎свое‏ ‎дело. ‎Способ‏ ‎разделения ‎текста‏ ‎на‏ ‎токены ‎зависит‏ ‎от ‎конкретного ‎используемого ‎токенизатора ‎и‏ ‎правил, ‎которые‏ ‎он‏ ‎применяет.

Вот ‎некоторые ‎основные‏ ‎сценарии ‎токенизации:

  • Простая‏ ‎токенизация ‎на ‎основе ‎пробелов.‏ ‎Разделение‏ ‎текста ‎на‏ ‎токены ‎по‏ ‎пробелам ‎и ‎знакам ‎препинания. ‎Например,‏ ‎«Hello,‏ ‎world!» ‎→‏ ‎[«Hello,», ‎«world!»]. Это‏ ‎быстрый ‎и ‎простой ‎метод, ‎используемый‏ ‎по‏ ‎умолчанию‏ ‎во ‎многих‏ ‎инструментах ‎(включая‏ ‎TfidfVectorizer в ‎scikit-learn‏ ‎с‏ ‎его ‎стандартным‏ ‎token_pattern).
  • Токенизация ‎с ‎учетом ‎пунктуации. ‎Разделение‏ ‎текста ‎с‏ ‎сохранением‏ ‎знаков ‎препинания ‎в‏ ‎качестве ‎отдельных‏ ‎токенов. ‎Это ‎может ‎быть‏ ‎важно‏ ‎для ‎задач,‏ ‎где ‎пунктуация‏ ‎несет ‎смысл ‎(например, ‎анализ ‎тональности).
  • Токенизация‏ ‎для‏ ‎языков ‎без‏ ‎пробелов. ‎В‏ ‎языках, ‎таких ‎как ‎китайский, ‎японский‏ ‎и‏ ‎корейский,‏ ‎слова ‎не‏ ‎разделяются ‎пробелами.‏ ‎Токенизация ‎требует‏ ‎использования‏ ‎специальных ‎алгоритмов‏ ‎и ‎словарей ‎для ‎идентификации ‎границ‏ ‎слов. ‎Например,‏ ‎предложение‏ ‎«我爱北京天安门» ‎(Я ‎люблю‏ ‎площадь ‎Тяньаньмэнь‏ ‎в ‎Пекине) ‎должно ‎быть‏ ‎токенизировано‏ ‎как ‎[«我»,‏ ‎«爱», ‎«北京»,‏ ‎«天安门»].
  • Лемматизация ‎и ‎стемминг. Приведение ‎слов ‎к‏ ‎их‏ ‎базовой ‎форме.‏ ‎Лемматизация ‎использует‏ ‎словарь ‎и ‎морфологический ‎анализ ‎для‏ ‎нахождения‏ ‎леммы‏ ‎слова ‎(например,‏ ‎«пошел» ‎→‏ ‎«пойти»), сохраняя ‎при‏ ‎этом‏ ‎смысл. ‎Стемминг‏ ‎— ‎это ‎более ‎простой ‎процесс,‏ ‎который ‎отбрасывает‏ ‎окончания‏ ‎слов ‎(например, ‎«слова»‏ ‎→ ‎«слов»),‏ ‎иногда ‎жертвуя ‎точностью.
  • Мультимодальные ‎эмбеддинги.‏ ‎Хотя‏ ‎это ‎не‏ ‎совсем ‎метод‏ ‎токенизации, ‎это ‎продвинутый ‎способ ‎представления‏ ‎слов,‏ ‎который ‎выходит‏ ‎за ‎рамки‏ ‎простого ‎текста. ‎Мультимодальные ‎эмбеддинги ‎объединяют‏ ‎текстовую‏ ‎информацию‏ ‎с ‎другими‏ ‎типами ‎данных,‏ ‎таких ‎как‏ ‎изображения‏ ‎или ‎аудио,‏ ‎для ‎создания ‎более ‎богатых ‎и‏ ‎контекстуализированных ‎представлений‏ ‎слов.‏ ‎Например, ‎представление ‎слова‏ ‎«кошка» ‎может‏ ‎быть ‎обогащено ‎визуальными ‎признаками‏ ‎кошки,‏ ‎что ‎позволяет‏ ‎модели ‎лучше‏ ‎понимать ‎концепцию ‎«кошки».

4. Введение ‎в ‎извлечение‏ ‎признаков‏ ‎из ‎текста

Фича-экстракция. После‏ ‎того, ‎как‏ ‎предобработка ‎и ‎токенизация ‎завершены, ‎производится‏ ‎собственно‏ ‎«извлечение‏ ‎признаков» ‎(feature‏ ‎extraction). ‎Этим‏ ‎термином ‎называется‏ ‎процесс‏ ‎перевода ‎исходных‏ ‎данных ‎(в ‎данном ‎случае ‎текста)‏ ‎в ‎нечто,‏ ‎поддающееся‏ ‎или ‎лучше ‎поддающееся‏ ‎анализу ‎или‏ ‎машинному ‎обучению.

Магия ‎механизма ‎внимания‏ ‎в‏ ‎трансформерах. ‎В‏ ‎сущности, ‎с‏ ‎применением ‎современных ‎методов ‎искусственного ‎интеллекта,‏ ‎а‏ ‎именно ‎передовых‏ ‎больших ‎языковых‏ ‎моделей ‎(таких ‎как ‎ChatGPT), ‎перевод‏ ‎текста‏ ‎в‏ ‎какую-то ‎специальную‏ ‎форму ‎уже‏ ‎не ‎требуется‏ ‎и‏ ‎даже ‎может‏ ‎навредить, ‎так ‎как ‎эти ‎модели‏ ‎лучше ‎всего‏ ‎натренированы‏ ‎именно ‎на ‎работу‏ ‎с ‎текстом‏ ‎в ‎его ‎естественном ‎виде.‏ ‎За‏ ‎счет ‎так‏ ‎называемого ‎механизма‏ ‎внимания, ‎предусмотренного ‎в ‎архитектуре ‎нейросетей-трансформеров‏ ‎(легендарная‏ ‎статья ‎Attention‏ ‎Is ‎All‏ ‎You ‎Need 2017 года ‎с ‎175 тыс. ‎цитирований в‏ ‎Google‏ ‎Scholar),‏ ‎к ‎которым‏ ‎и ‎относятся‏ ‎большие ‎языковые‏ ‎модели,‏ ‎они ‎умеют‏ ‎очень ‎чутко ‎улавливать ‎контекст. ‎Таким‏ ‎образом, ‎при‏ ‎использовании‏ ‎этих ‎моделей ‎для‏ ‎ранжирования ‎или‏ ‎скрининга ‎статей ‎в ‎синтезах‏ ‎доказательств‏ ‎им ‎передается‏ ‎сразу ‎предобработанный‏ ‎(или ‎даже ‎вовсе ‎«сырой», ‎как‏ ‎есть)‏ ‎текст.

Мультимодальные ‎трансформеры.‏ ‎При ‎этом‏ ‎за ‎счет ‎мультимодальности ‎(то ‎есть‏ ‎способности‏ ‎работать‏ ‎со ‎входными‏ ‎данными ‎разных‏ ‎модальностей, ‎а‏ ‎не‏ ‎только ‎текстом‏ ‎— ‎например, ‎еще ‎и ‎с‏ ‎изображениями), ‎топовые‏ ‎большие‏ ‎языковые ‎модели ‎могут‏ ‎подчас ‎отлично‏ ‎справляться ‎даже ‎с ‎необработанными‏ ‎PDF-файлами,‏ ‎содержащими ‎вперемешку‏ ‎изображения ‎и‏ ‎тексты ‎— ‎даже ‎сложной ‎структуры‏ ‎и‏ ‎верстки. ‎Это‏ ‎сейчас ‎очень‏ ‎бурно ‎эволюционирующая ‎область, ‎и ‎готовых‏ ‎решений‏ ‎для‏ ‎синтезов ‎доказательств‏ ‎опять ‎же‏ ‎пока ‎особо‏ ‎нет.

Классические‏ ‎методы. Таким ‎образом,‏ ‎откатим ‎немного ‎назад ‎и ‎посмотрим‏ ‎на ‎сравнение‏ ‎более‏ ‎классических ‎методов ‎извлечения‏ ‎признаков ‎из‏ ‎текста ‎с ‎упором ‎на‏ ‎их‏ ‎ключевые ‎характеристики.‏ ‎Результатом ‎всех‏ ‎этих ‎методик ‎является ‎некий ‎массив‏ ‎(вектор,‏ ‎матрица, ‎тензор)‏ ‎чисел, ‎сгенерированных‏ ‎на ‎основании ‎исходного ‎текста.

Разреженность ‎и‏ ‎плотность‏ ‎векторов.‏ ‎В ‎литературе‏ ‎по ‎машинному‏ ‎обучению ‎можно‏ ‎часто‏ ‎встретить ‎данные‏ ‎термины. ‎Вектор, ‎в ‎котором ‎большинство‏ ‎значений ‎равны‏ ‎нулю,‏ ‎называется ‎разреженным (sparse), ‎а‏ ‎вектор, ‎в‏ ‎котором ‎большинство ‎значений ‎отличны‏ ‎от‏ ‎нуля, ‎называется‏ ‎плотным (dense). ‎Таким‏ ‎образом, ‎это ‎просто ‎характеристика ‎вектора‏ ‎в‏ ‎зависимости ‎от‏ ‎нашпигованности ‎его‏ ‎ненулевыми ‎значениями: ‎чем ‎их ‎больше,‏ ‎тем‏ ‎плотнее.‏ ‎Разреженные ‎вектора‏ ‎за ‎счет‏ ‎этого ‎более‏ ‎компактны‏ ‎(как ‎бы‏ ‎парадоксально ‎это ‎ни ‎прозвучало), ‎занимают‏ ‎меньше ‎места‏ ‎в‏ ‎памяти.

Дополнительно ‎можно ‎столкнуться‏ ‎с ‎термином‏ ‎уплощение ‎(flattening): ‎это ‎когда‏ ‎массив‏ ‎с ‎большим‏ ‎количеством ‎измерений‏ ‎«сплющивают» ‎до ‎одного ‎измерения, ‎например‏ ‎как‏ ‎если ‎бы‏ ‎все ‎строки‏ ‎одной ‎таблицы ‎переписать ‎одну ‎за‏ ‎другой‏ ‎в‏ ‎один ‎ряд.‏ ‎Уплощение ‎может‏ ‎понадобиться, ‎если‏ ‎модель‏ ‎принимает ‎на‏ ‎вход ‎только ‎одномерный ‎массив ‎(то‏ ‎есть ‎список‏ ‎или‏ ‎вектор), ‎а ‎входной‏ ‎признак ‎—‏ ‎многомерный ‎(например, ‎матрица ‎или‏ ‎тензор).

5. Сравнение‏ ‎методов ‎извлечения‏ ‎признаков ‎из‏ ‎текста

5.1. Мешок ‎слов ‎(Bag ‎of ‎Words,‏ ‎BoW)

  • Представление:‏ ‎Подсчитывает ‎частоту‏ ‎встречаемости ‎токенов‏ ‎в ‎документе, ‎игнорируя ‎порядок ‎токенов.
  • Порядок‏ ‎слов:‏ ‎Нет.
  • Контекст:‏ ‎Нет.
  • Разреженность: ‎Высокая‏ ‎(в ‎основном‏ ‎разреженные ‎векторы).
  • Преимущества:‏ ‎Простота,‏ ‎легкость ‎реализации,‏ ‎вычислительная ‎эффективность.
  • Недостатки: ‎Игнорирует ‎семантику, ‎не‏ ‎учитывает ‎важность‏ ‎токенов,‏ ‎чувствителен ‎к ‎размеру‏ ‎словаря.

5.2. N-граммы

  • Представление: ‎Последовательности‏ ‎из ‎N ‎последовательных ‎токенов‏ ‎(например,‏ ‎униграммы, ‎биграммы,‏ ‎триграммы).
  • Порядок ‎слов:‏ ‎Учитывает ‎локальный ‎порядок ‎токенов.
  • Контекст: ‎Ограниченный‏ ‎локальный‏ ‎контекст.
  • Разреженность: ‎Высокая,‏ ‎но ‎меньше,‏ ‎чем ‎у ‎BoW ‎(особенно ‎для‏ ‎больших‏ ‎N).
  • Преимущества:‏ ‎Учитывает ‎некоторый‏ ‎контекст, ‎лучше‏ ‎BoW ‎для‏ ‎некоторых‏ ‎задач.
  • Недостатки: ‎По-прежнему‏ ‎не ‎учитывает ‎длинные ‎зависимости, ‎разреженность‏ ‎увеличивается ‎с‏ ‎N.

5.3. TF-IDF‏ ‎(Term ‎Frequency ‎—‏ ‎Inverse ‎Document‏ ‎Frequency)

  • Представление: ‎Взвешивает ‎частоту ‎встречаемости‏ ‎токенов‏ ‎в ‎документе‏ ‎(term ‎frequency‏ ‎— ‎TF) ‎по ‎обратной ‎частоте‏ ‎документа‏ ‎(inverse ‎document‏ ‎frequency ‎—‏ ‎IDF).
  • Порядок ‎слов: ‎Нет.
  • Контекст: ‎Нет.
  • Разреженность: ‎Высокая‏ ‎(в‏ ‎основном‏ ‎разреженные ‎векторы).
  • Преимущества:‏ ‎Лучше ‎BoW‏ ‎за ‎счет‏ ‎снижения‏ ‎веса ‎общих‏ ‎токенов, ‎легко ‎реализуется.
  • Недостатки: ‎Игнорирует ‎семантику,‏ ‎не ‎учитывает‏ ‎порядок‏ ‎токенов.

5.4. Инвертированный ‎индекс

  • Представление: ‎Структура‏ ‎данных, ‎которая‏ ‎сопоставляет ‎токены ‎с ‎документами,‏ ‎в‏ ‎которых ‎они‏ ‎встречаются. ‎По‏ ‎сути, ‎словарь, ‎где ‎ключи ‎—‏ ‎термины,‏ ‎а ‎значения‏ ‎— ‎списки‏ ‎идентификаторов ‎документов.
  • Порядок ‎слов: ‎Нет ‎или‏ ‎да‏ ‎(в‏ ‎зависимости ‎от‏ ‎реализации).
  • Контекст: ‎Нет.
  • Разреженность:‏ ‎Не ‎применимо‏ ‎(это‏ ‎структура ‎данных,‏ ‎а ‎не ‎векторное ‎представление).
  • Преимущества: ‎Очень‏ ‎эффективен ‎для‏ ‎поиска‏ ‎документов, ‎фундаментален ‎для‏ ‎поисковых ‎систем.
  • Недостатки:‏ ‎Не ‎представляет ‎содержание ‎документа‏ ‎в‏ ‎виде, ‎подходящем‏ ‎для ‎машинного‏ ‎обучения. ‎Приведен ‎здесь ‎для ‎контраста.

5.5. Простые‏ ‎векторные‏ ‎представления ‎слов‏ ‎(например, ‎Word2Vec,‏ ‎GloVe)

  • Представление: ‎Слова ‎сопоставляются ‎с ‎плотными‏ ‎векторами‏ ‎низкой‏ ‎размерности, ‎которые‏ ‎отражают ‎семантические‏ ‎отношения ‎(бесконтекстные‏ ‎эмбеддинги).
  • Порядок‏ ‎слов: ‎Косвенно,‏ ‎в ‎той ‎мере, ‎в ‎какой‏ ‎контекст ‎влияет‏ ‎на‏ ‎процесс ‎векторного ‎представления‏ ‎(эмбеддинга).
  • Контекст: ‎Отражает‏ ‎семантический ‎контекст ‎(смысл ‎слова),‏ ‎но‏ ‎не ‎грамматические‏ ‎или ‎синтаксические‏ ‎связи.
  • Разреженность: ‎Низкая ‎(плотные ‎векторы).
  • Преимущества: ‎Отражает‏ ‎семантическое‏ ‎значение, ‎обрабатывает‏ ‎синонимию, ‎снижает‏ ‎размерность.
  • Недостатки: ‎Может ‎быть ‎вычислительно ‎дорогим‏ ‎в‏ ‎обучении,‏ ‎может ‎не‏ ‎отражать ‎все‏ ‎нюансы ‎языка.

5.6. Непрерывный‏ ‎мешок‏ ‎слов ‎(Continuous‏ ‎Bag ‎of ‎Words, ‎CBOW)

  • Представление: ‎Предсказывает‏ ‎целевое ‎слово‏ ‎на‏ ‎основе ‎окружающего ‎контекста.‏ ‎Изучает ‎векторное‏ ‎представление ‎слов ‎в ‎процессе.
  • Порядок‏ ‎слов:‏ ‎Использует ‎контекст,‏ ‎но ‎сами‏ ‎контекстные ‎слова ‎рассматриваются ‎как ‎мешок‏ ‎(без‏ ‎порядка).
  • Контекст: ‎Да,‏ ‎использует ‎окружающие‏ ‎слова.
  • Разреженность: ‎Низкая ‎(плотные ‎векторы)
  • Преимущества: ‎Вычислительная‏ ‎эффективность,‏ ‎отражает‏ ‎семантические ‎отношения.
  • Недостатки:‏ ‎Порядок ‎контекстных‏ ‎слов ‎не‏ ‎учитывается.

5.7. Пропуск‏ ‎слова ‎(Skip-gram)

  • Представление:‏ ‎Предсказывает ‎окружающие ‎слова ‎из ‎целевого‏ ‎слова. ‎Изучает‏ ‎внедрение‏ ‎слов.
  • Порядок ‎слов: ‎Использует‏ ‎контекст, ‎но‏ ‎сами ‎контекстные ‎слова ‎предсказываются‏ ‎независимо.
  • Контекст:‏ ‎Да, ‎использует‏ ‎окружающие ‎слова.
  • Разреженность:‏ ‎Низкая ‎(плотные ‎векторы)
  • Преимущества: ‎Эффективен ‎с‏ ‎небольшими‏ ‎наборами ‎данных,‏ ‎отражает ‎семантические‏ ‎отношения.
  • Недостатки: ‎Может ‎быть ‎более ‎вычислительно‏ ‎дорогим,‏ ‎чем‏ ‎CBOW.

5.8. Трансформеры ‎(например,‏ ‎BERT, ‎GPT)

  • Представление:‏ ‎Контекстуализированные ‎векторные‏ ‎представления‏ ‎слов, ‎где‏ ‎представление ‎слова ‎зависит ‎от ‎всего‏ ‎предложения ‎(контекстные‏ ‎эмбеддинги),‏ ‎либо ‎статического ‎представления‏ ‎вообще ‎нет‏ ‎по ‎причине ‎того, ‎что‏ ‎представления‏ ‎генерируются ‎«на‏ ‎лету» ‎в‏ ‎зависимости ‎от ‎заданного ‎запроса ‎(относительное‏ ‎реранжирование).
  • Порядок‏ ‎слов: ‎Да,‏ ‎по ‎своей‏ ‎сути.
  • Контекст: ‎Богатый, ‎отражает ‎длинные ‎зависимости.
  • Разреженность:‏ ‎Низкая‏ ‎(плотные‏ ‎векторы).
  • Преимущества: ‎Современная‏ ‎производительность ‎во‏ ‎многих ‎задачах‏ ‎обработки‏ ‎естественного ‎языка,‏ ‎отражает ‎сложные ‎языковые ‎закономерности.
  • Недостатки: ‎Дороже‏ ‎в ‎вычислительном‏ ‎отношении,‏ ‎сложнее ‎в ‎обучении‏ ‎и ‎использовании.

6. Заключение

В‏ ‎этой ‎статье ‎мы ‎рассмотрели‏ ‎основные‏ ‎методы ‎представления‏ ‎текста, ‎используемые‏ ‎в ‎задачах, ‎связанных ‎с ‎обработкой‏ ‎естественного‏ ‎языка, ‎и‏ ‎обсудили ‎их‏ ‎применимость ‎для ‎автоматизации ‎скрининга ‎в‏ ‎синтезах‏ ‎доказательств.‏ ‎Мы ‎увидели,‏ ‎что ‎современные‏ ‎большие ‎языковые‏ ‎модели‏ ‎обладают ‎значительным‏ ‎потенциалом ‎для ‎упрощения ‎и ‎ускорения‏ ‎этого ‎процесса,‏ ‎но‏ ‎требуют ‎дальнейших ‎исследований‏ ‎и ‎разработок‏ ‎для ‎широкого ‎практического ‎применения.


Читать: 38+ мин
logo Журнал «Синтез доказательств»

Критерии причинности и контрфактические утверждения: не более (и не менее) чем научный здравый смысл

Карл ‎В.‏ ‎Филлипс, ‎Карен ‎Дж. ‎Гудман

Источник: ‎Emerg‏ ‎Themes ‎Epidemiol.‏ ‎2006;‏ ‎3:5. ‎doi: ‎https://doi.org/10.1186/1742-7622-3-5 (опубликовано‏ ‎26 ‎мая‏ ‎2006 ‎г.).

Данная ‎статья ‎с‏ ‎открытым‏ ‎доступом ‎распространяется‏ ‎в ‎соответствии‏ ‎с ‎условиями ‎лицензии ‎Creative ‎Commons‏ ‎Attribution‏ ‎License ‎(CC‏ ‎BY ‎2.0), которая‏ ‎разрешает ‎неограниченное ‎использование, ‎распространение ‎и‏ ‎воспроизведение‏ ‎на‏ ‎любом ‎носителе‏ ‎при ‎условии‏ ‎правильного ‎цитирования‏ ‎оригинальной‏ ‎работы.

Переведено ‎4‏ ‎апреля ‎2025 ‎г. ‎при ‎помощи‏ ‎Google ‎Gemini‏ ‎1.5‏ ‎Pro ‎на ‎нулевой‏ ‎температуре. ‎Системные‏ ‎инструкции ‎взяты ‎отсюда.

Аннотация

Два ‎устойчивых‏ ‎мифа‏ ‎в ‎эпидемиологии‏ ‎заключаются ‎в‏ ‎том, ‎что ‎мы ‎можем ‎использовать‏ ‎список‏ ‎«причинных ‎критериев»‏ ‎для ‎алгоритмического‏ ‎подхода ‎к ‎выводу ‎причинно-следственных ‎связей‏ ‎и‏ ‎что‏ ‎современная ‎«контрфактическая‏ ‎модель» ‎может‏ ‎помочь ‎в‏ ‎том‏ ‎же ‎начинании.‏ ‎Мы ‎утверждаем, ‎что ‎это ‎не‏ ‎критерии ‎и‏ ‎не‏ ‎модель, ‎а ‎списки‏ ‎причинных ‎соображений и‏ ‎формализации ‎контрфактического ‎определения причинности, ‎тем‏ ‎не‏ ‎менее, ‎являются‏ ‎полезными ‎инструментами‏ ‎для ‎развития ‎научного ‎мышления. ‎Они‏ ‎направляют‏ ‎нас ‎на‏ ‎путь ‎здравого‏ ‎смысла ‎научного ‎исследования, ‎включая ‎проверку‏ ‎гипотез‏ ‎(действительно‏ ‎подвергая ‎их‏ ‎испытанию, ‎а‏ ‎не ‎просто‏ ‎рассчитывая‏ ‎упрощенную ‎статистику),‏ ‎решение ‎проблемы ‎Дюгема-Куайна ‎и ‎избежание‏ ‎многих ‎распространенных‏ ‎ошибок.‏ ‎Таким ‎образом, ‎известные‏ ‎соображения ‎Остина‏ ‎Брэдфорда ‎Хилла ‎чрезмерно ‎интерпретируются‏ ‎теми,‏ ‎кто ‎использует‏ ‎их ‎в‏ ‎качестве ‎критериев, ‎и ‎недооцениваются ‎теми,‏ ‎кто‏ ‎считает ‎их‏ ‎ошибочными. ‎Аналогичным‏ ‎образом, ‎формализации ‎контрфактических ‎утверждений ‎недооцениваются‏ ‎как‏ ‎уроки‏ ‎базового ‎научного‏ ‎мышления. ‎Потребность‏ ‎в ‎уроках‏ ‎научного‏ ‎здравого ‎смысла‏ ‎велика ‎в ‎эпидемиологии, ‎которая ‎преподается‏ ‎в ‎основном‏ ‎как‏ ‎инженерная ‎дисциплина ‎и‏ ‎практикуется ‎в‏ ‎основном ‎как ‎выполнение ‎технических‏ ‎задач,‏ ‎что ‎делает‏ ‎внимание ‎к‏ ‎основным ‎принципам ‎научного ‎исследования ‎крайне‏ ‎редким.

Введение

Интересный‏ ‎устойчивый ‎миф‏ ‎в ‎эпидемиологии‏ ‎заключается ‎в ‎том, ‎что ‎Остин‏ ‎Брэдфорд‏ ‎Хилл,‏ ‎комитет, ‎подготовивший‏ ‎первый ‎отчет‏ ‎главного ‎хирурга‏ ‎США‏ ‎о ‎курении,‏ ‎Мервин ‎Сассер ‎или ‎другие ‎авторы,‏ ‎предоставили ‎нам‏ ‎набор‏ ‎критериев ‎для ‎определения‏ ‎причинно-следственных ‎связей.‏ ‎Это ‎представление ‎удивительно ‎устойчиво,‏ ‎учитывая,‏ ‎что ‎эти‏ ‎списки ‎явно‏ ‎не ‎соответствуют ‎обычным ‎определениям ‎критериев,‏ ‎которые‏ ‎подразумевают ‎какое-то‏ ‎правило ‎или‏ ‎тест. ‎Даже ‎когда ‎авторы, ‎ссылающиеся‏ ‎на‏ ‎«критерии‏ ‎Брэдфорда ‎Хилла»,‏ ‎уступают ‎критике‏ ‎различных ‎авторов‏ ‎(включая‏ ‎нас ‎[1])‏ ‎и ‎послушно ‎используют ‎слово ‎Хилла‏ ‎— ‎«соображения»‏ ‎—‏ ‎вместо ‎«критерии», ‎они,‏ ‎похоже, ‎все‏ ‎еще ‎находятся ‎в ‎поисках‏ ‎неуловимых‏ ‎критериев.

Более ‎свежий‏ ‎миф ‎заключается‏ ‎в ‎том, ‎что ‎существует ‎некая‏ ‎«контрфактическая‏ ‎модель», ‎которая‏ ‎может ‎помочь‏ ‎нам ‎лучше ‎распознавать ‎и ‎понимать‏ ‎причинность‏ ‎в‏ ‎эпидемиологии. ‎Так‏ ‎же, ‎как‏ ‎причинные ‎критерии‏ ‎не‏ ‎являются ‎критериями,‏ ‎формальное ‎представление ‎контрфактических ‎утверждений ‎не‏ ‎соответствует ‎определению‏ ‎модели,‏ ‎которую ‎можно ‎рассматривать‏ ‎как ‎схему‏ ‎или ‎представление, ‎отражающее ‎часть‏ ‎сущности‏ ‎более ‎сложной‏ ‎системы ‎таким‏ ‎образом, ‎что ‎возникают ‎новые ‎свойства.

На‏ ‎этих‏ ‎страницах ‎Хёфлер‏ ‎[2] ‎поставил‏ ‎перед ‎собой ‎цель ‎попытаться ‎лучше‏ ‎понять‏ ‎соображения‏ ‎Хилла ‎[3],‏ ‎обратившись ‎к‏ ‎контрфактической ‎модели.‏ ‎Как‏ ‎можно ‎предположить‏ ‎из ‎вышесказанного, ‎мы ‎не ‎считаем‏ ‎это ‎перспективным‏ ‎занятием.‏ ‎Мы ‎утверждаем, ‎что‏ ‎причинные ‎соображения‏ ‎и ‎концептуализация ‎контрфактических ‎утверждений‏ ‎полезны,‏ ‎но ‎не‏ ‎таким ‎образом,‏ ‎чтобы ‎поддерживать ‎анализ, ‎подобный ‎анализу‏ ‎Хёфлера.‏ ‎Тем ‎не‏ ‎менее, ‎Хёфлер‏ ‎дает, ‎возможно, ‎лучшую ‎однострочную ‎оценку‏ ‎концепции‏ ‎причинных‏ ‎критериев ‎и‏ ‎изящно ‎(хотя,‏ ‎возможно, ‎непреднамеренно)‏ ‎помогает‏ ‎обосновать ‎тезис‏ ‎о ‎том, ‎что ‎причинные ‎соображения‏ ‎и ‎контрфактические‏ ‎утверждения‏ ‎— ‎это, ‎прежде‏ ‎всего, ‎ориентиры‏ ‎на ‎пути ‎к ‎здравому‏ ‎смыслу.

Анализ

Не‏ ‎критерии

«Критерии» ‎иногда‏ ‎определяются ‎слишком‏ ‎широко, ‎включая ‎все, ‎о ‎чем‏ ‎вы,‏ ‎возможно, ‎захотите‏ ‎подумать ‎при‏ ‎принятии ‎решения ‎(то ‎есть ‎как‏ ‎синоним‏ ‎«соображений»).‏ ‎Но ‎большинство‏ ‎определений ‎включает‏ ‎ссылку ‎на‏ ‎тест,‏ ‎основу ‎для‏ ‎суждения ‎или ‎условие ‎(и ‎любой,‏ ‎кто ‎пытается‏ ‎«применить»‏ ‎набор ‎критериев ‎для‏ ‎принятия ‎решения,‏ ‎должен ‎иметь ‎в ‎виду‏ ‎такое‏ ‎определение). ‎Очевидно,‏ ‎что ‎причинные‏ ‎соображения ‎не ‎соответствуют ‎этим ‎более‏ ‎строгим‏ ‎определениям ‎критериев.‏ ‎Не ‎существует‏ ‎метода ‎для ‎определения ‎того, ‎выполняется‏ ‎ли‏ ‎каждое‏ ‎соображение ‎и‏ ‎насколько ‎хорошо‏ ‎(например, ‎исследователи,‏ ‎кажется,‏ ‎могут ‎придумать‏ ‎какую-нибудь ‎биологическую ‎историю, ‎чтобы ‎объяснить‏ ‎любую ‎ассоциацию‏ ‎в‏ ‎своих ‎данных; ‎насколько‏ ‎абсурдной ‎она‏ ‎должна ‎быть, ‎прежде ‎чем‏ ‎биологическая‏ ‎правдоподобность ‎исчезнет?),‏ ‎не ‎говоря‏ ‎уже ‎о ‎том, ‎как ‎мы‏ ‎будем‏ ‎агрегировать ‎такие‏ ‎оценки ‎для‏ ‎отдельных ‎соображений ‎в ‎окончательное ‎решение‏ ‎о‏ ‎причине‏ ‎и ‎следствии.‏ ‎Это, ‎как‏ ‎правило, ‎упускается‏ ‎из‏ ‎виду, ‎когда‏ ‎основная ‎критика ‎комментаторов ‎заключается ‎в‏ ‎том, ‎что‏ ‎предлагаемые‏ ‎условия ‎не ‎являются‏ ‎ни ‎необходимыми,‏ ‎ни ‎достаточными, ‎упуская ‎из‏ ‎виду‏ ‎тот ‎важный‏ ‎факт, ‎что‏ ‎они ‎на ‎самом ‎деле ‎не‏ ‎являются‏ ‎четко ‎определенными‏ ‎условиями ‎(и,‏ ‎следовательно, ‎не ‎могут ‎быть ‎ни‏ ‎необходимыми,‏ ‎ни‏ ‎достаточными, ‎ни‏ ‎не-необходимыми, ‎ни‏ ‎не-достаточными).

Учитывая ‎это,‏ ‎поучительно‏ ‎рассмотреть ‎последствия‏ ‎того, ‎что ‎авторы ‎приводят ‎практические‏ ‎примеры ‎выполнения‏ ‎причинных‏ ‎условий ‎в ‎качестве‏ ‎доказательства ‎того,‏ ‎что ‎эти ‎условия ‎являются‏ ‎либо‏ ‎информативными, ‎либо‏ ‎вводящими ‎в‏ ‎заблуждение, ‎или ‎попыток, ‎подобных ‎попыткам‏ ‎Хёфлера,‏ ‎улучшить ‎применение‏ ‎критериев. ‎Эти‏ ‎авторы ‎явно ‎имеют ‎в ‎виду‏ ‎некоторый‏ ‎стандарт‏ ‎для ‎оценки‏ ‎того, ‎выполняется‏ ‎ли ‎условие‏ ‎и‏ ‎является ‎ли‏ ‎связь ‎причинной. ‎Последняя ‎оценка ‎должна‏ ‎быть ‎независимой‏ ‎от‏ ‎критериев ‎(поскольку ‎она‏ ‎предназначена ‎для‏ ‎подтверждения ‎полезности ‎критериев) ‎и,‏ ‎что‏ ‎наиболее ‎важно,‏ ‎предположительно ‎должна‏ ‎быть ‎чем-то, ‎с ‎чем ‎согласится‏ ‎большинство‏ ‎читателей. ‎Это‏ ‎предполагает ‎наличие‏ ‎общего ‎здравого ‎смысла. ‎Пул ‎[4,5],‏ ‎вдохновленный‏ ‎Томасом‏ ‎Куном ‎[6,7],‏ ‎предполагает, ‎что‏ ‎причинные ‎соображения‏ ‎—‏ ‎это ‎не‏ ‎критерии, ‎а ‎«ценности», ‎которых ‎разные‏ ‎ученые ‎могут‏ ‎придерживаться‏ ‎в ‎разной ‎степени.‏ ‎Ценности ‎являются‏ ‎основой ‎для ‎выводов ‎о‏ ‎реальном‏ ‎мире, ‎но,‏ ‎как ‎правило,‏ ‎лишены ‎систем ‎оценки ‎и ‎других‏ ‎элементов‏ ‎алгоритмов, ‎и‏ ‎любые ‎утверждения,‏ ‎основанные ‎на ‎них, ‎подлежат ‎интерпретации‏ ‎и‏ ‎проверке.‏ ‎Действительно, ‎эмпирические‏ ‎и ‎экспериментальные‏ ‎данные, ‎цитируемые‏ ‎Пулом,‏ ‎ясно ‎показывают,‏ ‎что ‎интерпретации ‎соображений ‎эпидемиологами ‎существенно‏ ‎различаются ‎[8-14].‏ ‎Но‏ ‎споры ‎между ‎учеными‏ ‎о ‎том,‏ ‎какие ‎ценности ‎являются ‎законными,‏ ‎предполагают‏ ‎чувство, ‎что‏ ‎должен ‎существовать‏ ‎некоторый ‎общий ‎научный ‎здравый ‎смысл,‏ ‎а‏ ‎не ‎постоянная‏ ‎неоднородность ‎ценностей.

Ни‏ ‎один ‎список, ‎ни ‎список ‎Хилла,‏ ‎ни‏ ‎какой-либо‏ ‎другой, ‎не‏ ‎может ‎кодифицировать‏ ‎здравый ‎смысл,‏ ‎но‏ ‎он ‎может‏ ‎познакомить ‎с ‎некоторыми ‎его ‎аспектами‏ ‎и ‎тем‏ ‎самым‏ ‎обеспечить ‎отправную ‎точку.‏ ‎Это ‎весьма‏ ‎полезно, ‎поскольку ‎здравый ‎смысл‏ ‎тревожно‏ ‎нераспространен ‎и‏ ‎поэтому ‎нуждается‏ ‎в ‎любой ‎возможной ‎помощи. ‎Для‏ ‎исследователей,‏ ‎которые ‎не‏ ‎учитывают, ‎скажем,‏ ‎согласованность ‎между ‎исследованиями ‎или ‎соответствие‏ ‎предыдущим‏ ‎знаниям‏ ‎при ‎оценке‏ ‎причинности ‎и‏ ‎гордо ‎заявляют,‏ ‎что‏ ‎«наше ‎исследование‏ ‎впервые ‎показывает, ‎что ‎воздействие ‎E‏ ‎вызывает ‎заболевание‏ ‎D,‏ ‎вопреки ‎многочисленным ‎предыдущим‏ ‎выводам», ‎урок‏ ‎здравого ‎смысла ‎Хилла ‎имеет‏ ‎непосредственную‏ ‎ценность. ‎Внимательное‏ ‎отношение ‎к‏ ‎причинным ‎соображениям ‎Хилла ‎или ‎других‏ ‎авторов‏ ‎побудило ‎бы‏ ‎любого, ‎кто‏ ‎пишет: ‎«Наше ‎исследование ‎впервые ‎показывает‏ ‎X…»,‏ ‎добавить‏ ‎к ‎этому‏ ‎— ‎как‏ ‎они ‎почти‏ ‎всегда‏ ‎и ‎должны‏ ‎— ‎«…поэтому ‎X, ‎вероятно, ‎неверно».

Конечно,‏ ‎здравый ‎смысл‏ ‎наиболее‏ ‎полезен ‎в ‎простых‏ ‎случаях, ‎в‏ ‎то ‎время ‎как ‎моделирование‏ ‎(например,‏ ‎построение ‎диаграмм‏ ‎причинных ‎путей)‏ ‎становится ‎более ‎важным ‎по ‎мере‏ ‎усложнения‏ ‎системы. ‎Хёфлер‏ ‎отмечает, ‎что‏ ‎«эвристическая ‎ценность ‎соображений ‎Хилла ‎стремится‏ ‎к‏ ‎нулю‏ ‎по ‎мере‏ ‎увеличения ‎сложности‏ ‎причинной ‎системы‏ ‎и‏ ‎неопределенности ‎относительно‏ ‎истинной ‎причинной ‎системы» ‎[2]. ‎Это‏ ‎может ‎быть‏ ‎окончательным‏ ‎наблюдением ‎относительно ‎причинных‏ ‎критериев/соображений. ‎Если‏ ‎попытаться ‎перефразировать ‎это ‎проще,‏ ‎списки‏ ‎причинных ‎соображений‏ ‎— ‎довольно‏ ‎хорошие ‎эмпирические ‎правила, ‎когда ‎оцениваемая‏ ‎система‏ ‎проста, ‎но‏ ‎в ‎случаях,‏ ‎когда ‎оценка ‎причинности ‎требует ‎большего,‏ ‎чем‏ ‎здравый‏ ‎смысл, ‎эти‏ ‎списки ‎не‏ ‎будут ‎особенно‏ ‎полезны.‏ ‎Хёфлер ‎пытается‏ ‎улучшить ‎список ‎Хилла, ‎чтобы ‎сделать‏ ‎его ‎более‏ ‎полезным‏ ‎в ‎сложных ‎случаях,‏ ‎но ‎мы‏ ‎думаем, ‎что ‎он ‎был‏ ‎прав‏ ‎с ‎самого‏ ‎начала: ‎в‏ ‎сложной ‎системе ‎список ‎может ‎служить‏ ‎только‏ ‎инструментом ‎для‏ ‎обучения ‎научному‏ ‎здравому ‎смыслу, ‎и ‎как ‎бы‏ ‎мы‏ ‎ни‏ ‎пытались ‎его‏ ‎приукрасить, ‎он‏ ‎не ‎может‏ ‎служить‏ ‎контрольным ‎списком,‏ ‎алгоритмом ‎или ‎методом.

Не ‎модель

Использование ‎термина‏ ‎«модель» ‎в‏ ‎предыдущем‏ ‎абзаце ‎иллюстрирует ‎его‏ ‎значение. ‎Диаграммы‏ ‎причинно-следственных ‎связей ‎принимают ‎в‏ ‎качестве‏ ‎входных ‎данных‏ ‎некоторые ‎из‏ ‎известных ‎или ‎постулируемых ‎элементов ‎реальной‏ ‎системы‏ ‎причин ‎и‏ ‎следствий ‎и‏ ‎схематизируют ‎их ‎таким ‎образом, ‎что‏ ‎можно‏ ‎извлечь‏ ‎новые ‎знания‏ ‎(т. ‎е.‏ ‎выходящие ‎за‏ ‎рамки‏ ‎самих ‎входных‏ ‎данных). ‎В ‎этом ‎смысле ‎небольшая‏ ‎трехмерная ‎масштабная‏ ‎версия‏ ‎самолета ‎является ‎моделью‏ ‎(потому ‎что,‏ ‎например, ‎мы ‎можем ‎поместить‏ ‎ее‏ ‎в ‎аэродинамическую‏ ‎трубу ‎и‏ ‎узнать ‎что-то ‎о ‎реальном ‎самолете,‏ ‎чего‏ ‎мы ‎не‏ ‎знали, ‎когда‏ ‎создавали ‎модель), ‎но ‎фотография ‎самолета‏ ‎не‏ ‎является‏ ‎моделью ‎(по‏ ‎крайней ‎мере,‏ ‎не ‎в‏ ‎каком-либо‏ ‎очевидном ‎смысле).‏ ‎Фраза ‎«аппараты ‎тяжелее ‎воздуха ‎с‏ ‎неподвижным ‎крылом‏ ‎и‏ ‎собственным ‎двигателем» ‎также‏ ‎не ‎является‏ ‎моделью. ‎Эта ‎фраза ‎содержит‏ ‎информацию‏ ‎о ‎самолетах,‏ ‎но ‎иначе,‏ ‎чем ‎модель: ‎это ‎определение ‎самолетов.‏ ‎Мы‏ ‎должны ‎иметь‏ ‎в ‎виду‏ ‎эту ‎фразу ‎(или ‎какой-либо ‎ее‏ ‎вариант),‏ ‎прежде‏ ‎чем ‎вообще‏ ‎имеет ‎смысл‏ ‎говорить ‎о‏ ‎самолетах,‏ ‎не ‎говоря‏ ‎уже ‎о ‎их ‎моделировании. ‎Может‏ ‎быть ‎полезно‏ ‎обратиться‏ ‎к ‎определению, ‎если‏ ‎во ‎время‏ ‎оценки ‎самолетов ‎мы ‎каким-то‏ ‎образом‏ ‎потеряли ‎связь‏ ‎с ‎классом‏ ‎вещей, ‎о ‎которых ‎мы ‎говорим.‏ ‎Но‏ ‎определение ‎—‏ ‎это ‎не‏ ‎модель; ‎оно ‎не ‎предлагает ‎способа‏ ‎извлечь‏ ‎какую-либо‏ ‎информацию, ‎которая‏ ‎не ‎является‏ ‎просто ‎входными‏ ‎данными‏ ‎для ‎него,‏ ‎например, ‎оценить ‎летную ‎годность ‎конкретного‏ ‎самолета. ‎Действительно,‏ ‎само‏ ‎по ‎себе ‎оно‏ ‎не ‎может‏ ‎помочь ‎нам ‎определить, ‎действительно‏ ‎ли‏ ‎конкретный ‎объект‏ ‎соответствует ‎требованиям‏ ‎(например, ‎действительно ‎ли ‎он ‎может‏ ‎летать).

В‏ ‎этом ‎ключе‏ ‎то, ‎что‏ ‎многие ‎авторы, ‎включая ‎Хёфлера, ‎ошибочно‏ ‎называют‏ ‎«контрфактической‏ ‎моделью ‎причинности»,‏ ‎можно ‎легко‏ ‎рассматривать ‎как‏ ‎определение,‏ ‎а ‎не‏ ‎как ‎модель. ‎Существует ‎обширная ‎философская‏ ‎литература ‎о‏ ‎значении‏ ‎глагола ‎«вызывать» ‎(в‏ ‎том ‎числе‏ ‎когда ‎он ‎подразумевается ‎во‏ ‎многих‏ ‎других ‎глаголах‏ ‎или ‎фразах,‏ ‎таких ‎как ‎«увеличивает», ‎«приводит ‎к»‏ ‎и‏ ‎«защищает ‎от»‏ ‎[15]). ‎Эти‏ ‎дискуссии ‎включают ‎альтернативные ‎определения, ‎а‏ ‎также‏ ‎аргументы‏ ‎о ‎том,‏ ‎что ‎это‏ ‎слово ‎фактически‏ ‎не‏ ‎имеет ‎четкого‏ ‎определения. ‎Но ‎в ‎повседневном ‎практическом‏ ‎мире ‎эпидемиологии‏ ‎(области,‏ ‎которую ‎мы ‎широко‏ ‎определяем ‎как‏ ‎эмпирические ‎и ‎экспериментальные ‎исследования‏ ‎заболеваний‏ ‎и ‎связанных‏ ‎со ‎здоровьем‏ ‎воздействий, ‎где ‎человек ‎является ‎единицей‏ ‎анализа),‏ ‎мы ‎рискнем‏ ‎сказать, ‎что‏ ‎почти ‎каждый, ‎кто ‎использует ‎причинный‏ ‎язык,‏ ‎неявно‏ ‎ссылается ‎на‏ ‎контрфактическое ‎определение:‏ ‎«если ‎бы‏ ‎не‏ ‎E, ‎D‏ ‎не ‎произошло ‎бы ‎или ‎не‏ ‎случилось ‎бы,‏ ‎но‏ ‎при ‎наличии ‎E‏ ‎оно ‎произойдет/случилось‏ ‎бы» ‎(более ‎подробно ‎и‏ ‎с‏ ‎использованием ‎символической‏ ‎логики ‎описано‏ ‎Хёфлером ‎и ‎многими ‎другими ‎авторами;‏ ‎см.,‏ ‎в ‎частности,‏ ‎работу ‎Мальдонадо‏ ‎и ‎Гринленда ‎«Оценка ‎причинных ‎эффектов»‏ ‎[16]).‏ ‎Мы‏ ‎не ‎можем‏ ‎вспомнить ‎ни‏ ‎одного ‎случая‏ ‎использования‏ ‎слова ‎«причина»‏ ‎в ‎эпидемиологии ‎(в ‎исследованиях ‎и‏ ‎их ‎политических‏ ‎последствиях,‏ ‎исключая ‎чисто ‎философские‏ ‎дискуссии), ‎где‏ ‎автор, ‎казалось, ‎имел ‎в‏ ‎виду‏ ‎что-то ‎другое.

Это‏ ‎не ‎означает,‏ ‎что ‎внимательное ‎отношение ‎к ‎определению‏ ‎бесполезно.‏ ‎Мальдонадо, ‎ведущий‏ ‎сторонник ‎и‏ ‎преподаватель ‎формального ‎контрфактического ‎определения ‎в‏ ‎эпидемиологии‏ ‎и‏ ‎его ‎последствий‏ ‎(который ‎ссылается‏ ‎на ‎«контрфактический‏ ‎подход»,‏ ‎«концепцию» ‎или‏ ‎«определение», ‎но ‎не ‎на ‎«модель»),‏ ‎указал, ‎что‏ ‎оно‏ ‎помогает ‎нам, ‎среди‏ ‎прочего, ‎в‏ ‎уточнении ‎эпидемиологических ‎вопросов, ‎оценке‏ ‎того,‏ ‎какая ‎статистика‏ ‎является ‎подлинной‏ ‎мерой ‎эффекта, ‎разработке ‎исследований ‎и‏ ‎определении‏ ‎смешанных ‎факторов.‏ ‎Большая ‎часть‏ ‎этого, ‎однако, ‎возможно, ‎является ‎научным‏ ‎здравым‏ ‎смыслом‏ ‎(см. ‎дальнейшее‏ ‎обсуждение ‎ниже),‏ ‎не ‎относящимся‏ ‎к‏ ‎категории ‎«ценностей»,‏ ‎а ‎в ‎форме ‎логических ‎выводов‏ ‎первого ‎или‏ ‎второго‏ ‎порядка, ‎которые ‎ученые‏ ‎должны ‎интуитивно‏ ‎понимать. ‎Но, ‎опять ‎же,‏ ‎поскольку‏ ‎здравый ‎смысл‏ ‎может ‎быть‏ ‎крайне ‎редок, ‎формализации ‎Мальдонадо ‎и‏ ‎других‏ ‎авторов ‎ценны.

Использование‏ ‎контрфактических ‎утверждений‏ ‎в ‎поисках ‎лучших ‎причинных ‎критериев

Таким‏ ‎образом,‏ ‎мы‏ ‎согласны ‎с‏ ‎оценкой ‎Хёфлера,‏ ‎что ‎Хилл,‏ ‎вероятно,‏ ‎имел ‎в‏ ‎виду ‎контрфактическую ‎концепцию ‎— ‎определение, а‏ ‎не ‎модель‏ ‎—‏ ‎причинности ‎(сознательно ‎или‏ ‎подсознательно), ‎когда‏ ‎он ‎выступал ‎со ‎своей‏ ‎знаменитой‏ ‎(и ‎недооцененной‏ ‎[1]) ‎речью‏ ‎[3], ‎не ‎просто ‎из-за ‎какой-то‏ ‎конкретной‏ ‎использованной ‎им‏ ‎фразы, ‎а‏ ‎потому, ‎что ‎трудно ‎представить, ‎что‏ ‎еще‏ ‎он‏ ‎мог ‎иметь‏ ‎в ‎виду.‏ ‎Хотя ‎Хёфлер‏ ‎утверждает,‏ ‎что ‎«контрфактическая‏ ‎причинность ‎[предположительно, ‎имея ‎в ‎виду‏ ‎контрфактическое ‎определение‏ ‎причинности]…‏ ‎стала ‎стандартом ‎в‏ ‎эпидемиологии ‎только‏ ‎с ‎1980-х ‎годов» ‎[2],‏ ‎кажется‏ ‎очень ‎маловероятным,‏ ‎что ‎эпидемиологи‏ ‎(или ‎экономисты, ‎или ‎статистики, ‎для‏ ‎тех,‏ ‎кто ‎предпочитает‏ ‎такую ‎характеристику‏ ‎Хилла) ‎имели ‎в ‎виду ‎какое-то‏ ‎другое‏ ‎определение‏ ‎до ‎этого.‏ ‎Подобно ‎Ньютону,‏ ‎«открывшему» ‎гравитацию,‏ ‎те,‏ ‎кто ‎формализовал‏ ‎определение ‎причинности ‎в ‎философии, ‎математической‏ ‎статистике ‎и‏ ‎прикладных‏ ‎науках, ‎сделали ‎это‏ ‎в ‎контексте,‏ ‎в ‎котором ‎большинство ‎людей‏ ‎уже‏ ‎понимали ‎основную‏ ‎идею ‎и‏ ‎использовали ‎ее ‎(для ‎научных ‎выводов‏ ‎или‏ ‎чтобы ‎не‏ ‎улететь ‎в‏ ‎космос).

Поскольку ‎контрфактическая ‎концепция ‎предоставляет ‎лишь‏ ‎определение,‏ ‎которое‏ ‎Хилл ‎разделял‏ ‎с ‎большинством‏ ‎из ‎нас,‏ ‎кажется‏ ‎маловероятным, ‎что‏ ‎она ‎может ‎многому ‎научить ‎нас‏ ‎о ‎списке‏ ‎Хилла.‏ ‎Действительно, ‎не ‎похоже,‏ ‎чтобы ‎Хёфлер‏ ‎нашел ‎что-либо ‎существенное ‎в‏ ‎понятии‏ ‎контрфактических ‎утверждений.

Анализ‏ ‎Хёфлера ‎начинается‏ ‎с ‎условия ‎силы ‎связи, ‎особенно‏ ‎хорошей‏ ‎эвристики, ‎когда‏ ‎система ‎проста‏ ‎(например, ‎большое, ‎хорошо ‎спланированное ‎рандомизированное‏ ‎исследование‏ ‎с‏ ‎результатами, ‎которые‏ ‎легко ‎измерить‏ ‎вскоре ‎после‏ ‎вмешательства).‏ ‎Но ‎сила‏ ‎связи ‎значительно ‎менее ‎определенна, ‎когда‏ ‎смешанные ‎факторы‏ ‎и‏ ‎другие ‎ошибки ‎добавляют‏ ‎сложности ‎к‏ ‎нашей ‎оценке. ‎Хёфлер ‎рассматривает‏ ‎неопределенность,‏ ‎возникающую ‎в‏ ‎результате ‎ошибок‏ ‎исследования, ‎задаваясь ‎вопросом: ‎«Позволит ‎ли‏ ‎интервальная‏ ‎оценка, ‎которая‏ ‎должным ‎образом‏ ‎учитывает ‎не ‎только ‎случайную, ‎но‏ ‎и‏ ‎систематическую‏ ‎ошибку… ‎сделать‏ ‎желаемый ‎вывод…?»,‏ ‎добавляя: ‎«высокая‏ ‎неопределенность‏ ‎относительно ‎параметров‏ ‎смещения ‎требует ‎более ‎сильных ‎связей,‏ ‎чем ‎умеренная‏ ‎неопределенность».‏ ‎То ‎есть, ‎является‏ ‎ли ‎связь‏ ‎сильной, ‎зависит ‎от ‎контекста.

Разрабатываются‏ ‎аналитические‏ ‎методы ‎для‏ ‎количественной ‎оценки‏ ‎этого ‎контекста, ‎и ‎мы ‎ценим‏ ‎и‏ ‎поощряем ‎внимание‏ ‎к ‎количественной‏ ‎оценке ‎эпидемиологической ‎неопределенности, ‎возникающей ‎из-за‏ ‎ошибок,‏ ‎отличных‏ ‎от ‎случайной‏ ‎выборки, ‎направление‏ ‎мысли ‎в‏ ‎эпидемиологии,‏ ‎которое ‎один‏ ‎из ‎нас ‎помог ‎запустить ‎[17]‏ ‎(см. ‎примечание‏ ‎1).‏ ‎Но, ‎несмотря ‎на‏ ‎то, ‎что‏ ‎это ‎направление ‎мысли ‎возникло‏ ‎из‏ ‎работы ‎Мальдонадо‏ ‎о ‎причинных‏ ‎контрастах ‎(направление ‎мысли, ‎которое ‎он‏ ‎приблизительно‏ ‎связывает ‎с‏ ‎Гринлендом ‎и‏ ‎Робинсом ‎[19], ‎а ‎также ‎с‏ ‎Рубином,‏ ‎Нейманом,‏ ‎Юмом ‎и‏ ‎другими ‎мыслителями),‏ ‎мы ‎должны‏ ‎сказать,‏ ‎что ‎оценка‏ ‎Хёфлера, ‎похоже, ‎не ‎имеет ‎ничего‏ ‎общего ‎с‏ ‎контрфактическими‏ ‎утверждениями. ‎Она ‎в‏ ‎первую ‎очередь‏ ‎подтверждает ‎его ‎тезис ‎о‏ ‎том,‏ ‎что ‎сложные‏ ‎системы ‎не‏ ‎поддаются ‎простым ‎эмпирическим ‎правилам. ‎Это‏ ‎соответствует‏ ‎тому, ‎что‏ ‎мы ‎утверждали‏ ‎ранее: ‎неопределенность ‎относительно ‎входных ‎предположений‏ ‎(например,‏ ‎предположений‏ ‎о ‎том,‏ ‎что ‎измерение‏ ‎является ‎точным‏ ‎и‏ ‎что ‎смешанные‏ ‎факторы ‎контролируются) ‎почти ‎всегда ‎игнорируется‏ ‎в ‎эпидемиологических‏ ‎результатах,‏ ‎и ‎было ‎показано,‏ ‎что ‎люди‏ ‎(включая ‎экспертов) ‎довольно ‎плохо‏ ‎справляются‏ ‎с ‎количественной‏ ‎оценкой ‎возможной‏ ‎величины ‎ошибки ‎без ‎математических ‎средств‏ ‎[17,18,20,21].‏ ‎Хёфлер ‎пытается‏ ‎улучшить ‎простейшую‏ ‎формулировку ‎соображения ‎о ‎силе ‎связи,‏ ‎но‏ ‎не‏ ‎предлагает ‎ничего‏ ‎более ‎операционализируемого,‏ ‎оставляя ‎нас‏ ‎снова‏ ‎с ‎ценностями‏ ‎или ‎здравым ‎смыслом.

Хёфлер ‎строит ‎свой‏ ‎анализ ‎вокруг‏ ‎вопросов‏ ‎«что, ‎если», ‎называя‏ ‎их ‎контрфактическими,‏ ‎но ‎это ‎не ‎дает‏ ‎видимого‏ ‎результата ‎от‏ ‎формального ‎представления‏ ‎контрфактического ‎определения ‎или ‎изучения ‎его‏ ‎последствий.‏ ‎Например, ‎заметив,‏ ‎что ‎критерий‏ ‎согласованности ‎страдает ‎из-за ‎того, ‎что‏ ‎разные‏ ‎исследования‏ ‎разных ‎популяций,‏ ‎как ‎ожидается,‏ ‎дадут ‎несовместимые‏ ‎результаты,‏ ‎Хёфлер ‎задает‏ ‎вопросы, ‎в ‎том ‎числе: ‎«Если‏ ‎бы ‎причинный‏ ‎эффект‏ ‎варьировался ‎в ‎разных‏ ‎исследованиях» ‎(предположительно,‏ ‎на ‎самом ‎деле ‎имея‏ ‎в‏ ‎виду, ‎если‏ ‎бы ‎он‏ ‎варьировался ‎в ‎разных ‎исследуемых ‎популяциях,‏ ‎определениях‏ ‎воздействия ‎и‏ ‎т. ‎д.,‏ ‎которые ‎неявно ‎определяются ‎исследованиями), ‎«следовало‏ ‎бы‏ ‎ожидать‏ ‎наблюдения ‎различных‏ ‎связей…?». ‎Это‏ ‎полезный ‎урок‏ ‎о‏ ‎согласованности, ‎заменяющий‏ ‎ложную ‎согласованность ‎систематическим ‎прогнозированием ‎несогласованности.‏ ‎Это ‎используется,‏ ‎например,‏ ‎когда ‎авторы ‎считают‏ ‎обнадеживающим ‎тот‏ ‎факт, ‎что ‎связь ‎с‏ ‎воздействием‏ ‎сильнее ‎для‏ ‎гистологически ‎подтвержденных‏ ‎случаев ‎рака, ‎чем ‎для ‎альтернативного‏ ‎(предположительно,‏ ‎более ‎шумного)‏ ‎определения ‎статуса‏ ‎заболевания. ‎Поскольку ‎мы ‎ожидаем ‎увидеть‏ ‎более‏ ‎сильную‏ ‎связь ‎(скорее‏ ‎всего), ‎когда‏ ‎меньше ‎(независимая,‏ ‎недифференциальная)‏ ‎ошибка ‎измерения,‏ ‎эта ‎несогласованность ‎может ‎сделать ‎нас‏ ‎более ‎уверенными‏ ‎в‏ ‎причинном ‎заключении. ‎Однако‏ ‎роль ‎контрфактических‏ ‎утверждений ‎в ‎этом ‎уроке,‏ ‎помимо‏ ‎неявного ‎определения‏ ‎причинности, ‎неясна.

Похоже,‏ ‎что ‎ценность ‎анализа ‎Хёфлера ‎заключается‏ ‎не‏ ‎в ‎контрфактических‏ ‎утверждениях, ‎а‏ ‎в ‎гипотетических — то ‎есть ‎в ‎априорных гипотезах‏ ‎о‏ ‎том,‏ ‎что ‎показали‏ ‎бы ‎данные,‏ ‎если ‎бы‏ ‎определенное‏ ‎предположение ‎было‏ ‎верным. ‎Возможно, ‎это ‎уточняет ‎понятие‏ ‎«здравого ‎смысла»,‏ ‎заменяя‏ ‎его ‎систематическим ‎научным‏ ‎мышлением, ‎в‏ ‎котором ‎эпидемиология ‎нуждается ‎гораздо‏ ‎больше,‏ ‎чем ‎в‏ ‎улучшенных ‎списках‏ ‎причинных ‎критериев. ‎Наш ‎пример, ‎что‏ ‎разные‏ ‎определения ‎заболевания‏ ‎должны ‎приводить‏ ‎к ‎несовместимым ‎связям ‎(предсказуемым ‎образом),‏ ‎вводит‏ ‎проверяемую‏ ‎гипотезу. ‎Хёфлер‏ ‎представляет ‎другой‏ ‎пример ‎в‏ ‎рамках‏ ‎критерия ‎специфичности,‏ ‎заимствуя ‎пример ‎[22] ‎о ‎том,‏ ‎что ‎ношение‏ ‎шлемов,‏ ‎если ‎оно ‎снижает‏ ‎травматизм, ‎а‏ ‎не ‎просто ‎является ‎показателем‏ ‎неизмеримой‏ ‎склонности ‎действовать‏ ‎более ‎осторожно,‏ ‎должно ‎приводить ‎к ‎снижению ‎травм‏ ‎головы,‏ ‎но ‎не‏ ‎других ‎частей‏ ‎тела. ‎Оба ‎этих ‎примера ‎полезны‏ ‎и,‏ ‎хотя‏ ‎они ‎сразу‏ ‎же ‎убедительны‏ ‎при ‎представлении,‏ ‎могут‏ ‎быть ‎шагом‏ ‎за ‎пределы ‎простого ‎здравого ‎смысла.‏ ‎Очевидно, ‎что‏ ‎есть‏ ‎смысл ‎учить ‎исследователей‏ ‎в ‎области‏ ‎здравоохранения ‎больше ‎думать ‎о‏ ‎выдвижении‏ ‎и ‎проверке‏ ‎гипотез ‎(в‏ ‎подлинном ‎смысле, ‎обсуждаемом ‎ниже). ‎Разговоры‏ ‎об‏ ‎очевидных ‎уликах‏ ‎(например, ‎списки‏ ‎причинных ‎соображений) ‎являются ‎хорошей ‎отправной‏ ‎точкой‏ ‎для‏ ‎обучения ‎таким‏ ‎урокам. ‎Действительно,‏ ‎есть ‎все‏ ‎основания‏ ‎полагать, ‎что‏ ‎именно ‎это ‎пытался ‎сделать ‎Хилл,‏ ‎когда ‎выступал‏ ‎со‏ ‎своей ‎речью.

Проблемы ‎возникают,‏ ‎когда ‎люди‏ ‎ошибочно ‎рассматривают ‎уроки ‎Хилла‏ ‎как‏ ‎принадлежащие ‎к‏ ‎неправильной ‎ветви‏ ‎философии, ‎интерпретируя ‎их ‎как ‎правила‏ ‎логической,‏ ‎а ‎не‏ ‎практической ‎философии‏ ‎науки ‎и ‎этики ‎принятия ‎решений‏ ‎[1].‏ ‎Хёфлер‏ ‎(цитируя ‎Ротмана‏ ‎и ‎Гринленда‏ ‎[[23], ‎стр.‏ ‎27])‏ ‎отмечает, ‎что‏ ‎одно ‎условие ‎— ‎причина ‎должна‏ ‎предшествовать ‎следствию‏ ‎—‏ ‎является ‎«единственным ‎sine‏ ‎qua ‎non для‏ ‎контрфактического ‎эффекта» ‎(см. ‎примечание‏ ‎2).‏ ‎Хотя ‎временной‏ ‎порядок ‎является‏ ‎необходимым ‎условием ‎согласно ‎нашему ‎пониманию‏ ‎физики‏ ‎или ‎даже‏ ‎простой ‎семантики‏ ‎(условие ‎непосредственно ‎следует ‎из ‎некоторых‏ ‎формулировок‏ ‎определения‏ ‎причины), ‎это‏ ‎не ‎делает‏ ‎это ‎соображение‏ ‎более‏ ‎или ‎менее‏ ‎полезным, ‎чем ‎другие, ‎в ‎качестве‏ ‎урока ‎здравого‏ ‎смысла.‏ ‎Уроки ‎типа ‎«если‏ ‎измеряемая ‎тенденция‏ ‎к ‎росту ‎заболеваемости ‎раком‏ ‎опережает‏ ‎(а ‎не‏ ‎отстает ‎от)‏ ‎измеряемого ‎увеличения ‎воздействия, ‎которое, ‎по‏ ‎вашему‏ ‎мнению, ‎является‏ ‎его ‎причиной,‏ ‎вы, ‎вероятно, ‎ошибаетесь ‎в ‎своем‏ ‎причинном‏ ‎заключении»,‏ ‎принципиально ‎не‏ ‎отличаются ‎от‏ ‎других ‎применений‏ ‎здравого‏ ‎смысла ‎в‏ ‎соображениях ‎Хилла.

Необходимость ‎в ‎уроках ‎здравого‏ ‎смысла

Почему ‎исследователи‏ ‎в‏ ‎области ‎здравоохранения, ‎aparentemente‏ ‎гораздо ‎чаще,‏ ‎чем ‎в ‎других ‎областях,‏ ‎цепляются‏ ‎за ‎правила‏ ‎оценки ‎причинности‏ ‎до ‎такой ‎степени, ‎что ‎у‏ ‎нас‏ ‎есть ‎несколько‏ ‎таких ‎списков,‏ ‎а ‎также ‎вторичная ‎литература, ‎которая‏ ‎пытается‏ ‎оценить‏ ‎и ‎улучшить‏ ‎эти ‎правила?‏ ‎Почему, ‎как‏ ‎предполагают‏ ‎Кауфман ‎и‏ ‎Пул ‎[5], ‎Сассер ‎[24] ‎предложил‏ ‎пять ‎стратегий‏ ‎для‏ ‎оценки ‎причинности ‎—‏ ‎стратегии ‎для‏ ‎проверки ‎гипотез ‎наряду ‎со‏ ‎своим‏ ‎списком ‎причинных‏ ‎критериев ‎—‏ ‎но ‎в ‎ответ ‎на ‎больший‏ ‎интерес‏ ‎к ‎списку‏ ‎критериев ‎впоследствии‏ ‎сосредоточился ‎на ‎списке ‎и ‎уменьшил‏ ‎значение‏ ‎других‏ ‎стратегий? ‎Частично‏ ‎ответ ‎может‏ ‎заключаться ‎в‏ ‎акценте‏ ‎на ‎данных‏ ‎наблюдений ‎(поскольку ‎хорошо ‎спланированные ‎вмешательства‏ ‎обеспечивают ‎более‏ ‎простую‏ ‎поддержку ‎причинных ‎утверждений,‏ ‎по ‎крайней‏ ‎мере, ‎для ‎некоторых ‎типов‏ ‎исследований).‏ ‎Однако ‎это‏ ‎не ‎может‏ ‎быть ‎всей ‎историей, ‎поскольку ‎физика‏ ‎и‏ ‎биология ‎(не‏ ‎говоря ‎уже‏ ‎об ‎экономике) ‎довольно ‎часто ‎полагаются‏ ‎только‏ ‎на‏ ‎наблюдения.

Возможно, ‎что‏ ‎еще ‎более‏ ‎важно, ‎стремление‏ ‎найти‏ ‎ответы ‎на‏ ‎бесчисленные ‎различные ‎вопросы ‎политики, ‎социальных‏ ‎наук ‎и‏ ‎биологии‏ ‎порождает ‎желание ‎изучить‏ ‎что-то ‎один‏ ‎раз ‎(в ‎конкретной ‎популяции,‏ ‎в‏ ‎конкретное ‎время,‏ ‎с ‎конкретными‏ ‎определениями ‎переменных), ‎объявить ‎ответ ‎и‏ ‎двигаться‏ ‎дальше. ‎Это‏ ‎не ‎дает‏ ‎большой ‎возможности ‎для ‎реальной ‎проверки‏ ‎гипотез.‏ ‎Это‏ ‎побуждает ‎исследователей‏ ‎в ‎области‏ ‎здравоохранения ‎проводить‏ ‎упрощенные‏ ‎статистические ‎расчеты,‏ ‎которые ‎описываются ‎на ‎языке ‎проверки‏ ‎гипотез, ‎и‏ ‎ошибочно‏ ‎принимать ‎это ‎за‏ ‎фактическую ‎проверку‏ ‎реальной ‎гипотезы. ‎Это ‎препятствует‏ ‎подлинной‏ ‎проверке ‎гипотез‏ ‎по ‎типу:‏ ‎«Если ‎мы ‎наблюдали ‎истинную ‎причинно-следственную‏ ‎связь,‏ ‎то ‎мы‏ ‎также ‎ожидали‏ ‎бы ‎увидеть… ‎Давайте ‎проведем ‎дополнительные‏ ‎исследования,‏ ‎чтобы‏ ‎проверить ‎это,‏ ‎прежде ‎чем‏ ‎сообщать ‎о‏ ‎нашем‏ ‎результате». ‎Мы,‏ ‎безусловно, ‎ожидали ‎бы ‎такой ‎проверки‏ ‎от ‎другой‏ ‎науки,‏ ‎прежде ‎чем ‎она‏ ‎объявила ‎бы,‏ ‎скажем, ‎об ‎открытии ‎холодного‏ ‎ядерного‏ ‎синтеза ‎или‏ ‎о ‎том,‏ ‎что ‎свободные ‎рынки ‎без ‎ограничений‏ ‎улучшают‏ ‎жизнь ‎людей‏ ‎(плохие ‎примеры,‏ ‎возможно, ‎— ‎назовем ‎их ‎исключениями,‏ ‎которые‏ ‎подчеркивают‏ ‎ценность ‎правила).

В‏ ‎эпидемиологии ‎мало‏ ‎исследований, ‎направленных‏ ‎на‏ ‎устранение ‎неясностей,‏ ‎возникающих ‎в ‎результате ‎проблемы ‎Дюгема-Куайна‏ ‎(которая, ‎грубо‏ ‎говоря,‏ ‎заключается ‎в ‎затруднительном‏ ‎положении, ‎когда‏ ‎любое ‎исследование, ‎используемое ‎для‏ ‎проверки‏ ‎конкретного ‎утверждения,‏ ‎одновременно ‎проверяет‏ ‎множество ‎вспомогательных ‎гипотез ‎о ‎методологии‏ ‎исследования,‏ ‎например, ‎о‏ ‎том, ‎что‏ ‎были ‎использованы ‎правильные ‎меры, ‎инструменты‏ ‎делают‏ ‎то,‏ ‎что ‎они‏ ‎должны ‎делать,‏ ‎и, ‎следовательно,‏ ‎мы‏ ‎не ‎можем‏ ‎быть ‎уверены, ‎что ‎наблюдаемый ‎результат‏ ‎подтверждает ‎интересующую‏ ‎нас‏ ‎причинную ‎гипотезу). ‎Исследования‏ ‎редко ‎повторяются‏ ‎с ‎улучшенными ‎(или ‎даже‏ ‎другими)‏ ‎инструментами ‎(см.‏ ‎примечание ‎3).‏ ‎Валидационные ‎исследования ‎проводятся ‎иногда, ‎довольно‏ ‎часто‏ ‎обнаруживая ‎существенную‏ ‎ошибку ‎измерения,‏ ‎но ‎результаты ‎почти ‎никогда ‎не‏ ‎включаются‏ ‎в‏ ‎первичный ‎анализ.‏ ‎Даже ‎простые‏ ‎анализы, ‎не‏ ‎требующие‏ ‎дополнительных ‎полевых‏ ‎работ, ‎такие ‎как ‎оценка ‎того,‏ ‎сильно ‎ли‏ ‎зависит‏ ‎оценка ‎эффекта ‎от‏ ‎конкретной ‎функциональной‏ ‎формы, ‎используемой ‎в ‎количественном‏ ‎анализе‏ ‎(т. ‎е.‏ ‎предположения ‎статистической‏ ‎модели, ‎точки ‎отсечения ‎для ‎категоризации‏ ‎переменных‏ ‎и ‎т.‏ ‎д.), ‎редко‏ ‎публикуются.

Аналогичным ‎образом, ‎новые ‎исследования ‎по‏ ‎какой-либо‏ ‎теме‏ ‎почти ‎никогда‏ ‎фактически ‎не‏ ‎воспроизводят ‎результат,‏ ‎не‏ ‎делая ‎простого‏ ‎шага ‎по ‎использованию ‎ранее ‎определенной‏ ‎модели ‎на‏ ‎другом‏ ‎наборе ‎данных. ‎Вместо‏ ‎этого ‎они‏ ‎используют ‎новую ‎априорную модель, ‎гарантируя,‏ ‎что‏ ‎слишком ‎много‏ ‎вещей ‎меняется‏ ‎одновременно, ‎чтобы ‎мы ‎могли ‎отличить‏ ‎интересующий‏ ‎нас ‎результат‏ ‎от ‎вспомогательных‏ ‎гипотез. ‎(Эпидемиологи ‎могут ‎счесть ‎этот‏ ‎момент‏ ‎наиболее‏ ‎знакомым ‎в‏ ‎контексте ‎метаанализа,‏ ‎где ‎внимательные‏ ‎исследователи‏ ‎часто ‎обнаруживают,‏ ‎что ‎существует ‎гораздо ‎больше ‎измерений‏ ‎вариации ‎между‏ ‎методами‏ ‎исследования, ‎чем ‎самих‏ ‎исследований.) ‎Утверждения‏ ‎о ‎причинности ‎в ‎этом‏ ‎контексте‏ ‎довольно ‎натянуты,‏ ‎какими ‎бы‏ ‎ни ‎были ‎модели, ‎критерии ‎или‏ ‎уравнения.

Что‏ ‎еще ‎хуже,‏ ‎существует ‎не‏ ‎просто ‎небрежность ‎в ‎отношении ‎хорошей‏ ‎науки,‏ ‎но‏ ‎и ‎фактические‏ ‎попытки ‎подорвать‏ ‎ее. ‎Не‏ ‎только‏ ‎нет ‎попыток‏ ‎провести ‎и ‎сообщить ‎об ‎альтернативных‏ ‎анализах, ‎которые‏ ‎проверяют‏ ‎надежность ‎статистической ‎модели‏ ‎и ‎используют‏ ‎результаты ‎таких ‎тестов ‎для‏ ‎устранения‏ ‎неопределенности, ‎но‏ ‎во ‎многих‏ ‎случаях ‎выполняется ‎множество ‎статистических ‎расчетов,‏ ‎и‏ ‎тот, ‎о‏ ‎котором ‎сообщается,‏ ‎выбирается ‎потому, что ‎он ‎является ‎выбросом‏ ‎(т.‏ ‎е.‏ ‎потому, ‎что‏ ‎он ‎показывает‏ ‎впечатляющий ‎результат),‏ ‎что‏ ‎делает ‎его,‏ ‎скорее ‎всего, ‎артефактом ‎ложных ‎вспомогательных‏ ‎гипотез ‎о‏ ‎модели‏ ‎[25]. ‎Таким ‎образом,‏ ‎исследователи ‎не‏ ‎только ‎не ‎проверяют ‎дополнительно‏ ‎причинные‏ ‎выводы, ‎которые‏ ‎они ‎делают‏ ‎на ‎основе ‎своих ‎данных, ‎но‏ ‎и‏ ‎их ‎причинные‏ ‎выводы ‎часто‏ ‎даже ‎не ‎подтверждаются ‎их ‎данными‏ ‎(поскольку‏ ‎большинство‏ ‎расчетов ‎с‏ ‎использованием ‎данных‏ ‎дадут ‎менее‏ ‎экстремальные‏ ‎результаты, ‎чем‏ ‎те, ‎о ‎которых ‎сообщается). ‎Этот‏ ‎подход ‎нарушает‏ ‎нормы‏ ‎здравого ‎смысла ‎научного‏ ‎исследования, ‎включая‏ ‎часто ‎упускаемое ‎из ‎виду‏ ‎предварительное‏ ‎соображение ‎Хилла‏ ‎о ‎том,‏ ‎что ‎данные ‎должны ‎в ‎первую‏ ‎очередь‏ ‎показывать ‎связь.‏ ‎К ‎сожалению,‏ ‎такое ‎искажение ‎не ‎очень ‎удивительно,‏ ‎когда‏ ‎стремление‏ ‎получить ‎интересный‏ ‎результат ‎не‏ ‎сдерживается ‎заботой‏ ‎о‏ ‎воспроизводимости ‎и‏ ‎согласованности ‎(очень ‎мала ‎вероятность ‎того,‏ ‎что ‎кто-то‏ ‎когда-либо‏ ‎попытается ‎фактически ‎воспроизвести‏ ‎результат, ‎и‏ ‎исследователи ‎в ‎области ‎здравоохранения‏ ‎демонстрируют‏ ‎неудачную ‎тенденцию‏ ‎ссылаться ‎на‏ ‎выброс ‎в ‎качестве ‎доказательства ‎связи,‏ ‎независимо‏ ‎от ‎того,‏ ‎сколько ‎других‏ ‎исследований ‎обнаружили ‎нулевую ‎связь), ‎или‏ ‎настоящей‏ ‎научной‏ ‎подготовкой, ‎которая‏ ‎прививает ‎этику‏ ‎в ‎отношении‏ ‎того,‏ ‎что ‎constitutes‏ ‎хорошую ‎науку.

Стремление ‎заменить ‎то, ‎что‏ ‎якобы ‎является‏ ‎контрольным‏ ‎списком ‎критериев, ‎настоящим‏ ‎научным ‎анализом‏ ‎и ‎мышлением, ‎по-видимому, ‎отражает‏ ‎практику‏ ‎медицинской ‎науки,‏ ‎а ‎не‏ ‎природу ‎эпидемиологических ‎данных. ‎Так ‎же,‏ ‎как‏ ‎большинство ‎занятий‏ ‎по ‎этике‏ ‎в ‎медицинской ‎науке ‎предлагают ‎юридические‏ ‎контрольные‏ ‎списки,‏ ‎а ‎не‏ ‎серьезный ‎анализ‏ ‎этики, ‎большая‏ ‎часть‏ ‎педагогики ‎в‏ ‎эпидемиологии ‎предлагает ‎набор ‎инструментов ‎без‏ ‎особого ‎научного‏ ‎мышления.‏ ‎Нет ‎ничего ‎плохого‏ ‎в ‎том,‏ ‎чтобы ‎обучать ‎людей ‎быть‏ ‎инженерами‏ ‎— ‎квалифицированными‏ ‎пользователями ‎сложных‏ ‎инструментов, ‎которые ‎они ‎могут ‎адаптировать‏ ‎к‏ ‎конкретным ‎практическим‏ ‎применениям. ‎Область‏ ‎эпидемиологии ‎была ‎в ‎значительной ‎степени‏ ‎создана‏ ‎представителями‏ ‎одной ‎области‏ ‎инженерии, ‎врачами‏ ‎(которые, ‎кстати,‏ ‎составляли‏ ‎большую ‎часть‏ ‎первоначальной ‎аудитории ‎Хилла, ‎что ‎является‏ ‎показательным ‎контекстом,‏ ‎который‏ ‎обычно ‎игнорируется), ‎с‏ ‎мудрыми ‎советами‏ ‎из ‎различных ‎наук ‎(подход‏ ‎Хилла‏ ‎отражает ‎его‏ ‎образование ‎экономиста).

Обучение‏ ‎эпидемиологии ‎почти ‎всегда ‎направлено ‎на‏ ‎подготовку‏ ‎инженеров, ‎практиков,‏ ‎которые ‎производят‏ ‎ощутимые ‎результаты, ‎но ‎уделяют ‎мало‏ ‎внимания‏ ‎вопросам‏ ‎о ‎природе‏ ‎исследования ‎или‏ ‎научной ‎истины.‏ ‎Более‏ ‎того, ‎практика‏ ‎медицинской ‎науки ‎находится ‎под ‎влиянием‏ ‎тех, ‎кому‏ ‎не‏ ‎хватает ‎даже ‎адекватных‏ ‎навыков ‎в‏ ‎эпидемиологической ‎инженерии; ‎они ‎склонны‏ ‎к‏ ‎механическому ‎применению‏ ‎конкретных ‎методов‏ ‎и ‎использованию ‎готового ‎программного ‎обеспечения,‏ ‎которое‏ ‎они ‎на‏ ‎самом ‎деле‏ ‎не ‎понимают, ‎— ‎модель, ‎которая‏ ‎описывает‏ ‎техников,‏ ‎а ‎не‏ ‎инженеров ‎или‏ ‎ученых. ‎Можно‏ ‎возразить,‏ ‎что ‎большинство‏ ‎практиков ‎каждой ‎науки ‎тратят ‎большую‏ ‎часть ‎своего‏ ‎времени‏ ‎на ‎выполнение ‎технических‏ ‎задач. ‎Но‏ ‎образование ‎и ‎ожидания ‎ученых‏ ‎в‏ ‎большинстве ‎областей‏ ‎включают ‎полное‏ ‎понимание ‎моделей ‎и ‎методов, ‎которые‏ ‎они‏ ‎используют, ‎и‏ ‎попытки ‎усовершенствовать‏ ‎методы ‎в ‎ходе ‎исследования; ‎те,‏ ‎кто‏ ‎механически‏ ‎управляет ‎концептуальными‏ ‎или ‎физическими‏ ‎инструментами, ‎которые‏ ‎они‏ ‎не ‎могут‏ ‎объяснить ‎и ‎не ‎смогли ‎бы‏ ‎создать ‎с‏ ‎нуля,‏ ‎обычно ‎не ‎называются‏ ‎«докторами» ‎и‏ ‎не ‎доминируют ‎в ‎научных‏ ‎результатах‏ ‎других ‎областей.‏ ‎Это ‎особенно‏ ‎верно ‎в ‎отношении ‎наук, ‎которые‏ ‎так‏ ‎же ‎незрелы,‏ ‎как ‎современные‏ ‎исследования ‎в ‎области ‎здравоохранения ‎(см.‏ ‎примечание‏ ‎4).

В‏ ‎этом ‎контексте‏ ‎«наука» ‎о‏ ‎здоровье ‎склонна‏ ‎избегать‏ ‎и ‎даже‏ ‎презирать ‎научное ‎мышление: ‎мало ‎интереса‏ ‎к ‎строгой‏ ‎проверке‏ ‎выводов, ‎прежде ‎чем‏ ‎выражать ‎уверенность‏ ‎в ‎них. ‎Инициирование ‎активных‏ ‎научных‏ ‎дебатов ‎или‏ ‎предложение ‎о‏ ‎том, ‎что ‎исследователи ‎должны ‎быть‏ ‎обязаны‏ ‎защищать ‎свои‏ ‎утверждения ‎от‏ ‎критики, ‎часто ‎считается ‎невежливым ‎или‏ ‎даже‏ ‎враждебным.‏ ‎Поиск ‎лучших‏ ‎методов ‎исследования‏ ‎и ‎анализа,‏ ‎несмотря‏ ‎на ‎то,‏ ‎насколько ‎ужасно ‎примитивны ‎наши ‎методы,‏ ‎считается ‎экзотическим‏ ‎побочным‏ ‎занятием, ‎а ‎не‏ ‎источником ‎жизненной‏ ‎силы ‎науки. ‎Результаты ‎опубликованных‏ ‎исследований‏ ‎цитируются, ‎как‏ ‎если ‎бы‏ ‎они ‎были ‎окончательными, ‎без ‎должного‏ ‎учета‏ ‎качества ‎исследования,‏ ‎даже ‎когда‏ ‎есть ‎явные ‎основания ‎для ‎сомнений.‏ ‎Разделы‏ ‎о‏ ‎методах ‎в‏ ‎исследовательских ‎отчетах‏ ‎не ‎содержат‏ ‎даже‏ ‎отдаленно ‎достаточной‏ ‎информации ‎для ‎понимания ‎того, ‎что‏ ‎было ‎сделано.‏ ‎Наборы‏ ‎данных ‎редко ‎анализируются‏ ‎повторно, ‎независимо‏ ‎от ‎важности ‎последствий. ‎И‏ ‎вдобавок‏ ‎к ‎этим‏ ‎проблемам ‎(или,‏ ‎возможно, ‎из-за ‎них) ‎поверхностный ‎процесс‏ ‎рецензирования‏ ‎рассматривается ‎так,‏ ‎как ‎если‏ ‎бы ‎он ‎— ‎а ‎не‏ ‎плавильный‏ ‎котел‏ ‎дальнейших ‎исследований‏ ‎и ‎дебатов‏ ‎— ‎определял‏ ‎истинность‏ ‎утверждения.

Обучение ‎эпидемиологии‏ ‎редко ‎направлено ‎на ‎подготовку ‎ученых.‏ ‎По ‎нашему‏ ‎опыту,‏ ‎если ‎два ‎профессора‏ ‎представляют ‎противоречивые‏ ‎взгляды ‎на ‎правильную ‎методологию,‏ ‎студенты‏ ‎обычно ‎реагируют‏ ‎с ‎дискомфортом‏ ‎или ‎даже ‎враждебно, ‎настаивая ‎на‏ ‎том,‏ ‎чтобы ‎кто-то‏ ‎просто ‎сказал‏ ‎им, ‎что ‎правильно, ‎чтобы ‎они‏ ‎могли‏ ‎использовать‏ ‎это ‎и‏ ‎двигаться ‎дальше.‏ ‎Из ‎того,‏ ‎что‏ ‎мы ‎видели,‏ ‎большая ‎часть ‎обучения ‎эпидемиологии ‎потворствует‏ ‎(или ‎даже‏ ‎помогает‏ ‎создать) ‎этому ‎образу‏ ‎мышления, ‎обслуживая‏ ‎студентов, ‎которые ‎явно ‎являются‏ ‎подающими‏ ‎надежды ‎техниками,‏ ‎а ‎не‏ ‎учеными. ‎Студентов ‎обычно ‎учат ‎использовать‏ ‎вычислительные‏ ‎«черные ‎ящики»‏ ‎и ‎описывать‏ ‎результаты ‎заученным ‎языком. ‎Некоторые ‎из‏ ‎них‏ ‎хотят‏ ‎быть ‎учеными‏ ‎и ‎пытаются‏ ‎заниматься ‎научным‏ ‎анализом‏ ‎и ‎исследованиями,‏ ‎но ‎обучение ‎(или ‎даже ‎принуждение)‏ ‎соответствовать ‎доминирующим‏ ‎способам‏ ‎практики ‎затрудняет ‎это.‏ ‎Студент, ‎освоивший‏ ‎типичную ‎программу ‎по ‎эпидемиологии,‏ ‎будет‏ ‎компетентным ‎инженером,‏ ‎но ‎мало‏ ‎узнает ‎о ‎природе ‎научного ‎исследования.

Конечно,‏ ‎инженеры‏ ‎могут ‎считаться‏ ‎основой ‎современности,‏ ‎и ‎техники, ‎несомненно, ‎приносят ‎больше‏ ‎общей‏ ‎повседневной‏ ‎пользы, ‎чем‏ ‎ученые, ‎поэтому‏ ‎это ‎не‏ ‎заявление‏ ‎о ‎сравнительной‏ ‎ценности. ‎Но ‎это ‎объясняет, ‎почему‏ ‎научное ‎мышление‏ ‎нуждается‏ ‎в ‎поддержке ‎в‏ ‎этой ‎области.‏ ‎Мы ‎были ‎бы ‎удивлены,‏ ‎если‏ ‎бы ‎даже‏ ‎1/1000 ‎часть‏ ‎человеко-времени, ‎затрачиваемого ‎на ‎эпидемиологию, ‎была‏ ‎посвящена‏ ‎критическому ‎анализу.

Заключение

Именно‏ ‎в ‎этом‏ ‎контексте, ‎в ‎области ‎научного ‎исследования,‏ ‎где‏ ‎доминируют‏ ‎не-ученые, ‎уроки‏ ‎научного ‎здравого‏ ‎смысла ‎имеют‏ ‎огромную‏ ‎ценность. ‎За‏ ‎четыре ‎года ‎до ‎публикации ‎«Оценки‏ ‎причинных ‎эффектов»‏ ‎Мальдонадо‏ ‎провел ‎семинар ‎о‏ ‎пользе ‎формализации‏ ‎контрфактических ‎утверждений, ‎и ‎после‏ ‎него‏ ‎один ‎из‏ ‎нас ‎(CVP),‏ ‎в ‎то ‎время ‎новичок ‎в‏ ‎эпидемиологии,‏ ‎спросил: ‎«Какую‏ ‎часть ‎этого‏ ‎я ‎не ‎должен ‎был ‎уже‏ ‎знать?».‏ ‎Оглядываясь‏ ‎назад, ‎вопрос‏ ‎явно ‎упустил‏ ‎суть: ‎как‏ ‎и‏ ‎размышления ‎Хилла,‏ ‎формализация ‎контрфактических ‎утверждений ‎— ‎это‏ ‎не ‎новое‏ ‎открытие‏ ‎и ‎даже ‎не‏ ‎новый ‎урок,‏ ‎а ‎скорее ‎артикуляция ‎концепции,‏ ‎которая‏ ‎заслуживает ‎большего‏ ‎внимания ‎(или‏ ‎базового ‎осознания), ‎чем ‎она ‎получает‏ ‎в‏ ‎исследованиях ‎в‏ ‎области ‎здравоохранения.‏ ‎Действительно, ‎мы ‎подчеркивали ‎необходимость ‎дальнейшего‏ ‎анализа‏ ‎того,‏ ‎что ‎«известно»‏ ‎в ‎этой‏ ‎области ‎(в‏ ‎том‏ ‎смысле, ‎что‏ ‎об ‎этом ‎когда-то, ‎каким-то ‎образом‏ ‎говорилось), ‎но,‏ ‎похоже,‏ ‎это ‎вспоминается ‎слишком‏ ‎редко, ‎как‏ ‎основная ‎причина ‎для ‎создания‏ ‎нового‏ ‎журнала ‎[26,27].‏ ‎Как ‎знает‏ ‎каждый ‎преподаватель, ‎время, ‎потраченное ‎на‏ ‎обдумывание‏ ‎предыдущих ‎уроков,‏ ‎обычно ‎гораздо‏ ‎ценнее, ‎чем ‎представление ‎новой ‎идеи‏ ‎каждую‏ ‎минуту‏ ‎каждой ‎лекции.

Внимательное‏ ‎отношение ‎к‏ ‎формальному ‎определению‏ ‎причинности‏ ‎и ‎к‏ ‎списку ‎подсказок, ‎которые ‎могут ‎помочь‏ ‎нам ‎сделать‏ ‎выводы‏ ‎о ‎причинности, ‎может‏ ‎быть ‎ценным.‏ ‎Такое ‎внимание ‎может ‎способствовать‏ ‎развитию‏ ‎активного ‎мышления,‏ ‎которое ‎приводит‏ ‎к ‎научному ‎здравому ‎смыслу. ‎Пока‏ ‎это‏ ‎послание ‎интерпретируется‏ ‎как ‎необходимость‏ ‎размышлять ‎и ‎исследовать, ‎прежде ‎чем‏ ‎делать‏ ‎научные‏ ‎выводы, ‎эти‏ ‎уроки ‎ценны.‏ ‎Но ‎когда‏ ‎они‏ ‎вырождаются ‎в‏ ‎алгоритмы ‎«черного ‎ящика», ‎это ‎позволяет‏ ‎исследователям ‎в‏ ‎области‏ ‎здравоохранения ‎избегать ‎интеллектуальной‏ ‎работы, ‎связанной‏ ‎с ‎бытием ‎учеными.

Примечание ‎1

Мы‏ ‎считаем‏ ‎неудачным, ‎что‏ ‎Хёфлер ‎использовал‏ ‎термин ‎«анализ ‎чувствительности ‎Монте-Карло» ‎для‏ ‎описания‏ ‎некоторых ‎методов‏ ‎количественной ‎оценки‏ ‎неопределенности. ‎Филлипс ‎указал, ‎что ‎это‏ ‎неправильное‏ ‎употребление,‏ ‎поскольку ‎эти‏ ‎методы ‎принципиально‏ ‎отличаются ‎от‏ ‎анализа‏ ‎чувствительности, ‎а‏ ‎«Монте-Карло» ‎путает ‎инструмент ‎расчета ‎с‏ ‎самим ‎анализом‏ ‎[18].

Примечание‏ ‎2

Стоит ‎отметить, ‎что‏ ‎условие ‎темпоральности‏ ‎также ‎идеально ‎подходит ‎для‏ ‎определений‏ ‎причинности, ‎избегающих‏ ‎контрфактических ‎утверждений,‏ ‎таких ‎как ‎«предсказуемые ‎закономерности ‎одного‏ ‎события,‏ ‎следующего ‎за‏ ‎другим», ‎что‏ ‎снова ‎говорит ‎о ‎том, ‎что‏ ‎обращение‏ ‎к‏ ‎контрфактическим ‎утверждениям‏ ‎ничего ‎не‏ ‎дает ‎для‏ ‎понимания‏ ‎причинных ‎соображений.

Примечание‏ ‎3

По ‎иронии ‎судьбы, ‎когда ‎мы‏ ‎писали ‎эту‏ ‎статью,‏ ‎один ‎из ‎нас‏ ‎посетил ‎семинар‏ ‎по ‎получению ‎грантов ‎на‏ ‎исследования‏ ‎в ‎области‏ ‎здравоохранения ‎от‏ ‎правительства ‎Канады; ‎частью ‎совета ‎было‏ ‎то,‏ ‎что ‎изучаемая‏ ‎связь ‎между‏ ‎воздействием ‎и ‎заболеванием ‎должна ‎быть‏ ‎новой.‏ ‎Смысл‏ ‎заключался ‎в‏ ‎том, ‎что‏ ‎проверка ‎надежности‏ ‎предыдущих‏ ‎результатов ‎имеет‏ ‎такой ‎низкий ‎приоритет, ‎что ‎не‏ ‎привлечет ‎это‏ ‎финансирование.‏ ‎(Примечание ‎переводчика: ‎Это‏ ‎подчеркивает ‎неблагоприятную‏ ‎тенденцию ‎приоритизации ‎новизны ‎над‏ ‎тщательностью‏ ‎в ‎финансировании‏ ‎исследований, ‎системную‏ ‎проблему, ‎которая ‎может ‎препятствовать ‎научному‏ ‎прогрессу.)

Примечание‏ ‎4

Чтобы ‎добавить‏ ‎конкретики ‎к‏ ‎вопросу ‎о ‎концептуальном ‎аппарате, ‎подумайте,‏ ‎сколько‏ ‎из‏ ‎тех, ‎кто‏ ‎считается ‎учеными‏ ‎в ‎эпидемиологии,‏ ‎когда-либо‏ ‎учились ‎рассчитывать‏ ‎статистику, ‎о ‎которой ‎они ‎сообщают,‏ ‎не ‎полагаясь‏ ‎на‏ ‎программный ‎пакет ‎«черного‏ ‎ящика», ‎или,‏ ‎если ‎уж ‎на ‎то‏ ‎пошло,‏ ‎сколько ‎из‏ ‎них ‎могут‏ ‎даже ‎определить ‎смешанные ‎факторы, ‎не‏ ‎говоря‏ ‎уже ‎о‏ ‎том, ‎чтобы‏ ‎объяснить, ‎почему ‎их ‎математическая ‎модель‏ ‎была‏ ‎лучшим‏ ‎выбором, ‎или‏ ‎рассчитать ‎влияние‏ ‎ошибки ‎измерения.‏ ‎В‏ ‎науке, ‎которая‏ ‎все ‎еще ‎находится ‎в ‎стадии‏ ‎развития, ‎мы‏ ‎ожидаем,‏ ‎что ‎ученые ‎будут‏ ‎образованы ‎и‏ ‎осведомлены ‎во ‎всем ‎процессе‏ ‎исследования,‏ ‎чтобы ‎они‏ ‎могли ‎внести‏ ‎свой ‎вклад ‎в ‎развитие. ‎Эпидемиология‏ ‎явно‏ ‎незрела ‎и‏ ‎находится ‎в‏ ‎стадии ‎развития: ‎большая ‎часть ‎эпидемиологических‏ ‎исследований‏ ‎в‏ ‎истории ‎была‏ ‎проведена ‎в‏ ‎течение ‎жизни,‏ ‎часто‏ ‎даже ‎профессиональной‏ ‎жизни, ‎современных ‎исследователей, ‎и ‎список‏ ‎известных ‎вопиющих‏ ‎недостатков‏ ‎методов ‎длинный.

Конкурирующие ‎интересы

Авторы‏ ‎ранее ‎писали‏ ‎по ‎смежным ‎темам ‎и‏ ‎заинтересованы‏ ‎в ‎поддержке‏ ‎своих ‎ранее‏ ‎опубликованных ‎точек ‎зрения. ‎На ‎их‏ ‎взгляды‏ ‎влияет ‎высокая‏ ‎степень ‎разочарования‏ ‎в ‎современных ‎научных ‎стандартах ‎исследований‏ ‎в‏ ‎области‏ ‎здравоохранения. ‎CVP‏ ‎получил ‎образование‏ ‎в ‎основном‏ ‎как‏ ‎экономист, ‎и‏ ‎его ‎похвала ‎Хиллу ‎в ‎некоторой‏ ‎степени ‎отражает‏ ‎общие‏ ‎взгляды ‎дисциплины.

Сведения ‎об‏ ‎авторах

Carl ‎V‏ ‎Phillips, ‎Email: ‎carl.v.phillips@ualberta.ca

Karen ‎J‏ ‎Goodman,‏ ‎Email: ‎karen.goodman@ualberta.ca

Список‏ ‎литературы

  1. Phillips ‎CV,‏ ‎Goodman ‎KJ. ‎The ‎missed ‎lessons‏ ‎of‏ ‎Sir ‎Austin‏ ‎Bradford ‎Hill.‏ ‎Epidemiol ‎Perspect ‎Innov. ‎2004; ‎1:3.‏ ‎doi:‏ ‎https://doi.org/10.1186/1742-5573-1-3
  2. Höfler‏ ‎M. ‎The‏ ‎Bradford ‎Hill‏ ‎considerations ‎on‏ ‎causality:‏ ‎A ‎counterfactual‏ ‎perspective. ‎Emerg ‎Themes ‎Epidemiol. ‎2005;‏ ‎2:11. ‎doi:‏ ‎https://doi.org/10.1186/1742-7622-2-11
  3. Hill‏ ‎AB. ‎The ‎environment‏ ‎and ‎disease:‏ ‎association ‎or ‎causation? ‎Proceedings‏ ‎of‏ ‎the ‎Royal‏ ‎Society ‎of‏ ‎Medicine. ‎1965:295–300. ‎doi: ‎https://doi.org/10.1177/003591576505800503
  4. Poole ‎C.‏ ‎Causal‏ ‎values. ‎Epidemiology.‏ ‎2001; ‎12:139–141.‏ ‎doi: ‎https://doi.org/10.1097/00001648-200103000-00001
  5. Kaufman ‎JS, ‎Poole ‎C.‏ ‎Looking‏ ‎back‏ ‎on ‎«causal‏ ‎thinking ‎in‏ ‎the ‎health‏ ‎sciences».‏ ‎Annu ‎Rev‏ ‎Public ‎Health. ‎2000; ‎21:101–119. ‎doi:‏ ‎https://doi.org/10.1146/annurev.publhealth.21.1.101
  6. Kuhn ‎TS.‏ ‎Reflections‏ ‎on ‎my ‎critics.‏ ‎In: ‎Lakatos‏ ‎I, ‎Musgrave ‎A, ‎editor.‏ ‎Criticism‏ ‎and ‎the‏ ‎Growth ‎of‏ ‎Knowledge. ‎Cambridge: ‎Cambridge ‎University ‎Press;‏ ‎1970.‏ ‎pp. ‎231–278.
  7. Kuhn‏ ‎TS. ‎Objectivity,‏ ‎value ‎judgment, ‎and ‎theory ‎choice.‏ ‎In:‏ ‎Kuhn‏ ‎TS, ‎editor.‏ ‎The ‎Essential‏ ‎Tension. ‎Chicago:‏ ‎The‏ ‎University ‎of‏ ‎Chicago ‎Press; ‎1977. ‎pp. ‎320–339.
  8. Weed‏ ‎DL. ‎Alcohol,‏ ‎breast‏ ‎cancer, ‎and ‎causal‏ ‎inference: ‎where‏ ‎ethics ‎meets ‎epidemiology. ‎Contemp‏ ‎Drug‏ ‎Probl. ‎1994;‏ ‎21:185–204. ‎doi:‏ ‎https://doi.org/10.1177/009145099402100116
  9. Weed ‎DL. ‎On ‎the ‎use‏ ‎of‏ ‎causal ‎criteria.‏ ‎Int ‎J‏ ‎Epidemiol. ‎1997; ‎26:1137–1141. ‎doi: ‎https://doi.org/10.1093/ije/26.6.1137
  10. Weed‏ ‎DL,‏ ‎Gorelic‏ ‎LS. ‎The‏ ‎practice ‎of‏ ‎causal ‎inference‏ ‎in‏ ‎cancer ‎epidemiology.‏ ‎Cancer ‎Epidemiol ‎Biomarkers ‎Prev. ‎1996;‏ ‎5:303–311.
  11. Weed ‎DL,‏ ‎Hursting‏ ‎SD. ‎Biologic ‎plausibility‏ ‎in ‎causal‏ ‎inference: ‎current ‎method ‎and‏ ‎practice.‏ ‎Am ‎J‏ ‎Epidemiol. ‎1998;‏ ‎147:415–425. ‎doi: ‎https://doi.org/10.1093/oxfordjournals.aje.a009466
  12. Potischman ‎N, ‎Weed‏ ‎DL.‏ ‎Causal ‎criteria‏ ‎in ‎nutritional‏ ‎epidemiology. ‎Am ‎J ‎Clin ‎Nutr.‏ ‎1999;‏ ‎69:1309S–1314S.‏ ‎doi: ‎https://doi.org/10.1093/ajcn/69.6.1309S
  13. Weed‏ ‎DL. ‎Interpreting‏ ‎epidemiological ‎evidence:‏ ‎how‏ ‎meta-analysis ‎and‏ ‎causal ‎inference ‎methods ‎are ‎related.‏ ‎Int ‎J‏ ‎Epidemiol.‏ ‎2000; ‎29:387–390. ‎doi:‏ ‎https://doi.org/10.1093/ije/29.3.387
  14. Holman ‎CD,‏ ‎rnold-Reed ‎DE, ‎de ‎KN,‏ ‎McComb‏ ‎C, ‎English‏ ‎DR. ‎A‏ ‎psychometric ‎experiment ‎in ‎causal ‎inference‏ ‎to‏ ‎estimate ‎evidential‏ ‎weights ‎used‏ ‎by ‎epidemiologists. ‎Epidemiology. ‎2001; ‎12:246–255.‏ ‎doi:‏ ‎https://doi.org/10.1097/00001648-200103000-00019
  15. Lipton‏ ‎R, ‎Odegaard‏ ‎T. ‎Causal‏ ‎thinking ‎and‏ ‎causal‏ ‎language ‎in‏ ‎epidemiology: ‎it’s ‎in ‎the ‎details.‏ ‎Epidemiol ‎Perspect‏ ‎Innov.‏ ‎2005; ‎2:8. ‎doi:‏ ‎https://doi.org/10.1186/1742-5573-2-8
  16. Maldonado ‎G,‏ ‎Greenland ‎S. ‎Estimating ‎causal‏ ‎effects.‏ ‎Int ‎J‏ ‎Epidemiol. ‎2002;‏ ‎31:422–429. ‎doi: ‎https://doi.org/10.1093/ije/31.2.422
  17. Phillips ‎CV, ‎Maldonado‏ ‎G.‏ ‎Using ‎Monte‏ ‎Carlo ‎methods‏ ‎to ‎quantify ‎the ‎multiple ‎sources‏ ‎of‏ ‎error‏ ‎in ‎studies.‏ ‎American ‎Journal‏ ‎of ‎Epidemiology.‏ ‎1999;‏ ‎149:S17.
  18. Phillips ‎CV.‏ ‎Quantifying ‎And ‎Reporting ‎Uncertainty ‎From‏ ‎Systematic ‎Errors.‏ ‎Epidemiology.‏ ‎2003; ‎14:459–466. ‎doi:‏ ‎https://doi.org/10.1097/01.ede.0000072106.65262.ae
  19. Greenland ‎S,‏ ‎Robins ‎JM. ‎Identifiability, ‎exchangeability,‏ ‎and‏ ‎epidemiological ‎confounding.‏ ‎Int ‎J‏ ‎Epidemiol. ‎1986; ‎15:413–419. ‎doi: ‎https://doi.org/10.1093/ije/15.3.413
  20. Slovic‏ ‎P,‏ ‎Fischhoff ‎B,‏ ‎Lichtenstein ‎S.‏ ‎Rating ‎the ‎risks. ‎In: ‎Slovic‏ ‎P,‏ ‎editor.‏ ‎The ‎Perception‏ ‎of ‎Risk.‏ ‎London: ‎Earthscan‏ ‎Publications;‏ ‎2000. ‎pp.‏ ‎104–120.
  21. Kahneman ‎D, ‎Slovic ‎P, ‎Tversky‏ ‎A. ‎Judgment‏ ‎Under‏ ‎Uncertainty: ‎Heuristics ‎and‏ ‎Biases. ‎Cambridge:‏ ‎Cambridge ‎University ‎Press; ‎1982.
  22. Weiss‏ ‎NS.‏ ‎Can ‎the‏ ‎«specificity» ‎of‏ ‎an ‎association ‎be ‎rehabilitated ‎as‏ ‎a‏ ‎basis ‎for‏ ‎supporting ‎a‏ ‎causal ‎hypothesis? ‎Epidemiology. ‎2002; ‎13:6–8.‏ ‎doi:‏ ‎https://doi.org/10.1097/00001648-200201000-00003
  23. Rothman‏ ‎KJ, ‎Greenland‏ ‎S. ‎Modern‏ ‎Epidemiology. ‎2.‏ ‎Philadelphia:‏ ‎Lippincott ‎Williams‏ ‎& ‎Wilkins; ‎1998.
  24. Susser ‎M. ‎Causal‏ ‎Thinking ‎in‏ ‎the‏ ‎Health ‎Sciences: ‎Concepts‏ ‎and ‎Strategies‏ ‎of ‎Epidemiology. ‎New ‎York:‏ ‎Oxford‏ ‎Univ. ‎Press;‏ ‎1973.
  25. Phillips ‎CV.‏ ‎Publication ‎bias ‎in ‎situ. ‎BMC‏ ‎Med‏ ‎Res ‎Methodol.‏ ‎2004; ‎4:20.‏ ‎doi: ‎https://doi.org/10.1186/1471-2288-4-20
  26. Phillips ‎CV, ‎Goodman ‎KJ,‏ ‎Poole‏ ‎C.‏ ‎Lead ‎editorial:‏ ‎The ‎need‏ ‎for ‎greater‏ ‎perspective‏ ‎and ‎innovation‏ ‎in ‎epidemiology. ‎Epidemiol ‎Perspect ‎Innov.‏ ‎2004; ‎1:1.‏ ‎doi:‏ ‎https://doi.org/10.1186/1742-5573-1-1
  27. Maldonado ‎G, ‎Phillips‏ ‎CV. ‎Editorial:‏ ‎Wishful ‎thinking. ‎Epidemiol ‎Perspect‏ ‎Innov.‏ ‎2004; ‎1:2.‏ ‎doi: ‎https://doi.org/10.1186/1742-5573-1-2
Читать: 6+ мин
logo Журнал «Синтез доказательств»

Через Призму — Статистический синтез помимо метаанализа

Павел ‎Желнов

Эксклюзивный‏ ‎цикл ‎постов ‎для ‎широкой ‎аудитории‏ ‎«Через ‎Призму»,‏ ‎где‏ ‎мы ‎с ‎вами‏ ‎начнем ‎знакомиться‏ ‎с ‎описанием ‎систематических ‎обзоров‏ ‎по‏ ‎рекомендациям ‎PRISMA‏ ‎2020 ‎[1].‏ ‎Идея ‎зародилась ‎по ‎мере ‎того,‏ ‎как‏ ‎я ‎переводил‏ ‎эти ‎рекомендации‏ ‎на ‎русский ‎язык, и ‎мне ‎захотелось‏ ‎поделиться‏ ‎интересными‏ ‎открытиями ‎и‏ ‎наблюдениями, ‎которые‏ ‎я ‎делал‏ ‎на‏ ‎этом ‎пути.

Сегодня‏ ‎мы ‎рассмотрим ‎рекомендацию:

If ‎other ‎statistical‏ ‎synthesis ‎methods‏ ‎were‏ ‎used ‎(e.g. ‎summarising‏ ‎effect ‎estimates,‏ ‎combining ‎P ‎values), ‎report‏ ‎the‏ ‎synthesized ‎result‏ ‎and ‎a‏ ‎measure ‎of ‎precision ‎(or ‎equivalent‏ ‎information,‏ ‎for ‎example,‏ ‎the ‎number‏ ‎of ‎studies ‎and ‎total ‎sample‏ ‎size).

Для‏ ‎ускорения‏ ‎работы ‎я‏ ‎выбрал ‎гибридный‏ ‎подход, ‎когда‏ ‎первичный‏ ‎перевод ‎за‏ ‎меня ‎готовит ‎программа ‎автоматического ‎перевода‏ ‎(в ‎данном‏ ‎случае‏ ‎DeepL), а ‎затем ‎я‏ ‎сажусь ‎и‏ ‎вручную ‎выверяю ‎этот ‎перевод,‏ ‎в‏ ‎том ‎числе‏ ‎сравнивая ‎его‏ ‎с ‎обратным ‎переводом ‎на ‎английский‏ ‎язык.‏ ‎Поясню ‎на‏ ‎примере.

Переводчик ‎DeepL перевел‏ ‎мне ‎эту ‎рекомендацию ‎так:

Если ‎использовались‏ ‎другие‏ ‎методы‏ ‎статистического ‎синтеза‏ ‎(например, ‎суммирование‏ ‎оценок ‎эффекта,‏ ‎объединение‏ ‎значений ‎P),‏ ‎сообщите ‎результат ‎синтеза ‎и ‎меру‏ ‎точности ‎(или‏ ‎эквивалентную‏ ‎информацию, ‎например, ‎количество‏ ‎исследований ‎и‏ ‎общий ‎объем ‎выборки).

Здесь ‎мне‏ ‎не‏ ‎понравился ‎перевод‏ ‎«суммирование» ‎для‏ ‎«summarising» ‎в ‎«суммировании ‎оценок ‎эффекта».‏ ‎Summarising (или‏ ‎с ‎американским‏ ‎написанием ‎summarizing) — это‏ ‎подготовка ‎сводки ‎или ‎резюме ‎чего-либо.‏ ‎Например,‏ ‎именно‏ ‎так ‎Кокрейн‏ ‎Россия ‎перевели‏ ‎«summary» ‎в‏ ‎«Summary‏ ‎of ‎Findings‏ ‎table»: ‎таблица ‎«Сводка ‎/ ‎резюме‏ ‎результатов» ‎[2]. Глагол‏ ‎«report»‏ ‎после ‎консультации ‎с‏ ‎коллегами ‎я‏ ‎условился ‎везде ‎переводить ‎как‏ ‎описать‏ ‎/ ‎описывать, поэтому‏ ‎перевод ‎«сообщите»‏ ‎потребовал ‎замены. ‎Перевод ‎«точность» ‎для‏ ‎precision — слишком‏ ‎общий, ‎и‏ ‎корректнее ‎перевести‏ ‎«прецизионность», ‎как ‎установлено, ‎в ‎частности,‏ ‎одним‏ ‎ГОСТ-ом‏ ‎[3].

Таким ‎образом,‏ ‎после ‎моих‏ ‎правок ‎перевод‏ ‎стал‏ ‎выглядеть ‎так:

Если‏ ‎использовались ‎другие ‎методы ‎статистического ‎синтеза‏ ‎(например, ‎резюмирование‏ ‎оценок‏ ‎эффекта, ‎объединение ‎значений‏ ‎P), ‎опишите‏ ‎результат ‎синтеза ‎и ‎меру‏ ‎прецизионности‏ ‎(или ‎эквивалентную‏ ‎информацию, ‎например,‏ ‎количество ‎исследований ‎и ‎общий ‎объем‏ ‎выборки).

Теперь‏ ‎давайте ‎посмотрим‏ ‎обратные ‎переводы.‏ ‎Когда ‎мой ‎перевод ‎будут ‎смотреть‏ ‎зарубежные‏ ‎эксперты,‏ ‎оригинальные ‎авторы‏ ‎рекомендаций, ‎они‏ ‎будут ‎оценивать‏ ‎корректность‏ ‎перевода ‎именно‏ ‎по ‎обратной ‎англоязычной ‎версии, ‎поэтому‏ ‎принципиально ‎важно‏ ‎заранее‏ ‎позаботиться ‎о ‎минимизации‏ ‎расхождений ‎и‏ ‎предупредить ‎все ‎возможные ‎недоразумения‏ ‎комментариями‏ ‎к ‎переводу.

Смотрим,‏ ‎как ‎обратно‏ ‎переводит ‎Гугл:

If ‎other ‎statistical ‎synthesis‏ ‎methods‏ ‎were ‎used‏ ‎(eg, ‎summarizing‏ ‎effect ‎estimates, ‎pooling ‎P-values), ‎describe‏ ‎the‏ ‎result‏ ‎of ‎the‏ ‎synthesis ‎and‏ ‎the ‎measure‏ ‎of‏ ‎precision ‎(or‏ ‎equivalent ‎information, ‎eg, ‎number ‎of‏ ‎studies ‎and‏ ‎total‏ ‎sample ‎size).

Не ‎так‏ ‎плохо, ‎меня‏ ‎все ‎устраивает ‎— ‎только‏ ‎вот‏ ‎combining превратилось ‎в‏ ‎pooling, но ‎мы‏ ‎к ‎этому ‎вернемся.

Переводчик ‎DeepL:

If ‎other‏ ‎statistical‏ ‎synthesis ‎methods‏ ‎were ‎used‏ ‎(e.g. ‎summation ‎of ‎effect ‎estimates,‏ ‎pooling‏ ‎of‏ ‎P ‎values),‏ ‎describe ‎the‏ ‎result ‎of‏ ‎the‏ ‎synthesis ‎and‏ ‎the ‎measure ‎of ‎precision ‎(or‏ ‎equivalent ‎information,‏ ‎e.g.‏ ‎number ‎of ‎trials‏ ‎and ‎total‏ ‎sample ‎size).

И ‎хотя ‎немного‏ ‎смущает‏ ‎summation как ‎перевод‏ ‎для ‎«резюмирования»,‏ ‎что ‎вполне ‎можно ‎списать ‎на‏ ‎недочет‏ ‎автоперевода, ‎опять‏ ‎же ‎обратный‏ ‎перевод ‎весьма ‎близок ‎к ‎оригиналу,‏ ‎но‏ ‎вот‏ ‎только ‎снова‏ ‎combining превратилось ‎в‏ ‎pooling. А ‎теперь‏ ‎давайте‏ ‎подумаем, ‎насколько‏ ‎это ‎критично, ‎и ‎для ‎этого‏ ‎разберем, ‎а‏ ‎о‏ ‎чем ‎же ‎вообще‏ ‎идет ‎речь‏ ‎в ‎этой ‎рекомендации.

Прежде ‎всего,‏ ‎«другие‏ ‎методы ‎статистического‏ ‎синтеза» ‎здесь‏ ‎означают ‎любые ‎другие ‎методы ‎статистического‏ ‎синтеза,‏ ‎за ‎исключением‏ ‎метаанализа. ‎Эта‏ ‎рекомендация ‎вырвана ‎мной ‎из ‎основных‏ ‎элементов‏ ‎(essential‏ ‎elements) [4] пункта ‎20b,‏ ‎касающегося ‎представления‏ ‎результатов ‎статистических‏ ‎синтезов,‏ ‎и ‎контекст‏ ‎у ‎нее ‎именно ‎таков. ‎Прекрасное‏ ‎представление ‎об‏ ‎этих‏ ‎других ‎методах ‎позволяет‏ ‎получить ‎12-я‏ ‎глава ‎6-го ‎издания ‎Кокрейновского‏ ‎справочника‏ ‎[5]. ‎Русский‏ ‎перевод ‎справочника‏ ‎пока ‎не ‎опубликован, ‎поэтому ‎пересказываю.

Касаемо‏ ‎«резюмирования‏ ‎оценок ‎эффекта»‏ ‎речь ‎идет‏ ‎о ‎том, ‎что ‎при ‎отсутствии‏ ‎данных‏ ‎о‏ ‎дисперсии ‎эффектов‏ ‎в ‎исследованиях‏ ‎затрудняется ‎проведение‏ ‎метаанализа,‏ ‎но ‎ничто‏ ‎не ‎мешает ‎исследователю ‎стандартизировать ‎оценки‏ ‎эффектов, ‎взятые‏ ‎из‏ ‎исследований, ‎и ‎описать‏ ‎их ‎дескриптивными‏ ‎статистиками, ‎например ‎медианой ‎и‏ ‎межквартильным‏ ‎размахом. ‎Это‏ ‎и ‎будет‏ ‎резюмированием, ‎или ‎сведением, ‎оценок ‎эффектов.

«Объединение‏ ‎значений‏ ‎P» ‎—‏ ‎процедура, ‎к‏ ‎которой ‎приходится ‎прибегать, ‎если ‎в‏ ‎подлежащих‏ ‎синтезу‏ ‎исследованиях ‎не‏ ‎сообщается ‎достаточной‏ ‎информации ‎об‏ ‎оценках‏ ‎эффектов, ‎а‏ ‎известны ‎в ‎основном ‎лишь ‎p-значения.‏ ‎Я ‎не‏ ‎буду‏ ‎здесь ‎сейчас ‎углубляться‏ ‎в ‎детали,‏ ‎но ‎методики ‎такие ‎описаны,‏ ‎и‏ ‎при ‎желании‏ ‎можно ‎как-нибудь‏ ‎их ‎разобрать ‎подробно. ‎И ‎касаемо‏ ‎обратного‏ ‎перевода ‎«pooling»‏ ‎вместо ‎«combining»‏ ‎— ‎да, ‎гуглопоиск в ‎данном ‎случае‏ ‎уверенно‏ ‎позволяет‏ ‎сказать, ‎что‏ ‎такое ‎употребление‏ ‎тоже ‎встречается‏ ‎в‏ ‎том ‎же‏ ‎значении, ‎а ‎значит, ‎перевод ‎«объединение»‏ ‎нас ‎здесь‏ ‎устраивает.

Литература

1. Page‏ ‎M ‎J, ‎McKenzie‏ ‎J ‎E,‏ ‎BossuytP ‎M, ‎Boutron ‎I,‏ ‎Hoffmann‏ ‎T ‎C,‏ ‎Mulrow ‎C‏ ‎D ‎et ‎al. ‎The ‎PRISMA‏ ‎2020‏ ‎statement: ‎an‏ ‎updated ‎guideline‏ ‎for ‎reporting ‎systematic ‎reviews  ‎BMJ‏  ‎2021; 372 : n71‏ ‎doi:‏ ‎10.1136/bmj.n71

2. Официальный ‎русский‏ ‎перевод ‎стандартов‏ ‎MECIR, ‎версия‏ ‎от‏ ‎февраля ‎2021‏ ‎г. (PDF).

3. ГОСТ ‎Р ‎ИСО ‎5725-1-2002.

4. Page ‎M‏ ‎J, ‎Moher‏ ‎D,‏ ‎Bossuyt ‎P ‎M,‏ ‎Boutron ‎I,‏ ‎Hoffmann ‎T ‎C, ‎Mulrow‏ ‎C‏ ‎D ‎et‏ ‎al. ‎PRISMA‏ ‎2020 ‎explanation ‎and ‎elaboration: ‎updated‏ ‎guidance‏ ‎and ‎exemplars‏ ‎for ‎reporting‏ ‎systematic ‎reviews ‎BMJ  ‎2021; 372 : n160 ‎doi:‏ ‎10.1136/bmj.n160

5. McKenzie‏ ‎JE,‏ ‎Brennan ‎SE.‏ ‎Chapter ‎12:‏ ‎Synthesizing ‎and‏ ‎presenting‏ ‎findings ‎using‏ ‎other ‎methods. ‎In: ‎Higgins ‎JPT,‏ ‎Thomas ‎J,‏ ‎Chandler‏ ‎J, ‎Cumpston ‎M,‏ ‎Li ‎T,‏ ‎Page ‎MJ, ‎Welch ‎VA‏ ‎(editors).‏ ‎Cochrane ‎Handbook‏ ‎for ‎Systematic‏ ‎Reviews ‎of ‎Interventions ‎version ‎6.2‏ ‎(updated‏ ‎February ‎2021).‏ ‎Cochrane, ‎2021.‏ ‎Available ‎from ‎www.training.cochrane.org/handbook

Интересно? Делаем следующий выпуск «Через Призму»?
Читать: 3+ мин
logo Журнал «Синтез доказательств»

Тонкости перевода: как передать разницу в артиклях видом глагола

Павел ‎Желнов

Перевожу‏ ‎я ‎PRISMA ‎2020¹ (давно ‎уже), и ‎есть‏ ‎там ‎такая‏ ‎фраза:

If‏ ‎any ‎sensitivity ‎analyses‏ ‎seeking ‎to‏ ‎explore ‎the ‎potential ‎impact‏ ‎of‏ ‎missing ‎results‏ ‎on ‎the‏ ‎synthesis ‎were ‎conducted, ‎present ‎results‏ ‎of‏ ‎each ‎analysis‏ ‎(see ‎item‏ ‎#20d), ‎compare ‎them ‎with ‎results‏ ‎of‏ ‎the‏ ‎primary ‎analysis,‏ ‎and ‎report‏ ‎results ‎with‏ ‎due‏ ‎consideration ‎of‏ ‎the ‎limitations ‎of ‎the ‎statistical‏ ‎method.

Гугл ‎Переводчик переводит‏ ‎нам‏ ‎это ‎так:

Если ‎были‏ ‎проведены ‎какие-либо‏ ‎анализы ‎чувствительности, ‎направленные ‎на‏ ‎изучение‏ ‎потенциального ‎влияния‏ ‎отсутствующих ‎результатов‏ ‎на ‎синтез, ‎представьте ‎результаты ‎каждого‏ ‎анализа‏ ‎(см. ‎пункт‏ ‎№ ‎20d),‏ ‎сравните ‎их ‎с ‎результатами ‎первичного‏ ‎анализа‏ ‎и‏ ‎сообщите ‎результаты‏ ‎с ‎должным‏ ‎учетом ‎ограничений‏ ‎статистического‏ ‎метода.

Переводчик ‎DeepL переводит‏ ‎так:

Если ‎проводились ‎какие-либо ‎анализы ‎чувствительности,‏ ‎направленные ‎на‏ ‎изучение‏ ‎потенциального ‎влияния ‎отсутствующих‏ ‎результатов ‎на‏ ‎синтез, ‎представьте ‎результаты ‎каждого‏ ‎анализа‏ ‎(см. ‎пункт‏ ‎№ ‎20d),‏ ‎сравните ‎их ‎с ‎результатами ‎первичного‏ ‎анализа‏ ‎и ‎сообщите‏ ‎о ‎результатах‏ ‎с ‎учетом ‎ограничений ‎статистического ‎метода.

И‏ ‎в‏ ‎целом‏ ‎у ‎меня‏ ‎нет ‎каких-то‏ ‎серьезных ‎претензий‏ ‎к‏ ‎этим ‎переводам,‏ ‎но ‎есть ‎одна ‎тонкость. ‎Обратите‏ ‎внимание, ‎что‏ ‎слово‏ ‎«результаты» ‎в ‎этой‏ ‎фразе ‎фигурирует‏ ‎аж ‎четыре ‎раза, ‎причем‏ ‎каждый‏ ‎раз ‎речь‏ ‎идет ‎о‏ ‎разных ‎результатах. ‎В ‎английском ‎оригинале‏ ‎недоразумений‏ ‎не ‎возникает,‏ ‎поскольку ‎везде‏ ‎используется ‎неопределенный ‎артикль, ‎и ‎потому‏ ‎смысл‏ ‎этих‏ ‎слов ‎всецело‏ ‎определяется ‎их‏ ‎зависимыми ‎словами.‏ ‎В‏ ‎русском ‎же‏ ‎переводе ‎с ‎«результатами» ‎получается, ‎мягко‏ ‎говоря, ‎перебор.

Что‏ ‎мне‏ ‎пришло ‎в ‎голову?‏ ‎В ‎английском‏ ‎ведь ‎у ‎глаголов ‎нет‏ ‎вида‏ ‎(совершенный/несовершенный: ‎сделать/делать,‏ ‎сходить/ходить ‎и‏ ‎т. ‎д.), ‎и ‎поэтому ‎выбор‏ ‎вида‏ ‎при ‎переводе‏ ‎ложится ‎тяжелым‏ ‎грузом ‎на ‎плечи ‎переводчика. ‎Но‏ ‎только‏ ‎посмотрите,‏ ‎что ‎получается,‏ ‎если ‎всего-навсего‏ ‎в ‎однородных‏ ‎сказуемых‏ ‎заменить ‎вид‏ ‎глаголов ‎с ‎совершенного ‎на ‎несовершенный:

Если‏ ‎проводились ‎какие-либо‏ ‎анализы‏ ‎чувствительности, ‎направленные ‎на‏ ‎изучение ‎потенциального‏ ‎влияния ‎отсутствующих ‎результатов ‎на‏ ‎синтез,‏ ‎представляйте ‎результаты‏ ‎каждого ‎анализа‏ ‎(см. ‎пункт ‎№ ‎20d), ‎сравнивайте‏ ‎их‏ ‎с ‎результатами‏ ‎первичного ‎анализа‏ ‎и ‎описывайте ‎результаты ‎с ‎должным‏ ‎вниманием‏ ‎к‏ ‎ограничениям ‎статистического‏ ‎метода.

В ‎такой‏ ‎интерпретации, ‎как‏ ‎мне‏ ‎кажется, ‎уже‏ ‎становится ‎совершенно ‎понятно, ‎что ‎«результаты»‏ ‎при ‎однородных‏ ‎сказуемых‏ ‎совершенно ‎разные ‎и‏ ‎друг ‎к‏ ‎другу ‎не ‎относятся. ‎Это‏ ‎еще‏ ‎одно ‎интересное‏ ‎наблюдение, ‎как‏ ‎вид ‎глагола ‎в ‎русском ‎языке‏ ‎позволяет‏ ‎решать ‎задачи,‏ ‎решаемые ‎в‏ ‎английском ‎другими ‎языковыми ‎средствами ‎(другой‏ ‎пример‏ ‎—‏ ‎использование ‎вида‏ ‎для ‎передачи‏ ‎различий ‎между‏ ‎Present‏ ‎Perfect ‎и‏ ‎Past ‎Simple/Indefinite).

Список ‎литературы

1. Page ‎MJ, ‎McKenzie‏ ‎JE, ‎Bossuyt‏ ‎PM,‏ ‎Boutron ‎I, ‎Hoffmann‏ ‎TC, ‎Mulrow‏ ‎CD, ‎Shamseer ‎L, ‎Tetzlaff‏ ‎JM,‏ ‎Akl ‎EA,‏ ‎Brennan ‎SE,‏ ‎Chou ‎R, ‎Glanville ‎J, ‎Grimshaw‏ ‎JM,‏ ‎Hróbjartsson ‎A,‏ ‎Lalu ‎MM,‏ ‎Li ‎T, ‎Loder ‎EW, ‎Mayo-Wilson‏ ‎E,‏ ‎McDonald‏ ‎S, ‎McGuinness‏ ‎LA, ‎Stewart‏ ‎LA, ‎Thomas‏ ‎J,‏ ‎Tricco ‎AC,‏ ‎Welch ‎VA, ‎Whiting ‎P, ‎Moher‏ ‎D. ‎The‏ ‎PRISMA‏ ‎2020 ‎statement: ‎an‏ ‎updated ‎guideline‏ ‎for ‎reporting ‎systematic ‎reviews.‏ ‎BMJ.‏ ‎2021 ‎Mar‏ ‎29; ‎372:n71.‏ ‎doi: ‎10.1136/bmj.n71.

Хотите узнать больше о том, как разница между Present Perfect и Past Simple/Indefinite реализуется в русском языке?
Показать еще

Подарить подписку

Будет создан код, который позволит адресату получить бесплатный для него доступ на определённый уровень подписки.

Оплата за этого пользователя будет списываться с вашей карты вплоть до отмены подписки. Код может быть показан на экране или отправлен по почте вместе с инструкцией.

Будет создан код, который позволит адресату получить сумму на баланс.

Разово будет списана указанная сумма и зачислена на баланс пользователя, воспользовавшегося данным промокодом.

Добавить карту
0/2048