Карл В. Филлипс, Карен Дж. Гудман
Источник: Emerg Themes Epidemiol. 2006; 3:5. doi: https://doi.org/10.1186/1742-7622-3-5 (опубликовано 26 мая 2006 г.).
Данная статья с открытым доступом распространяется в соответствии с условиями лицензии Creative Commons Attribution License (CC BY 2.0), которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии правильного цитирования оригинальной работы.
Переведено 4 апреля 2025 г. при помощи Google Gemini 1.5 Pro на нулевой температуре. Системные инструкции взяты отсюда.
Аннотация
Два устойчивых мифа в эпидемиологии заключаются в том, что мы можем использовать список «причинных критериев» для алгоритмического подхода к выводу причинно-следственных связей и что современная «контрфактическая модель» может помочь в том же начинании. Мы утверждаем, что это не критерии и не модель, а списки причинных соображений и формализации контрфактического определения причинности, тем не менее, являются полезными инструментами для развития научного мышления. Они направляют нас на путь здравого смысла научного исследования, включая проверку гипотез (действительно подвергая их испытанию, а не просто рассчитывая упрощенную статистику), решение проблемы Дюгема-Куайна и избежание многих распространенных ошибок. Таким образом, известные соображения Остина Брэдфорда Хилла чрезмерно интерпретируются теми, кто использует их в качестве критериев, и недооцениваются теми, кто считает их ошибочными. Аналогичным образом, формализации контрфактических утверждений недооцениваются как уроки базового научного мышления. Потребность в уроках научного здравого смысла велика в эпидемиологии, которая преподается в основном как инженерная дисциплина и практикуется в основном как выполнение технических задач, что делает внимание к основным принципам научного исследования крайне редким.
Введение
Интересный устойчивый миф в эпидемиологии заключается в том, что Остин Брэдфорд Хилл, комитет, подготовивший первый отчет главного хирурга США о курении, Мервин Сассер или другие авторы, предоставили нам набор критериев для определения причинно-следственных связей. Это представление удивительно устойчиво, учитывая, что эти списки явно не соответствуют обычным определениям критериев, которые подразумевают какое-то правило или тест. Даже когда авторы, ссылающиеся на «критерии Брэдфорда Хилла», уступают критике различных авторов (включая нас [1]) и послушно используют слово Хилла — «соображения» — вместо «критерии», они, похоже, все еще находятся в поисках неуловимых критериев.
Более свежий миф заключается в том, что существует некая «контрфактическая модель», которая может помочь нам лучше распознавать и понимать причинность в эпидемиологии. Так же, как причинные критерии не являются критериями, формальное представление контрфактических утверждений не соответствует определению модели, которую можно рассматривать как схему или представление, отражающее часть сущности более сложной системы таким образом, что возникают новые свойства.
На этих страницах Хёфлер [2] поставил перед собой цель попытаться лучше понять соображения Хилла [3], обратившись к контрфактической модели. Как можно предположить из вышесказанного, мы не считаем это перспективным занятием. Мы утверждаем, что причинные соображения и концептуализация контрфактических утверждений полезны, но не таким образом, чтобы поддерживать анализ, подобный анализу Хёфлера. Тем не менее, Хёфлер дает, возможно, лучшую однострочную оценку концепции причинных критериев и изящно (хотя, возможно, непреднамеренно) помогает обосновать тезис о том, что причинные соображения и контрфактические утверждения — это, прежде всего, ориентиры на пути к здравому смыслу.
Анализ
Не критерии
«Критерии» иногда определяются слишком широко, включая все, о чем вы, возможно, захотите подумать при принятии решения (то есть как синоним «соображений»). Но большинство определений включает ссылку на тест, основу для суждения или условие (и любой, кто пытается «применить» набор критериев для принятия решения, должен иметь в виду такое определение). Очевидно, что причинные соображения не соответствуют этим более строгим определениям критериев. Не существует метода для определения того, выполняется ли каждое соображение и насколько хорошо (например, исследователи, кажется, могут придумать какую-нибудь биологическую историю, чтобы объяснить любую ассоциацию в своих данных; насколько абсурдной она должна быть, прежде чем биологическая правдоподобность исчезнет?), не говоря уже о том, как мы будем агрегировать такие оценки для отдельных соображений в окончательное решение о причине и следствии. Это, как правило, упускается из виду, когда основная критика комментаторов заключается в том, что предлагаемые условия не являются ни необходимыми, ни достаточными, упуская из виду тот важный факт, что они на самом деле не являются четко определенными условиями (и, следовательно, не могут быть ни необходимыми, ни достаточными, ни не-необходимыми, ни не-достаточными).
Учитывая это, поучительно рассмотреть последствия того, что авторы приводят практические примеры выполнения причинных условий в качестве доказательства того, что эти условия являются либо информативными, либо вводящими в заблуждение, или попыток, подобных попыткам Хёфлера, улучшить применение критериев. Эти авторы явно имеют в виду некоторый стандарт для оценки того, выполняется ли условие и является ли связь причинной. Последняя оценка должна быть независимой от критериев (поскольку она предназначена для подтверждения полезности критериев) и, что наиболее важно, предположительно должна быть чем-то, с чем согласится большинство читателей. Это предполагает наличие общего здравого смысла. Пул [4,5], вдохновленный Томасом Куном [6,7], предполагает, что причинные соображения — это не критерии, а «ценности», которых разные ученые могут придерживаться в разной степени. Ценности являются основой для выводов о реальном мире, но, как правило, лишены систем оценки и других элементов алгоритмов, и любые утверждения, основанные на них, подлежат интерпретации и проверке. Действительно, эмпирические и экспериментальные данные, цитируемые Пулом, ясно показывают, что интерпретации соображений эпидемиологами существенно различаются [8-14]. Но споры между учеными о том, какие ценности являются законными, предполагают чувство, что должен существовать некоторый общий научный здравый смысл, а не постоянная неоднородность ценностей.
Ни один список, ни список Хилла, ни какой-либо другой, не может кодифицировать здравый смысл, но он может познакомить с некоторыми его аспектами и тем самым обеспечить отправную точку. Это весьма полезно, поскольку здравый смысл тревожно нераспространен и поэтому нуждается в любой возможной помощи. Для исследователей, которые не учитывают, скажем, согласованность между исследованиями или соответствие предыдущим знаниям при оценке причинности и гордо заявляют, что «наше исследование впервые показывает, что воздействие E вызывает заболевание D, вопреки многочисленным предыдущим выводам», урок здравого смысла Хилла имеет непосредственную ценность. Внимательное отношение к причинным соображениям Хилла или других авторов побудило бы любого, кто пишет: «Наше исследование впервые показывает X…», добавить к этому — как они почти всегда и должны — «…поэтому X, вероятно, неверно».
Конечно, здравый смысл наиболее полезен в простых случаях, в то время как моделирование (например, построение диаграмм причинных путей) становится более важным по мере усложнения системы. Хёфлер отмечает, что «эвристическая ценность соображений Хилла стремится к нулю по мере увеличения сложности причинной системы и неопределенности относительно истинной причинной системы» [2]. Это может быть окончательным наблюдением относительно причинных критериев/соображений. Если попытаться перефразировать это проще, списки причинных соображений — довольно хорошие эмпирические правила, когда оцениваемая система проста, но в случаях, когда оценка причинности требует большего, чем здравый смысл, эти списки не будут особенно полезны. Хёфлер пытается улучшить список Хилла, чтобы сделать его более полезным в сложных случаях, но мы думаем, что он был прав с самого начала: в сложной системе список может служить только инструментом для обучения научному здравому смыслу, и как бы мы ни пытались его приукрасить, он не может служить контрольным списком, алгоритмом или методом.
Не модель
Использование термина «модель» в предыдущем абзаце иллюстрирует его значение. Диаграммы причинно-следственных связей принимают в качестве входных данных некоторые из известных или постулируемых элементов реальной системы причин и следствий и схематизируют их таким образом, что можно извлечь новые знания (т. е. выходящие за рамки самих входных данных). В этом смысле небольшая трехмерная масштабная версия самолета является моделью (потому что, например, мы можем поместить ее в аэродинамическую трубу и узнать что-то о реальном самолете, чего мы не знали, когда создавали модель), но фотография самолета не является моделью (по крайней мере, не в каком-либо очевидном смысле). Фраза «аппараты тяжелее воздуха с неподвижным крылом и собственным двигателем» также не является моделью. Эта фраза содержит информацию о самолетах, но иначе, чем модель: это определение самолетов. Мы должны иметь в виду эту фразу (или какой-либо ее вариант), прежде чем вообще имеет смысл говорить о самолетах, не говоря уже о их моделировании. Может быть полезно обратиться к определению, если во время оценки самолетов мы каким-то образом потеряли связь с классом вещей, о которых мы говорим. Но определение — это не модель; оно не предлагает способа извлечь какую-либо информацию, которая не является просто входными данными для него, например, оценить летную годность конкретного самолета. Действительно, само по себе оно не может помочь нам определить, действительно ли конкретный объект соответствует требованиям (например, действительно ли он может летать).
В этом ключе то, что многие авторы, включая Хёфлера, ошибочно называют «контрфактической моделью причинности», можно легко рассматривать как определение, а не как модель. Существует обширная философская литература о значении глагола «вызывать» (в том числе когда он подразумевается во многих других глаголах или фразах, таких как «увеличивает», «приводит к» и «защищает от» [15]). Эти дискуссии включают альтернативные определения, а также аргументы о том, что это слово фактически не имеет четкого определения. Но в повседневном практическом мире эпидемиологии (области, которую мы широко определяем как эмпирические и экспериментальные исследования заболеваний и связанных со здоровьем воздействий, где человек является единицей анализа), мы рискнем сказать, что почти каждый, кто использует причинный язык, неявно ссылается на контрфактическое определение: «если бы не E, D не произошло бы или не случилось бы, но при наличии E оно произойдет/случилось бы» (более подробно и с использованием символической логики описано Хёфлером и многими другими авторами; см., в частности, работу Мальдонадо и Гринленда «Оценка причинных эффектов» [16]). Мы не можем вспомнить ни одного случая использования слова «причина» в эпидемиологии (в исследованиях и их политических последствиях, исключая чисто философские дискуссии), где автор, казалось, имел в виду что-то другое.
Это не означает, что внимательное отношение к определению бесполезно. Мальдонадо, ведущий сторонник и преподаватель формального контрфактического определения в эпидемиологии и его последствий (который ссылается на «контрфактический подход», «концепцию» или «определение», но не на «модель»), указал, что оно помогает нам, среди прочего, в уточнении эпидемиологических вопросов, оценке того, какая статистика является подлинной мерой эффекта, разработке исследований и определении смешанных факторов. Большая часть этого, однако, возможно, является научным здравым смыслом (см. дальнейшее обсуждение ниже), не относящимся к категории «ценностей», а в форме логических выводов первого или второго порядка, которые ученые должны интуитивно понимать. Но, опять же, поскольку здравый смысл может быть крайне редок, формализации Мальдонадо и других авторов ценны.
Использование контрфактических утверждений в поисках лучших причинных критериев
Таким образом, мы согласны с оценкой Хёфлера, что Хилл, вероятно, имел в виду контрфактическую концепцию — определение, а не модель — причинности (сознательно или подсознательно), когда он выступал со своей знаменитой (и недооцененной [1]) речью [3], не просто из-за какой-то конкретной использованной им фразы, а потому, что трудно представить, что еще он мог иметь в виду. Хотя Хёфлер утверждает, что «контрфактическая причинность [предположительно, имея в виду контрфактическое определение причинности]… стала стандартом в эпидемиологии только с 1980-х годов» [2], кажется очень маловероятным, что эпидемиологи (или экономисты, или статистики, для тех, кто предпочитает такую характеристику Хилла) имели в виду какое-то другое определение до этого. Подобно Ньютону, «открывшему» гравитацию, те, кто формализовал определение причинности в философии, математической статистике и прикладных науках, сделали это в контексте, в котором большинство людей уже понимали основную идею и использовали ее (для научных выводов или чтобы не улететь в космос).
Поскольку контрфактическая концепция предоставляет лишь определение, которое Хилл разделял с большинством из нас, кажется маловероятным, что она может многому научить нас о списке Хилла. Действительно, не похоже, чтобы Хёфлер нашел что-либо существенное в понятии контрфактических утверждений.
Анализ Хёфлера начинается с условия силы связи, особенно хорошей эвристики, когда система проста (например, большое, хорошо спланированное рандомизированное исследование с результатами, которые легко измерить вскоре после вмешательства). Но сила связи значительно менее определенна, когда смешанные факторы и другие ошибки добавляют сложности к нашей оценке. Хёфлер рассматривает неопределенность, возникающую в результате ошибок исследования, задаваясь вопросом: «Позволит ли интервальная оценка, которая должным образом учитывает не только случайную, но и систематическую ошибку… сделать желаемый вывод…?», добавляя: «высокая неопределенность относительно параметров смещения требует более сильных связей, чем умеренная неопределенность». То есть, является ли связь сильной, зависит от контекста.
Разрабатываются аналитические методы для количественной оценки этого контекста, и мы ценим и поощряем внимание к количественной оценке эпидемиологической неопределенности, возникающей из-за ошибок, отличных от случайной выборки, направление мысли в эпидемиологии, которое один из нас помог запустить [17] (см. примечание 1). Но, несмотря на то, что это направление мысли возникло из работы Мальдонадо о причинных контрастах (направление мысли, которое он приблизительно связывает с Гринлендом и Робинсом [19], а также с Рубином, Нейманом, Юмом и другими мыслителями), мы должны сказать, что оценка Хёфлера, похоже, не имеет ничего общего с контрфактическими утверждениями. Она в первую очередь подтверждает его тезис о том, что сложные системы не поддаются простым эмпирическим правилам. Это соответствует тому, что мы утверждали ранее: неопределенность относительно входных предположений (например, предположений о том, что измерение является точным и что смешанные факторы контролируются) почти всегда игнорируется в эпидемиологических результатах, и было показано, что люди (включая экспертов) довольно плохо справляются с количественной оценкой возможной величины ошибки без математических средств [17,18,20,21]. Хёфлер пытается улучшить простейшую формулировку соображения о силе связи, но не предлагает ничего более операционализируемого, оставляя нас снова с ценностями или здравым смыслом.
Хёфлер строит свой анализ вокруг вопросов «что, если», называя их контрфактическими, но это не дает видимого результата от формального представления контрфактического определения или изучения его последствий. Например, заметив, что критерий согласованности страдает из-за того, что разные исследования разных популяций, как ожидается, дадут несовместимые результаты, Хёфлер задает вопросы, в том числе: «Если бы причинный эффект варьировался в разных исследованиях» (предположительно, на самом деле имея в виду, если бы он варьировался в разных исследуемых популяциях, определениях воздействия и т. д., которые неявно определяются исследованиями), «следовало бы ожидать наблюдения различных связей…?». Это полезный урок о согласованности, заменяющий ложную согласованность систематическим прогнозированием несогласованности. Это используется, например, когда авторы считают обнадеживающим тот факт, что связь с воздействием сильнее для гистологически подтвержденных случаев рака, чем для альтернативного (предположительно, более шумного) определения статуса заболевания. Поскольку мы ожидаем увидеть более сильную связь (скорее всего), когда меньше (независимая, недифференциальная) ошибка измерения, эта несогласованность может сделать нас более уверенными в причинном заключении. Однако роль контрфактических утверждений в этом уроке, помимо неявного определения причинности, неясна.
Похоже, что ценность анализа Хёфлера заключается не в контрфактических утверждениях, а в гипотетических — то есть в априорных гипотезах о том, что показали бы данные, если бы определенное предположение было верным. Возможно, это уточняет понятие «здравого смысла», заменяя его систематическим научным мышлением, в котором эпидемиология нуждается гораздо больше, чем в улучшенных списках причинных критериев. Наш пример, что разные определения заболевания должны приводить к несовместимым связям (предсказуемым образом), вводит проверяемую гипотезу. Хёфлер представляет другой пример в рамках критерия специфичности, заимствуя пример [22] о том, что ношение шлемов, если оно снижает травматизм, а не просто является показателем неизмеримой склонности действовать более осторожно, должно приводить к снижению травм головы, но не других частей тела. Оба этих примера полезны и, хотя они сразу же убедительны при представлении, могут быть шагом за пределы простого здравого смысла. Очевидно, что есть смысл учить исследователей в области здравоохранения больше думать о выдвижении и проверке гипотез (в подлинном смысле, обсуждаемом ниже). Разговоры об очевидных уликах (например, списки причинных соображений) являются хорошей отправной точкой для обучения таким урокам. Действительно, есть все основания полагать, что именно это пытался сделать Хилл, когда выступал со своей речью.
Проблемы возникают, когда люди ошибочно рассматривают уроки Хилла как принадлежащие к неправильной ветви философии, интерпретируя их как правила логической, а не практической философии науки и этики принятия решений [1]. Хёфлер (цитируя Ротмана и Гринленда [[23], стр. 27]) отмечает, что одно условие — причина должна предшествовать следствию — является «единственным sine qua non для контрфактического эффекта» (см. примечание 2). Хотя временной порядок является необходимым условием согласно нашему пониманию физики или даже простой семантики (условие непосредственно следует из некоторых формулировок определения причины), это не делает это соображение более или менее полезным, чем другие, в качестве урока здравого смысла. Уроки типа «если измеряемая тенденция к росту заболеваемости раком опережает (а не отстает от) измеряемого увеличения воздействия, которое, по вашему мнению, является его причиной, вы, вероятно, ошибаетесь в своем причинном заключении», принципиально не отличаются от других применений здравого смысла в соображениях Хилла.
Необходимость в уроках здравого смысла
Почему исследователи в области здравоохранения, aparentemente гораздо чаще, чем в других областях, цепляются за правила оценки причинности до такой степени, что у нас есть несколько таких списков, а также вторичная литература, которая пытается оценить и улучшить эти правила? Почему, как предполагают Кауфман и Пул [5], Сассер [24] предложил пять стратегий для оценки причинности — стратегии для проверки гипотез наряду со своим списком причинных критериев — но в ответ на больший интерес к списку критериев впоследствии сосредоточился на списке и уменьшил значение других стратегий? Частично ответ может заключаться в акценте на данных наблюдений (поскольку хорошо спланированные вмешательства обеспечивают более простую поддержку причинных утверждений, по крайней мере, для некоторых типов исследований). Однако это не может быть всей историей, поскольку физика и биология (не говоря уже об экономике) довольно часто полагаются только на наблюдения.
Возможно, что еще более важно, стремление найти ответы на бесчисленные различные вопросы политики, социальных наук и биологии порождает желание изучить что-то один раз (в конкретной популяции, в конкретное время, с конкретными определениями переменных), объявить ответ и двигаться дальше. Это не дает большой возможности для реальной проверки гипотез. Это побуждает исследователей в области здравоохранения проводить упрощенные статистические расчеты, которые описываются на языке проверки гипотез, и ошибочно принимать это за фактическую проверку реальной гипотезы. Это препятствует подлинной проверке гипотез по типу: «Если мы наблюдали истинную причинно-следственную связь, то мы также ожидали бы увидеть… Давайте проведем дополнительные исследования, чтобы проверить это, прежде чем сообщать о нашем результате». Мы, безусловно, ожидали бы такой проверки от другой науки, прежде чем она объявила бы, скажем, об открытии холодного ядерного синтеза или о том, что свободные рынки без ограничений улучшают жизнь людей (плохие примеры, возможно, — назовем их исключениями, которые подчеркивают ценность правила).
В эпидемиологии мало исследований, направленных на устранение неясностей, возникающих в результате проблемы Дюгема-Куайна (которая, грубо говоря, заключается в затруднительном положении, когда любое исследование, используемое для проверки конкретного утверждения, одновременно проверяет множество вспомогательных гипотез о методологии исследования, например, о том, что были использованы правильные меры, инструменты делают то, что они должны делать, и, следовательно, мы не можем быть уверены, что наблюдаемый результат подтверждает интересующую нас причинную гипотезу). Исследования редко повторяются с улучшенными (или даже другими) инструментами (см. примечание 3). Валидационные исследования проводятся иногда, довольно часто обнаруживая существенную ошибку измерения, но результаты почти никогда не включаются в первичный анализ. Даже простые анализы, не требующие дополнительных полевых работ, такие как оценка того, сильно ли зависит оценка эффекта от конкретной функциональной формы, используемой в количественном анализе (т. е. предположения статистической модели, точки отсечения для категоризации переменных и т. д.), редко публикуются.
Аналогичным образом, новые исследования по какой-либо теме почти никогда фактически не воспроизводят результат, не делая простого шага по использованию ранее определенной модели на другом наборе данных. Вместо этого они используют новую априорную модель, гарантируя, что слишком много вещей меняется одновременно, чтобы мы могли отличить интересующий нас результат от вспомогательных гипотез. (Эпидемиологи могут счесть этот момент наиболее знакомым в контексте метаанализа, где внимательные исследователи часто обнаруживают, что существует гораздо больше измерений вариации между методами исследования, чем самих исследований.) Утверждения о причинности в этом контексте довольно натянуты, какими бы ни были модели, критерии или уравнения.
Что еще хуже, существует не просто небрежность в отношении хорошей науки, но и фактические попытки подорвать ее. Не только нет попыток провести и сообщить об альтернативных анализах, которые проверяют надежность статистической модели и используют результаты таких тестов для устранения неопределенности, но во многих случаях выполняется множество статистических расчетов, и тот, о котором сообщается, выбирается потому, что он является выбросом (т. е. потому, что он показывает впечатляющий результат), что делает его, скорее всего, артефактом ложных вспомогательных гипотез о модели [25]. Таким образом, исследователи не только не проверяют дополнительно причинные выводы, которые они делают на основе своих данных, но и их причинные выводы часто даже не подтверждаются их данными (поскольку большинство расчетов с использованием данных дадут менее экстремальные результаты, чем те, о которых сообщается). Этот подход нарушает нормы здравого смысла научного исследования, включая часто упускаемое из виду предварительное соображение Хилла о том, что данные должны в первую очередь показывать связь. К сожалению, такое искажение не очень удивительно, когда стремление получить интересный результат не сдерживается заботой о воспроизводимости и согласованности (очень мала вероятность того, что кто-то когда-либо попытается фактически воспроизвести результат, и исследователи в области здравоохранения демонстрируют неудачную тенденцию ссылаться на выброс в качестве доказательства связи, независимо от того, сколько других исследований обнаружили нулевую связь), или настоящей научной подготовкой, которая прививает этику в отношении того, что constitutes хорошую науку.
Стремление заменить то, что якобы является контрольным списком критериев, настоящим научным анализом и мышлением, по-видимому, отражает практику медицинской науки, а не природу эпидемиологических данных. Так же, как большинство занятий по этике в медицинской науке предлагают юридические контрольные списки, а не серьезный анализ этики, большая часть педагогики в эпидемиологии предлагает набор инструментов без особого научного мышления. Нет ничего плохого в том, чтобы обучать людей быть инженерами — квалифицированными пользователями сложных инструментов, которые они могут адаптировать к конкретным практическим применениям. Область эпидемиологии была в значительной степени создана представителями одной области инженерии, врачами (которые, кстати, составляли большую часть первоначальной аудитории Хилла, что является показательным контекстом, который обычно игнорируется), с мудрыми советами из различных наук (подход Хилла отражает его образование экономиста).
Обучение эпидемиологии почти всегда направлено на подготовку инженеров, практиков, которые производят ощутимые результаты, но уделяют мало внимания вопросам о природе исследования или научной истины. Более того, практика медицинской науки находится под влиянием тех, кому не хватает даже адекватных навыков в эпидемиологической инженерии; они склонны к механическому применению конкретных методов и использованию готового программного обеспечения, которое они на самом деле не понимают, — модель, которая описывает техников, а не инженеров или ученых. Можно возразить, что большинство практиков каждой науки тратят большую часть своего времени на выполнение технических задач. Но образование и ожидания ученых в большинстве областей включают полное понимание моделей и методов, которые они используют, и попытки усовершенствовать методы в ходе исследования; те, кто механически управляет концептуальными или физическими инструментами, которые они не могут объяснить и не смогли бы создать с нуля, обычно не называются «докторами» и не доминируют в научных результатах других областей. Это особенно верно в отношении наук, которые так же незрелы, как современные исследования в области здравоохранения (см. примечание 4).
В этом контексте «наука» о здоровье склонна избегать и даже презирать научное мышление: мало интереса к строгой проверке выводов, прежде чем выражать уверенность в них. Инициирование активных научных дебатов или предложение о том, что исследователи должны быть обязаны защищать свои утверждения от критики, часто считается невежливым или даже враждебным. Поиск лучших методов исследования и анализа, несмотря на то, насколько ужасно примитивны наши методы, считается экзотическим побочным занятием, а не источником жизненной силы науки. Результаты опубликованных исследований цитируются, как если бы они были окончательными, без должного учета качества исследования, даже когда есть явные основания для сомнений. Разделы о методах в исследовательских отчетах не содержат даже отдаленно достаточной информации для понимания того, что было сделано. Наборы данных редко анализируются повторно, независимо от важности последствий. И вдобавок к этим проблемам (или, возможно, из-за них) поверхностный процесс рецензирования рассматривается так, как если бы он — а не плавильный котел дальнейших исследований и дебатов — определял истинность утверждения.
Обучение эпидемиологии редко направлено на подготовку ученых. По нашему опыту, если два профессора представляют противоречивые взгляды на правильную методологию, студенты обычно реагируют с дискомфортом или даже враждебно, настаивая на том, чтобы кто-то просто сказал им, что правильно, чтобы они могли использовать это и двигаться дальше. Из того, что мы видели, большая часть обучения эпидемиологии потворствует (или даже помогает создать) этому образу мышления, обслуживая студентов, которые явно являются подающими надежды техниками, а не учеными. Студентов обычно учат использовать вычислительные «черные ящики» и описывать результаты заученным языком. Некоторые из них хотят быть учеными и пытаются заниматься научным анализом и исследованиями, но обучение (или даже принуждение) соответствовать доминирующим способам практики затрудняет это. Студент, освоивший типичную программу по эпидемиологии, будет компетентным инженером, но мало узнает о природе научного исследования.
Конечно, инженеры могут считаться основой современности, и техники, несомненно, приносят больше общей повседневной пользы, чем ученые, поэтому это не заявление о сравнительной ценности. Но это объясняет, почему научное мышление нуждается в поддержке в этой области. Мы были бы удивлены, если бы даже 1/1000 часть человеко-времени, затрачиваемого на эпидемиологию, была посвящена критическому анализу.
Заключение
Именно в этом контексте, в области научного исследования, где доминируют не-ученые, уроки научного здравого смысла имеют огромную ценность. За четыре года до публикации «Оценки причинных эффектов» Мальдонадо провел семинар о пользе формализации контрфактических утверждений, и после него один из нас (CVP), в то время новичок в эпидемиологии, спросил: «Какую часть этого я не должен был уже знать?». Оглядываясь назад, вопрос явно упустил суть: как и размышления Хилла, формализация контрфактических утверждений — это не новое открытие и даже не новый урок, а скорее артикуляция концепции, которая заслуживает большего внимания (или базового осознания), чем она получает в исследованиях в области здравоохранения. Действительно, мы подчеркивали необходимость дальнейшего анализа того, что «известно» в этой области (в том смысле, что об этом когда-то, каким-то образом говорилось), но, похоже, это вспоминается слишком редко, как основная причина для создания нового журнала [26,27]. Как знает каждый преподаватель, время, потраченное на обдумывание предыдущих уроков, обычно гораздо ценнее, чем представление новой идеи каждую минуту каждой лекции.
Внимательное отношение к формальному определению причинности и к списку подсказок, которые могут помочь нам сделать выводы о причинности, может быть ценным. Такое внимание может способствовать развитию активного мышления, которое приводит к научному здравому смыслу. Пока это послание интерпретируется как необходимость размышлять и исследовать, прежде чем делать научные выводы, эти уроки ценны. Но когда они вырождаются в алгоритмы «черного ящика», это позволяет исследователям в области здравоохранения избегать интеллектуальной работы, связанной с бытием учеными.
Примечание 1
Мы считаем неудачным, что Хёфлер использовал термин «анализ чувствительности Монте-Карло» для описания некоторых методов количественной оценки неопределенности. Филлипс указал, что это неправильное употребление, поскольку эти методы принципиально отличаются от анализа чувствительности, а «Монте-Карло» путает инструмент расчета с самим анализом [18].
Примечание 2
Стоит отметить, что условие темпоральности также идеально подходит для определений причинности, избегающих контрфактических утверждений, таких как «предсказуемые закономерности одного события, следующего за другим», что снова говорит о том, что обращение к контрфактическим утверждениям ничего не дает для понимания причинных соображений.
Примечание 3
По иронии судьбы, когда мы писали эту статью, один из нас посетил семинар по получению грантов на исследования в области здравоохранения от правительства Канады; частью совета было то, что изучаемая связь между воздействием и заболеванием должна быть новой. Смысл заключался в том, что проверка надежности предыдущих результатов имеет такой низкий приоритет, что не привлечет это финансирование. (Примечание переводчика: Это подчеркивает неблагоприятную тенденцию приоритизации новизны над тщательностью в финансировании исследований, системную проблему, которая может препятствовать научному прогрессу.)
Примечание 4
Чтобы добавить конкретики к вопросу о концептуальном аппарате, подумайте, сколько из тех, кто считается учеными в эпидемиологии, когда-либо учились рассчитывать статистику, о которой они сообщают, не полагаясь на программный пакет «черного ящика», или, если уж на то пошло, сколько из них могут даже определить смешанные факторы, не говоря уже о том, чтобы объяснить, почему их математическая модель была лучшим выбором, или рассчитать влияние ошибки измерения. В науке, которая все еще находится в стадии развития, мы ожидаем, что ученые будут образованы и осведомлены во всем процессе исследования, чтобы они могли внести свой вклад в развитие. Эпидемиология явно незрела и находится в стадии развития: большая часть эпидемиологических исследований в истории была проведена в течение жизни, часто даже профессиональной жизни, современных исследователей, и список известных вопиющих недостатков методов длинный.
Конкурирующие интересы
Авторы ранее писали по смежным темам и заинтересованы в поддержке своих ранее опубликованных точек зрения. На их взгляды влияет высокая степень разочарования в современных научных стандартах исследований в области здравоохранения. CVP получил образование в основном как экономист, и его похвала Хиллу в некоторой степени отражает общие взгляды дисциплины.
Сведения об авторах
Carl V Phillips, Email: carl.v.phillips@ualberta.ca
Karen J Goodman, Email: karen.goodman@ualberta.ca
Список литературы
- Phillips CV, Goodman KJ. The missed lessons of Sir Austin Bradford Hill. Epidemiol Perspect Innov. 2004; 1:3. doi: https://doi.org/10.1186/1742-5573-1-3
- Höfler M. The Bradford Hill considerations on causality: A counterfactual perspective. Emerg Themes Epidemiol. 2005; 2:11. doi: https://doi.org/10.1186/1742-7622-2-11
- Hill AB. The environment and disease: association or causation? Proceedings of the Royal Society of Medicine. 1965:295–300. doi: https://doi.org/10.1177/003591576505800503
- Poole C. Causal values. Epidemiology. 2001; 12:139–141. doi: https://doi.org/10.1097/00001648-200103000-00001
- Kaufman JS, Poole C. Looking back on «causal thinking in the health sciences». Annu Rev Public Health. 2000; 21:101–119. doi: https://doi.org/10.1146/annurev.publhealth.21.1.101
- Kuhn TS. Reflections on my critics. In: Lakatos I, Musgrave A, editor. Criticism and the Growth of Knowledge. Cambridge: Cambridge University Press; 1970. pp. 231–278.
- Kuhn TS. Objectivity, value judgment, and theory choice. In: Kuhn TS, editor. The Essential Tension. Chicago: The University of Chicago Press; 1977. pp. 320–339.
- Weed DL. Alcohol, breast cancer, and causal inference: where ethics meets epidemiology. Contemp Drug Probl. 1994; 21:185–204. doi: https://doi.org/10.1177/009145099402100116
- Weed DL. On the use of causal criteria. Int J Epidemiol. 1997; 26:1137–1141. doi: https://doi.org/10.1093/ije/26.6.1137
- Weed DL, Gorelic LS. The practice of causal inference in cancer epidemiology. Cancer Epidemiol Biomarkers Prev. 1996; 5:303–311.
- Weed DL, Hursting SD. Biologic plausibility in causal inference: current method and practice. Am J Epidemiol. 1998; 147:415–425. doi: https://doi.org/10.1093/oxfordjournals.aje.a009466
- Potischman N, Weed DL. Causal criteria in nutritional epidemiology. Am J Clin Nutr. 1999; 69:1309S–1314S. doi: https://doi.org/10.1093/ajcn/69.6.1309S
- Weed DL. Interpreting epidemiological evidence: how meta-analysis and causal inference methods are related. Int J Epidemiol. 2000; 29:387–390. doi: https://doi.org/10.1093/ije/29.3.387
- Holman CD, rnold-Reed DE, de KN, McComb C, English DR. A psychometric experiment in causal inference to estimate evidential weights used by epidemiologists. Epidemiology. 2001; 12:246–255. doi: https://doi.org/10.1097/00001648-200103000-00019
- Lipton R, Odegaard T. Causal thinking and causal language in epidemiology: it’s in the details. Epidemiol Perspect Innov. 2005; 2:8. doi: https://doi.org/10.1186/1742-5573-2-8
- Maldonado G, Greenland S. Estimating causal effects. Int J Epidemiol. 2002; 31:422–429. doi: https://doi.org/10.1093/ije/31.2.422
- Phillips CV, Maldonado G. Using Monte Carlo methods to quantify the multiple sources of error in studies. American Journal of Epidemiology. 1999; 149:S17.
- Phillips CV. Quantifying And Reporting Uncertainty From Systematic Errors. Epidemiology. 2003; 14:459–466. doi: https://doi.org/10.1097/01.ede.0000072106.65262.ae
- Greenland S, Robins JM. Identifiability, exchangeability, and epidemiological confounding. Int J Epidemiol. 1986; 15:413–419. doi: https://doi.org/10.1093/ije/15.3.413
- Slovic P, Fischhoff B, Lichtenstein S. Rating the risks. In: Slovic P, editor. The Perception of Risk. London: Earthscan Publications; 2000. pp. 104–120.
- Kahneman D, Slovic P, Tversky A. Judgment Under Uncertainty: Heuristics and Biases. Cambridge: Cambridge University Press; 1982.
- Weiss NS. Can the «specificity» of an association be rehabilitated as a basis for supporting a causal hypothesis? Epidemiology. 2002; 13:6–8. doi: https://doi.org/10.1097/00001648-200201000-00003
- Rothman KJ, Greenland S. Modern Epidemiology. 2. Philadelphia: Lippincott Williams & Wilkins; 1998.
- Susser M. Causal Thinking in the Health Sciences: Concepts and Strategies of Epidemiology. New York: Oxford Univ. Press; 1973.
- Phillips CV. Publication bias in situ. BMC Med Res Methodol. 2004; 4:20. doi: https://doi.org/10.1186/1471-2288-4-20
- Phillips CV, Goodman KJ, Poole C. Lead editorial: The need for greater perspective and innovation in epidemiology. Epidemiol Perspect Innov. 2004; 1:1. doi: https://doi.org/10.1186/1742-5573-1-1
- Maldonado G, Phillips CV. Editorial: Wishful thinking. Epidemiol Perspect Innov. 2004; 1:2. doi: https://doi.org/10.1186/1742-5573-1-2