В идеале, для определения связи фактора с прогнозом лучше всего было бы сравнивать две абсолютно идентичные когорты, различающиеся только тем, что в одной из них изучаемый фактор имеется, а в другой — нет, т.е. все остальное, за исключением этого фактора, у этих когорт одинаково. Но в реальных когортных исследованиях «все остальное» обычно одинаковым не бывает.
Как разрешить эту проблему? Существует несколько приемов, которые позволяют нивелировать различия между группами сравнения либо на стадии планирования исследования, либо при анализе его результатов.

Читатель должен скептически относиться к любому исследованию, в котором не применялся один или несколько таких приемов. Основной вопрос, на который должно ответить исследование, заключается в том, связаны ли различия в прогнозе для разных групп только с исследуемым фактором или они зависят от каких-либо других факторов.

Введение ограничений

Для того чтобы уравнять вероятность воздействия важных посторонних факторов, можно ограничить контингент пациентов, включенных в исследование, только теми, кто обладает узким диапазоном характеристик. Например, влияние возраста на прогноз после острого инфаркта миокарда может быть исследовано на мужчинах с неосложненным инфарктом передней локализации. Однако необходимо иметь в виду, что хотя ограниченное включение способствует однородности групп, это достигается ценой отказа от обобщаемости результатов. В процессе исключения потенциальных участников могут быть сформированы нетипичные когорты, и результаты таких исследований нельзя будет переносить на большинство пациентов с данным состоянием.
Подбор соответствующих пар
Испытуемые могут подбираться таким образом, чтобы для каждого пациента из одной группы существовал один или несколько пациентов в группе сравнения с такими же характеристиками, кроме изучаемого фактора. Часто пациентов подбирают по возрасту и полу, поскольку эти факторы сильно связаны с прогнозом для многих заболеваний. Однако такой подбор можно рекомендовать и для многих других факторов, таких как стадия или степень тяжести заболевания, скорость прогрессирования и предшествующее лечение.
Хотя подбор пар используется часто и может быть весьма полезен, он позволяет нивелировать систематическую ошибку, обусловленную только теми факторами, которые учитываются при подборе пар. Кроме того, как правило, невозможно подобрать пары, схожие более чем по нескольким признакам, поскольку на практике трудно найти пациентов, удовлетворяющих всем критериям отбора. К тому же, если характеристики, использованные при подборе пар, относительно грубы, между отобранными группами остаются различия. Например, если исследование риска рождения ребенка с синдромом Дауна провести путем подбора пар по возрасту матерей в 10-летнем диапазоне, то частота рождения больного ребенка в зависимости от возраста матери будет различаться почти в 10 раз между группами, большинство в одной из которых составляют 30-летние, а в другой — 39-летние женщины. И еще — поскольку вводимое ограничение или подбор пар производится по некоторому признаку, его влияние на исходы оценить не удастся.

Стратификация (stratification)

После того как данные собраны, производится их анализ и результаты представляются по подгруппам пациентов со сходными характеристиками (стратификация).
Пример. Предположим, что нужно сравнить послеоперационную летальность при операции аортокоронарного шунтирования в больницах А и Б. Всего в больнице А отмечено 48 смертей на 1200 операций (4%), а в больнице Б — 64 смерти на 2400 операций (2,6%). Согласно этим огрубленным показателям, больница Б лучше, чем А. Так ли это в действительности? Не исключено, что пациенты двух больниц исходно несопоставимы по прогнозу. На основании возраста, функции миокарда, степени стеноза и других характеристик можно подразделить пациентов на подгруппы с разным дооперационным риском (табл. 6.3), а затем сравнить послеоперационную летальность в пределах каждой подгруппы. После того как пациенты были разделены по дооперационному риску, послеоперационная летальность в каждой подгруппе риска оказалась абсолютно одинаковой для обеих больниц: 6,0, 4,0 и 0,67% для пациентов с высоким, средним и низким риском соответственно. Очевидный источник ошибочного первоначального вывода кроется в том, что для оценки используется только грубый показатель летальности, тогда как на самом деле характеристики пациентов в двух больницах существенным образом различались: высокий риск имели 42% пациентов в больнице А против 17% пациентов в больнице Б.
Стратификация — один из наиболее часто применяемых и действенных приемов борьбы с систематической ошибкой.
Пример стратификации: гипотетические показатели летальности после аортокоронарного шунтирования в двух больницах после распределения больных на подгруппы в зависимости от дооперационного риска