После выявления статей, представляющих интерес, следующая задача состоит в том, чтобы оценить качество представленных в них данных. Мы сформулировали ряд вопросов, которые должны ставить как исследователи, так и читатели при знакомстве с результатами исследований. Вопросы касаются цели исследования, обобщаемости и клинической применимости результатов, а также двух факторов, влияющих на достоверность исследования: систематической и случайной ошибки. Ответив на вопросы, можно сделать вывод о том, заслуживает ли статья включения в обзор литературы, а также оценить степень ее доказательности при обобщении результатов разных статей.
Мы приводим основные правила оценки диагностических и прогностических исследований, исследований частоты заболеваний, лечения и установления причин.

Соответствует ли методика исследования заявленной цели?

Нельзя говорить о «хорошей» или «плохой» методике исследования вообще, абстрагировавшись от вопроса, на который это исследование должно ответить. Многие клинически ориентированные схемы оценки методики рассматривают обсервационные исследования, например одномоментные как наименее доказательные. Это утверждение верно, если вопрос касается профилактики или лечения, но несправедливо, если речь идет об исследовании диагностических тестов. Приведены клинические вопросы и методы исследований, лучше всего им соответствующие. Этими данными можно руководствоваться при выборе метода, однако они не исключают применения других творческих научно обоснованных подходов наряду с теми, которые названы в таблице. Например, самое надежное из имеющихся доказательств того, что периодический скрининг с применением сигмоскопии может способствовать уменьшению смертности от колоректального рака, получено в строгом исследовании случай-контроль. Этот метод исследования служит единственно возможной формой доказательства на сегодняшний день, поскольку для проверки эффективности сигмоскопии в рандомизированном исследовании потребовались бы большое число больных и длительный период наблюдения.

Выдвижение и проверка гипотез

Выводы конкретных исследований в зависимости от применяемого метода обладают разной убедительностью. На одном конце шкалы находятся потенциально полезные сообщения, которые только предполагают наличие связи (без проверки выдвинутых предположений). Большинство описаний случаев выполняют именно эту роль. Выводы исследований носят предварительный характер, многие из них впоследствии не подтверждаются. На другом конце шкалы находятся исследования, подвергающие гипотезы строгой проверке — например крупные рандомизированные контролируемые испытания. Выводы этих исследований более категоричны. Большинство исследований располагается между двумя крайними точками этой шкалы.
Сформулированные до начала исследования гипотезы очень важны — они препятствуют проникновению в литературу ложно-положительных результатов. Допустим, исследуется большое число переменных, ни одна из которых в действительности не связана с другими. При изучении большого числа связей между переменными имеется вероятность того, что некоторые из связей по чисто случайным причинам достигнут уровня, позволяющего считать их реально существующими. На принятом уровне статистической значимости (р<0,05) примерно 1 из 20 таких сравнений значимо уже по определению. Конечно, установленные связи "реальны" только для конкретной выборки и не обязательно проявятся в популяции, поскольку изучаемая выборка может быть не похожа на другие выборки из рассматриваемой популяции. Теперь предположим, что одной из таких связей уделено особое внимание, потому что она хорошо согласуется с существующими биомедицинскими теориями. Предположим также, что в окончательном отчете исследования о проверке других связей не сообщается. В этом случае данная единственная связь при ее рассмотрении вне контекста исследования может показаться очень важной. Такое явление - предвзятый выбор какой-то интересной случайно обнаруженной связи - нередко встречается в публикациях. Существует несколько способов оценки того, в какой степени исследование является проверяющим или только выдвигающим гипотезу. Строгость методики исследования нельзя рассматривать в отрыве от других факторов. Предварительное выдвижение гипотезы и ограничение числа изучаемых сравнений уменьшают вероятность появления связей, лишь кажущихся достоверными. В результате применения распространенной тактики анализа данных, при которой сравниваются данные в различных подгруппах большого популяционного исследования, могут выявляться случайные или ложные связи. Если подтверждаются априорные гипотезы (выдвинутые до начала исследования), то доверие к полученным данным возрастает. Другой путь повышения надежности результатов - ограничение числа сравнений, что уменьшает вероятность ложноположительных результатов в исследовании. Кроме того, можно установить очень малое значение р, чтобы исключить роль случайности при объяснении конкретных находок. Еще один способ застраховаться от ошибочного признания реальности ложных или случайных связей заключается в выдвижении гипотезы на основании обработки одного массива данных с последующей проверкой ее на другом массиве. Доступность больших массивов данных и наличие статистических компьютерных программ позволяют проводить анализ с включением многих переменных, рассматриваемых в моделях по отдельности или совместно. Анализ многих переменных должен рассматриваться как метод выдвижения гипотез, так как исследователи заранее редко оговаривают ожидаемый результат, что снижает его ценность. Если массив данных достаточно велик, его можно случайным способом разделить на две части. Одна часть может быть использована для построения, а вторая - для проверки модели. Можно проверять гипотезу на другом массиве данных. Пример. Исследователи разработали индекс, включающий семь прогностических признаков, для предсказания раннего рецидивирования астмы после выписки из отделения неотложной помощи. Индекс был разработан на группе из 205 больных, наблюдавшихся в медицинском центре, и для этой группы имел чувствительность 95% и специфичность 97%. Результаты были настолько впечатляющими, что индекс начали внедрять в клиническую практику повсеместно.
Позднее две другие группы исследователей независимо друг от друга оценили результат применения индекса на других клинических базах и получили разочаровывающие данные. Чувствительность и специфичность составили соответственно 40 и 71% в одном исследовании и 18,1 и 82,4% — в другом.
Этот пример показывает, что опасно слишком доверять связи, выявленной по результатам анализа одного массива данных, без проверки на другой независимой группе больных. Возможно несколько причин обнаруженных расхождений результатов: систематические отличия больных в первом исследовании, разный способ применения индекса, обусловленные случайностью нетипичные результаты в исходном исследовании.
Независимо от того, какая тактика используется для того чтобы придать исследованию проверочный характер, обязанность автора — четко пояснить, какому участку шкалы между крайними позициями (выдвижение гипотез — проверка гипотез) принадлежит его статья и почему. Задача читателя — найти эту информацию или воссоздать ее, если она не очевидна. Однако не следует отвергать исследования, которые только выдвигают гипотезы — они тоже важны, хотя и не дают однозначных ответов.