Вычисление статистической мощности, основанное на методе проверки гипотез, производят до выполнения исследования, чтобы определить, достаточное ли число больных будет включено для выявления клинически значимого лечебного эффекта (если он существует). Однако после того, как исследование выполнено, вычисление статистической мощности не имеет смысла — величина лечебного эффекта, частота исходов и вариабельность характеристик больных теперь уже известны. Поэтому для исследователей, публикующих результаты клинических испытаний, и для читателей, пытающихся понять их значение, применение доверительных интервалов более уместно.

На стадии планирования исследования статистическая мощность определяется для произвольно выбранной величины лечебного эффекта. После завершения исследования важна величина лечебного эффекта и то, с какой статистической точностью эта наблюдаемая величина позволяет оценить величину истинную.

Выявление редких событий

Иногда важно выявить относительно редкие события (например, 1 на 1000), особенно если речь идет о серьезных заболеваниях, например медикаментозной апластической анемии или угрожающей жизни аритмии. В подобной ситуации нужно наблюдать очень большое число пациентов, чтобы выявить хотя бы один случай. И все равно это число будет куда меньше, чем необходимо для получения сколько-нибудь надежной оценки частоты явления.
Показана вероятность выявления события как функция от числа обследованных больных. Эмпирическое правило для расчета таково: чтобы иметь высокую вероятность выявления события, встречающегося с частотой 1/п, необходимо обследовать 3 х п пациентов. Например, чтобы выявить событие, встречающееся с частотой 1/1000, необходимо обследовать 3000 больных.

Множественные сравнения

Статистические выводы исследований имеют ауру особой доказательности, особенно для неспециалистов. Однако, как справедливо замечают скептики, возможна «ложь с помощью статистики», пусть даже неумышленная. Более того, это возможно даже когда исследование хорошо спланировано, математические методы корректны, а намерения авторов безупречны.
Статистические выводы могут вводить в заблуждение, так как точность статистических критериев зависит от количества рассматриваемых в работе вопросов и от того, когда эти вопросы поставлены. Если в большом массиве данных проводятся сравнения между многими переменными, то величина р для каждого индивидуального сравнения недооценивает вероятность случайного результата этого сравнения. Как это ни удивительно, но интерпретация величины р для статистического критерия зависит от контекста.
Рассмотрим следующий пример. Допустим, что было выполнено масштабное исследование с большим количеством подгрупп больных и различными исходами. В частности, это может быть клиническое испытание эффективности лечения ишемической болезни сердца, в которое включено несколько разных групп больных (с поражением одной, двух или трех коронарных артерий; с нарушением и без нарушения функции левого желудочка; с нарушениями ритма сердца и без них; с различными сочетаниями этих состояний) и рассматривается несколько исходов (смерть, инфаркт миокарда, стенокардия). Предположим также, что в действительности не существует связи между разными видами лечения и исходами в любой из подгрупп. И наконец, предположим, что эффекты лечения оцениваются раздельно для каждой подгруппы и для каждого исхода. Это процесс, который включает в себя очень много сравнений. При уровне значимости 0,05 одно из 20 таких сравнений по случайным причинам даст статистически значимый результат. В общем случае, если производится 20 сравнений, то в среднем одно покажет статистически значимый результат; если 100 сравнений, то примерно 5 и т.д. Таким образом, при большом числе сравнений некоторые из них просто вследствие случайности превысят уровень статистической значимости различий, даже если на самом деле истинных связей между переменными не существует. Чем больше проводится сравнений, тем выше вероятность выявления статистически значимых различий.
Этот феномен называется проблемой множественных сравнений. Вследствие этой проблемы, доказательность данных клинических исследований зависит от того, планировалось ли до начала исследования проведение этих сравнений.
К сожалению, из публикуемых результатов исследования не всегда можно узнать, сколько в действительности было сделано сравнений. Часто важные находки отбираются из большого числа несущественных. Выборочное принятие решения о том, что важно и что неважно в отношении большого объема данных, может привести к значительному искажению действительности.
Как учесть статистический эффект множественных сравнений при интерпретации результатов исследования? Хотя с этой целью предлагались методы стандартизации ра все же лучше всего, понимая проблему, с осторожностью относиться к положительным заключениям исследований с множественными сравнениями. Один специалист по статистике выразил это следующим образом:
«Если Вы анализируете данные достаточно глубоко и делаете это достаточно часто, Вы наверняка найдете что-нибудь необычное. Многие из этих странных находок связаны со случайностью. Я не имею ввиду, что манипуляции с данными — предосудительное занятие, просто находки, которые не были исходно сформулированы в качестве главных задач испытания, следует воспринимать с предельной осторожностью. Когда-нибудь теоретическая статистика научит нас, что делать с подобными результатами. А сейчас, я думаю, самая лучшая позиция — это осторожность, соединенная со стремлением подтвердить или отвергнуть находки в дальнейших исследованиях».

Описание взаимосвязи

Статистические методы используются также для определения степени связи между переменными, например между массой тела и артериальным давлением. Хорошо известны такие показатели связи, как коэффициент корреляции Пирсона (г) для количественных данных и коэффициент ранговой корреляции Спирмена для порядковых данных. Каждый из этих показателей определяет количественную связь между двумя переменными и имеет соответствующий статистический критерий, который позволяет оценить, случайна ли наблюдаемая связь.