Статистически значимое различие, независимо от того, насколько мала величина р, не означает, что оно клинически значимо. Если величина р<0,0001 получена в хорошо спланированном исследовании, то она с высокой степенью достоверности свидетельствует о том, что различие действительно существует. Но на основании величины р нельзя судить ни о степени этого различия, ни о его клинической важности. Высокую статистическую значимость могут иметь совсем небольшие различия - при условии, что исследовано достаточно большое число больных. Пример. В начале 90-х годов горячо обсуждался вопрос о том, какой тромболитический препарат эффективнее при остром инфаркте миокарда - стрептокиназа или тканевый активатор плазминогена (tPA). Крупномасштабные исследования выявили различия в частоте реперфузии, но не летальности. В большом рандомизированном контролируемом испытании GUSTO, в которое был включен 41021 пациент из 15 стран, tPA применялся в более интенсивном режиме, чем в предшествующих исследованиях. Через 30 дней после инфаркта миокарда среди получавших tPA наблюдалась более низкая летальность (6,3%), чем среди получавших стрептокиназу (7,2 или 7,4% в зависимости от способа введения гепарина, который назначали в качестве дополнительной терапии), причем вероятность того, что это различие случайно, была мала (р<0,001). Тем не менее различие в эффективности препаратов было невелико; для предотвращения одного случая смерти около 100 больных пришлось бы лечить препаратом tPA, а не стрептокиназой. Препараты tPA гораздо дороже стрептокиназы, так что предотвращение этой одной смерти стоило бы почти 250000 долларов. К тому же tPA повышает риск развития геморрагического инсульта. Поэтому некоторые оспаривают целесообразность применения tPA при таком небольшом преимуществе в его эффективности, т.е. сомневаются в "клинической значимости" различий летальности при использовании tPA и стрептокиназы. С другой стороны, менее впечатляющие значения р могут быть получены в исследованиях со значительным эффектом лечения, если они выполнены на малом числе больных.

Статистические критерии

Обычные статистические критерии, знакомые многим читателям, используются для оценки вероятности альфа-ошибки. Статистический критерий применяется по отношению к данным для получения статистики критерия (т.е. статистики, определяющей критическую область критерия для проверки гипотез), которая в свою очередь используется для оценки вероятности ошибки. Критерий обеспечивает проверку нулевой гипотезы, т.е. предположения об отсутствии реального различия в исходах между двумя группами больных, леченных разными методами. Это допущение — чисто математическое, оно не означает, что предположение об отсутствии различий составляет рабочую гипотезу исследования. Проверка заканчивается либо отклонением нулевой гипотезы (заключением о наличии различия), либо ее принятием (заключением об отсутствии различия).
Достоверность каждого критерия зависит от определенных допущений относительно данных. Если данные не удовлетворяют этим допущениям, то вычисленная величина ра может ввести в заблуждение. Описание этих статистических критериев (которые также называются статистическими тестами) можно найти в любом пособии по биостатистике.
Пример. Назначение критерия х2.
Для качественных данных гораздо легче понять, чем большинство других, поэтому он может быть использован для иллюстрации применения статистической оценки. Рассмотрим данные рандомизированного испытания двух схем введения гепарина: по номограмме, определяющей дозу препарата в зависимости от массы тела, и по стандартной схеме лечения. В качестве исхода был выбран такой показатель, как превышение терапевтического уровня активированного частичного тромбо-пластинового времени (АЧТВ) в пределах 24 ч от начала лечения антикоагулянтом. В группе больных, которым вводили гепарин по номограмме, указанный результат был у 60 из 62 (97%) больных, в группе больных, получавших гепарин по стандартной схеме, такой результат был у 37 из 48 (77%) больных.
Какова вероятность того, что в повторных исследованиях с той же численностью наблюдений разница приведенных выше показателей будет такой же или большей, если в действительности сравниваемые методы лечения не различаются по эффективности? Это зависит от того, насколько наблюдаемые результаты отличаются от тех, которые были бы получены в случае одинаковой эффективности двух методов лечения. Если методы лечения не различаются по эффективности, то ожидаемое число успешно леченных больных в каждой из двух сравниваемых групп можно получить с помощью расчетного показателя частоты успешного лечения среди общего числа больных (88%).
Критерий х2 дает количественную оценку расхождения между наблюдаемым и ожидаемым числом больных и представляет собой сумму четырех выражений.
Величина критерия определяется тем, насколько все наблюдаемые числа отличаются от ожидаемых при условии отсутствия различий в эффективности сравниваемых схем лечения. Поскольку разности возводятся в квадрат, то не важно, выше или ниже наблюдаемые значения по сравнению с ожидаемыми. Деля квадрат разности на ожидаемое значение, получаем величину, стандартизованную по ожидаемому числу больных.
Полученное значение затем сравнивается с табличными величинами этого критерия, соответствующим определенным вероятностям (таблицы имеются в книгах и компьютерных программах), чтобы найти вероятность такого же или большего значения. Очевидно, чем больше значение x2, тем меньше вероятность того, что наблюдаемое различие имеет случайный характер. В приведенном случае р=0,004, т.е. такова вероятность ложноположительного заключения о различии эффективности двух методов лечения.
Вывод о том, что лечение неэффективно
В некоторых исследованиях делается вывод о том, что один метод лечения не более эффективен, чем другой. Примером могут служить исследования, показывающие, что прием антиоксидантов не предотвращает развитие рака и что введение антител к эндотоксину не улучшает прогноз у большинства больных при септическом шоке.
Возникает вопрос: могли ли подобные результаты получиться чисто случайно, например, вследствие того, что эти исследования были выполнены в нетипичных условиях? Какова вероятность ложноотрицательного результата (бета-ошибки, или ошибки II рода)? Риск ложноотрицательного результата особенно высок в исследованиях с относительно небольшим числом больных.
Бета-ошибке уделяется меньше внимания, чем альфа-ошибке, по нескольким причинам. Во-первых, ее труднее рассчитать. Во-вторых, большинство из нас просто предпочитают положительный результат. Отрицательные результаты воспринимаются как нежелательные, авторы менее охотно их публикуют в журналах. Если же эти исследования все-таки публикуются, то авторы предпочитают делать акцент на подгруппах больных, для которых найдено различие в лечебном эффекте, даже если это различие не достигает уровня статистической значимости. Иногда авторы стараются объяснить отсутствие различия между эффектами какими-то особыми причинами, но только не случайностью. Однако главный вопрос, который нужно поставить, если результаты указывают на отсутствие различий в эффективности методов — какова вероятность бета-ошибки.
Вероятность того, что в исследовании будет найдено статистически значимое различие, когда это различие действительно существует, называется статистической мощностью исследования.
Статистическая мощность = 1.
Мощность и Рь — дополняющие друг друга способы выражения одного и того же понятия. Мощность исследования аналогична чувствительности диагностического теста.
Об исследовании говорят как о статистически мощном, если оно имеет высокую вероятность выявления различий между методами лечения, когда эти различия действительно существуют.