Анализ результатов эксперимента с помощью математической статистики часто сводится к проверке справедливости предположений, или гипотез, относительно изучаемого физического явления и полученных в эксперименте данных. Например, к проверке предположения о совпадении результатов измерений одной и той же постоянной физической величины, если измерения выполнены двумя независимыми исследователями на разных установках. Каждый измерил среднее и дисперсию:
и
– одинаковы ли результаты? Ответ на такой вопрос может быть дан только с определенной степенью вероятности, учитывающей распределения погрешностей результатов измерений. Ниже будет показано, что один из способов анализа основывается на понятии доверительной вероятности, введенном при рассмотрении погрешности прямого многократного измерения.
Гипотезой, подлежащей проверке, может стать правомерность применения физической модели, выбранной для описания эксперимента. Поскольку модель позволяет теоретически предсказать вид функциональной связи между измеряемыми величинами, то статистический анализ экспериментальной зависимости, проводимый с учетом выводов модели, дает информацию о том достаточно ли справедливо модельное описание. Как и в предыдущем случае, вывод будет основываться на вероятностном подходе, который включает в себя использование статистических критериев, различных в случаях выполнения и невыполнения первоначальной гипотезы. В каждом случае рассчитывают конкретную вероятность, характеризующую возможность реализации полученного набора экспериментальных данных. Поэтому статистика, оперирующая вероятностными категориями, не дает и не может дать однозначных ответов
После завершения любого научного исследования, фундаментального или экспериментального, производится статистический анализ полученных данных. Чтобы статистический анализ был успешно проведен и позволил решить поставленные задачи, исследование должно быть грамотно спланировано. Следовательно, без понимания основ статистики невозможно планирование и обработка результатов научного эксперимента. Тем не менее, медицинское образование не дает не только знания статистики, но даже основ высшей математики. Поэтому очень часто можно столкнуться с мнением, что вопросами статобработки в биомедицинских исследованиях должен заниматься только специалист по статистике, а врачу-исследователю следует сосредоточиться на медицинских вопросах своей научной работы. Подобное разделение труда, подразумевающее помощь в анализе данных, вполне оправдано. Однако понимание принципов статистики необходимо хотя бы для того, чтобы избежать некорректной постановки задачи перед специалистом, общение с которым до начала исследования является в такой же степени важным, как и на этапе обработки данных.
Прежде чем говорить об основах статистического анализа, следует прояснить смысл термина «статистика». Существует множество определений, но наиболее полным и лаконичным является, на наш взгляд, определение статистики как «науки о сборе, представлении и анализе данных». В свою очередь, использование статистики в приложении к живому миру называют «биометрией» или «биостатистикой».
Следует заметить, что очень часто статистику сводят только к обработке экспериментальных данных, не обращая внимания на этап их получения. Однако статистические знания необходимы уже во время планирования эксперимента, чтобы полученные в ходе него показатели могли дать исследователю достоверную информацию. Поэтому, можно сказать, что статистический анализ результатов эксперимента начинается еще до начала исследования.
Уже на этапе разработки плана исследователь должен четко представлять себе, какого типа переменные будут в его работе. Все переменные можно разделить на два класса: качественные и количественные. То, какой диапазон может принимать переменная, зависит от шкалы измерений. Можно выделить четыре основных шкалы:
номинальную; ординальную; интервальную; рациональную (шкалу отношений).В номинальной шкале (шкале «названий») присутствуют лишь условные обозначения для описания некоторых классов объектов, например, «пол» или «профессия пациента». Номинальная шкала подразумевает, что переменная будет принимать значения, количественные взаимоотношения между которыми определить невозможно. Так, невозможно установить математические отношения между мужским и женским полом. Условные числовые обозначения (женщины - 0, мужчины - 1, либо наоборот) даются абсолютно произвольно и предназначены только для компьютерной обработки. Номинальная шкала является качественной в чистом виде, отдельные категории в этой шкале выражают частотами (количество или доля наблюдений, проценты).
Ординальная (порядковая) шкала предусматривает, что отдельные категории в ней могут выстраиваться по возрастанию или убыванию. В медицинской статистике классическим примером порядковой шкалы является градация степеней тяжести заболевания. В данном случае мы можем выстроить тяжесть по возрастанию, но все еще не имеем возможности задать количественные взаимоотношения, т. е. дистанция между значениями, измеренными в ординальной шкале, неизвестна или не имеет значения. Установить порядок следования значений переменной «степень тяжести» легко, но при этом невозможно определить, во сколько раз тяжелое состояние отличается от состояния средней тяжести.
Ординальная шкала относится к полуколичественным типам данных, и ее градации можно описывать как частотами (как в качественной шкале), так и мерами центральных значений, на чем мы остановимся ниже.
Интервальная и рациональная шкалы относятся к чисто количественным типам данных. В интервальной шкале мы уже можем определить, насколько одно значение переменной отличается от другого. Так, повышение температуры тела на 1 градус Цельсия всегда означает увеличение выделяемой теплоты на фиксированное количество единиц. Однако в интервальной шкале есть и положительные и отрицательные величины (нет абсолютного нуля). В связи с этим невозможно сказать, что 20 градусов Цельсия - это в два раза теплее, чем 10. Мы можем лишь констатировать, что 20 градусов настолько же теплее 10, как 30 - теплее 20.
Рациональная шкала (шкала отношений) имеет одну точку отсчета и только положительные значения. В медицине большинство рациональных шкал - это концентрации. Например, уровень глюкозы 10 ммоль/л - это в два раза большая концентрация по сравнению с 5 ммоль/л. Для температуры рациональной шкалой является шкала Кельвина, где есть абсолютный ноль (отсутствие тепла).
Следует добавить, что любая количественная переменная может быть непрерывной, как в случае измерения температуры тела (это непрерывная интервальная шкала), или же дискретной, если мы считаем количество клеток крови или потомство лабораторных животных (это дискретная рациональная шкала).
Указанные различия имеют решающее значение для выбора методов статистического анализа результатов эксперимента. Так, для номинальных данных применим критерий «хи-квадрат», а известный тест Стьюдента требует, чтобы переменная (интервальная либо рациональная) была непрерывной.
После того как будет решен вопрос о типе переменной, следует заняться формированием выборки. Выборка - это небольшая группа объектов определенного класса (в медицине - популяция). Для получения абсолютно точных данных нужно исследовать все объекты данного класса, однако, из практических (зачастую - финансовых) соображений изучают только часть популяции, которая и называется выборкой. В дальнейшем, статистический анализ позволяет исследователю распространить полученные закономерности на всю популяцию с определенной степенью точности. Фактически, вся биомедицинская статистика направлена на получение наиболее точных результатов из наименее возможного количества наблюдений, ведь при исследованиях на людях важен и этический момент. Мы не можем позволить себе подвергать риску большее количество пациентов, чем это необходимо.
Создание выборки регламентируется рядом обязательных требований, нарушение которых может привести к ошибочным выводам из результатов исследования. Во-первых, важен объем выборки. От объема выборки зависит точность оценки исследуемых параметров. Здесь следует обратить внимание на слово «точность». Чем больше размеры исследуемых групп, тем более точные (но не обязательно правильные) результаты получает ученый. Для того же, чтобы результаты выборочных исследований можно было переносить на всю популяцию в целом, выборка должна быть репрезентативной. Репрезентативность выборки предполагает, что в ней отражены все существенные свойства популяции. Другими словами, в исследуемых группах лица разного пола, возраста, профессий, социального статуса и пр. встречаются с той же частотой, что и во всей популяции.
Однако перед тем как начать выбор исследуемой группы, следует определиться с необходимостью изучения конкретной популяции. Примером популяции могут быть все пациенты с определенной нозологией или люди трудоспособного возраста и т. д. Так, результаты, полученные для популяции молодых людей призывного возраста, вряд ли удастся экстраполировать на женщин в постменопаузе. Набор характеристик, которые будет иметь изучаемая группа, определяет «обобщаемость» данных исследования.
Формировать выборки можно различными путями. Самый простой из них - выбор с помощью генератора случайных чисел необходимого количества объектов из популяции или выборочной рамки (sampling frame). Такой способ называется «простой случайной выборкой». Если случайным образом выбрать начальную точку в выборочной рамке, а затем взять каждый второй, пятый или десятый объекты (в зависимости от того каких размеров группы требуются в исследовании), то получится интервальная выборка. Интервальная выборка не является случайной, так как никогда не исключается вероятность периодических повторений данных в рамках выборочной рамки.
Возможен вариант создания так называемой «стратифицированной выборки», которая предполагает, что популяция состоит из нескольких различных групп и эту структуру следует воспроизвести в экспериментальной группе. Например, если в популяции соотношение мужчин и женщин 30:70, тогда в стратифицированной выборке их соотношение должно быть таким же. При данном подходе критически важно не балансировать выборку избыточно, то есть избежать однородности ее характеристик, в противном случае исследователь может упустить шанс найти различия или связи в данных.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |


