Главная » Статьи » Медицинская статистика |
Статистические методы анализа медико-демографических показателей (часть 2)
Анализ динамических рядов: прогнозирование Прогностика – научная дисциплина о закономерностях разработки прогнозов. Прогноз – научно обоснованное суждение о возможных состояниях объекта в будущем и (или) об альтернативных путях и сроках их осуществления. Прогнозирование – процесс разработки прогнозов. Метод прогнозирования – способ исследования объекта прогнозирования, направленный на разработку прогноза. Прогнозный фон – это совокупность внешних по отношению к объекту прогнозирования условий, существенных для решения задачи прогноза. По содержанию выделяют поисковый прогноз – прогноз, содержанием которого является определение возможных состояний объекта прогнозирования в будущем; нормативный прогноз – прогноз, содержанием которого является определение путей и сроков достижения возможных состояний объекта прогнозирования в будущем, принимаемых в качестве цели. По степени точности результатов выделяют интервальный прогноз – прогноз, результат которого представлен в виде доверительного интервала характеристики объекта прогнозирования для заданной вероятности осуществления прогноза; точечный прогноз – прогноз, результат которого представлен в виде единственного значения характеристики объекта прогнозирования без указания доверительного интервала. По периоду упреждения выделяют: оперативный прогноз – прогноз до 1 месяца; краткосрочный – от 1 месяца до 1 года; среднесрочный – от 1 года до 5 лет; долгосрочный – от 5 лет до 15 лет; дальнесрочный прогноз – прогноз свыше 15 лет. Методы прогнозирования: статистический – основан на построении и анализе динамических рядов характеристик объекта прогнозирования; метод математической аналогии – основан на установлении аналогии математических описаний процессов развития различных по природе объектов с последующим использованием более изученного и более точного математического описания одного из них для разработки другого; публикационный – опережающий метод, основанный на оценке публикаций об объекте прогнозирования (по принятой системе критериев) и исследовании динамики их опубликования; экспертный – основан на мнении экспертов. Каждое значение (уровень) ряда динамики формируется под воздействием большого числа факторов, которые можно условно разделить на три группы: 1) факторы, формирующие тенденцию ряда (тренд, T); 2) факторы, формирующие циклические колебания ряда (циклическая составляющая, S); 3) случайные факторы (E). Тенденция характеризует долговременное воздействие факторов на динамику показателя. Тенденция может быть возрастающей или убывающей. Зависимость тренда от времени может принимать разные формы, поэтому для ее формализации используют различные виды функций: линейный, гиперболический, экспоненциальный, степенной, параболический (полиномиальный) тренд второго и более высоких порядков. Циклические колебания могут носить сезонный характер. Случайные факторы представляют собой влияние неучтенных факторов. Реальные данные часто содержат все три компоненты. В большинстве случаев временной ряд можно представить как сумму или произведение трендовой, циклической и случайной компонент[1]. Построение модели сводится к расчету значении тенденции, циклической составляющей и случайных колебания для каждого уровня ряда. Процесс построения модели, несмотря на имеющиеся технические возможности, довольно сложен[2], и поэтому самостоятельно проводить прогнозирование на основе тенденции следует только в случае "простой" формы динамического ряда, без выраженных колебаний. В иных случаях необходима консультация специалиста в области медицинской статистики. Задача прогнозирования ряда динамики состоит в том, чтобы по значениям наблюдений, собранных к данному моменту, определить значения в следующие моменты в целях своевременного принятия управленческих решений. Пошаговая инструкция Пример. Требуется спрогнозировать численность населения Региона в ШАГ N 1. В Microsoft Excel интервале A1-B7 сформировать динамический ряд Год и Численность населения. ШАГ N 2. На основе данного динамического ряда, используя функции Мастера диаграмм, построить диаграмму типа График. ШАГ N 3. Для создания линии тренда (тенденции) щелкнуть правой кнопкой мыши на одной из точек графика и в меню правой кнопки применить функцию "Добавить линию тренда". Выбирать тенденцию следует путем перебора разных вариантов, предлагаемых Microsoft Excel в открывшемся окне, следует сравнивать форму имеющегося ряда численности населения с каждым из вариантов (линейным, степенным, полиномиальным и проч.). Выбрать Полиномиальную. В окне Параметры задать: Прогноз вперед на 2 периода (2019 и 2020 гг.), Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности R2. ШАГ N 4. Для расчета значений численности населения в Будет получено значение 2012,5. ШАГ N 5. Для расчета значений численности населения в ШАГ N 6. Для расчета ошибки прогноза следует применить функцию расчета стандартной ошибки регрессии. Ввести в клетку C9 формулу: =СТОШYX(B2:B9;A2:A9). ШАГ N 7. Проанализировать результаты. ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ. В Примечания. Точность прогноза в большой мере зависит от неизменности прогнозного фона – факторов и условий среды обитания. Меняются внешние к объекту прогнозирования факторы, политические, экономические, социальные, культурные. Именно поэтому социальные процессы трудно прогнозировать, и прогнозы медико-демографических процессов, получаемых на основании тенденции, должны быть, как правило, не более чем среднесрочные – до 5 лет. Точность интервалов прогноза (сокращение размеров интервалов) можно улучшить путем увеличения динамического ряда, на основании которого строится прогноз. Есть мнение, что прогнозировать на основании динамического ряда можно следующим образом: семь лет ряда – один год прогноза, 14 лет ряда – два года прогноза и т.д. Вместе с тем наиболее важным для прогноза является последний период. Проведение прогнозирования требует участия подготовленного специалиста в области статистического анализа медицинских данных. Методы классификации: кластерный анализ Кластерный анализ – это различные процедуры, используемые для проведения классификации, в результате которых исходная совокупность объектов разделяется на кластеры или группы, классы схожих между собой объектов. Реальные объекты (например, регионы) являются многомерными, то есть описываются не одним, а несколькими параметрами, поэтому объединение объектов в группы проводится в пространстве многих измерений. К понятиям кластерного анализа относится расстояние между объектами как мера их сходства: чем ближе расстояние, тем более схожи объекты по нескольким признакам, отобранным для классификации[3]. Каждый класс объектов имеет свой центр. Расстояние между объектом и классом есть расстояние между объектом и центром класса. Центр класса рассчитывается, в частности, по средним значениям для каждого класса. В качестве метода кластерного анализа предлагается метод группировки k-средних (k-means clastering)[4]. Кластерный анализ следует применять для классификации субтерриторий по одному или нескольким признакам (многомерной классификации) и отбора наиболее типичных субтерриторий. Результаты многомерной классификации следует применять в ходе изучения причинно-следственных связей и разработки регионально-ориентированных профилактических программ. Пошаговая инструкция ПРИМЕР. Требуется провести классификацию муниципальных образований Региона по ряду информативных признаков санитарно-эпидемиологического благополучия населения районов (классификационных характеристик): 1) плотность населения, человек на 1 кв. км территории; 2) заболеваемость детей в возрасте 0 – 14 лет, на 100 тыс. детей; 3) инвалидность детей, на 10 тыс. детей; 4) общий коэффициент смертности, на 1000 человек населения; 5) обеспеченность населения врачами, на 10 тыс.; 6) число посещений амбулаторно-поликлинических учреждений на 1 жителя; 7) среднемесячная заработная плата, руб. По результатам классификации необходимо выделить районы области, схожие между собой по указанным характеристикам, с целью уточнения регионально-ориентированных профилактических программ. Анализ следует проводить в Statistica 6.0. ШАГ N 1. В файле Statistica сформировать базу данных вида: m × n, где: m – перечень районов Региона (32), а n – семь классификационных характеристик. ШАГ N 2. Провести стандартизацию[5] всех данных в меню Данные – Стандартизация, в окне Переменные – Выбор всего. Стандартизация обязательна вследствие необходимости получения сопоставимых данных. ШАГ N 3. Выбрать меню Статистика – Многомерные исследующие методы – Групповой анализ – k-средних (k-means clastering). Провести выбор параметров исследования: переменных: в окне Переменные – Выбор всего; способа классификации: в окне Cluster – по случаям (Cases); числа классов или кластеров: в окне Количество групп – 3; число итераций – 10. ШАГ N 4. Провести интерпретацию[6] полученных автоматически результатов кластерного анализа путем: 1) изучения результатов дисперсионного анализа; 2) графического анализа диаграммы; 3) изучения состава каждого класса. ШАГ N 5. На основании результатов дисперсионного анализа следует судить о значимости различий между полученными классами по всем классификационным характеристикам по значению уровня значимости p (должен быть меньше 0,05). То есть на этом этапе следует установить, насколько разнятся между собой полученные классы, и в случае значимых различий вести анализ дальше. ШАГ N 6. Провести графический анализ результатов классификации на основании диаграммы. На диаграмме представлены средние значения по каждой классификационной характеристике для всех классов (кластеров). В данном примере выделены три разные тенденции формирования здоровья населения. Класс (кластер) 1 следует считать более благополучным среди других районов Региона. Несмотря на высокие показатели заболеваемости детей, инвалидность детей и смертности населения минимальны. В районах класса 1 отмечается наибольшая плотность населения (что косвенно указывает на привлекательность этих районов для населения), высока обеспеченность врачами и амбулаторной помощью, наиболее высокая в Регионе заработная плата. В этих условиях высокую заболеваемость детей следует расценивать положительно как результат хорошей диспансерной работы и профилактику инвалидности детей. Класс (кластер) 2 следует считать самым неблагополучным в Регионе в отношении социально-экономических факторов среды обитания. В районах этого класса минимально обеспечение населения квалифицированной медицинской помощью (врачами), амбулаторной помощью. Причинами высокой смертности населения в этих районах можно считать также низкую заработную плату и минимальную плотность населения (которая снижает доступность населения к инфраструктуре, в частности, здравоохранения). Диспансерную работу здравоохранения следует считать неэффективной, так как минимальные показатели заболеваемости детей не оправданы ввиду высоких показателей инвалидности детей. Класс (кластер) 3 – наиболее неблагополучный в отношении потерь здоровья населения – максимальные показатели инвалидности детей, смертности населения, высокая заболеваемость детей. Следует отметить, что наилучшая в Регионе обеспеченность населения врачебной и амбулаторной помощью не приводит к улучшению здоровья. Одной из возможных причин неэффективности работы здравоохранения является низкая плотность населения, которая требует иных форм организации медицинской помощи, например, функционирования мобильных врачебно-диагностических бригад. В районах этого класса население получает низкую заработную плату. Кластер 1: Таврический, Азовский, Исилькульский, Калачинский, Кормиловский, Марьяновский, Москаленский, Омский, Нововаршавский, Одесский, Павлоградский, Полтавский, Русско-Полянский, Шербакульский районы. Кластер 2: Тевризский, Знаменский, Седельниковский, Усть-Ишимский, Колосовский, Крутинский, Называевский, Нижнеомский, Тюкалинский, Оконешниковский. Кластер 3: Большереченский, Большеуковский, Тарский, Горьковский, Муромцевский, Саргатский, Любинский, Черлакский. ШАГ N 7. Провести анализ состава каждого класса с использованием опции "Элементы каждого кластера & расстояния": где указано число районов в классе, их перечень и расстояние каждого объекта до центра класса. По числу районов в классе следует судить о степени типичности класса для всей совокупности районов Региона. По расстоянию расстояние каждого объекта (района) до центра класса судят о степени типичности района для соответствующего класса: минимальное расстояние указывает на наибольшую типичность. В данном примере класс 1 (благополучный) составили 14 районов Региона, все – из его южной половины, степной и лесостепной зон. Апробацию профилактических программ следует проводить в наиболее типичном районе этого класса – Таврическом. Класс 2 (неблагополучный в отношении социально-экономических факторов среды обитания) составили 10 районов. 9 из них расположены в северной половине области, 1 (Оконешниковский) – в южной лесостепи. Известно, что в Оконешниковском районе области самая низкая среди районов южной половины Региона плотность населения, что и обусловило принадлежность этого района в класс 2. Наиболее типичный район этого класса – Тевризский . Класс 3 (неблагополучный в отношении потерь здоровья населения) составили 8 районов, 6 из которых расположены в северной половине Региона. Наиболее типичный район этого класса – Большереченский. ШАГ N 8. ЗАКЛЮЧЕНИЕ. В результате кластерного анализа определены медико-географические закономерности формирования санитарно-эпидемиологического благополучия населения районов Региона по ряду информативных характеристик. Уровень потерь здоровья населения в регионе зависит: - от географических характеристик (на севере региона потери здоровья выше, чем в его южной половине); - от плотности населения (на малозаселенных территориях смертности населения и инвалидность детей выше, чем на густозаселенных); - от обеспеченности квалифицированной амбулаторной медицинской помощью: ее высокие показатели в восьми районах области не приводят к снижению инвалидности детей и смертности населения, очевидна необходимость иной организации медицинского обеспечения; - от материального положения населения: высокая заработная плата способствует снижению смертности и инвалидности; - от качества диспансерной работы учреждений здравоохранения: чем выше заболеваемость детей, тем ниже инвалидность. Высокие цифры заболеваемости детей свидетельствуют в этой ситуации не о худшем здоровье, а о лучшей диспансеризации. 10 районов класса 2 нуждаются в улучшении обеспечения населения квалифицированной врачебной амбулаторной помощью; повышении выявления заболеваний и проведении профилактической работы среди больных детей; в повышении уровня заработной платы среди населения. На малозаселенных территориях следует повышать доступность населению медицинской помощи путем организации, в частности, мобильных врачебно-диагностических пунктов. Планирование снижения заболеваемости детей в этих районах некорректно. Основными направлениями профилактической программы для восьми районов класса 3 должны стать повышение уровня заработной платы среди населения и организация мобильных врачебно-диагностических пунктов. Основными результатами профилактики должны стать снижение смертности населения и инвалидности среди детей. Примечания. Проведение кластерного анализа требует участия подготовленного специалиста в области статистического анализа медицинских данных в виду необходимости решения ряда вопросов (отбор классификационных характеристик, выбор числа классов, числа итераций) и невозможности формализации этих решений. Подготовленный специалист должен обладать соответствующими знаниями, опытом и интуицией. Отбор классификационных характеристик следует проводить на основании результатов информационного поиска и других видов статистического анализа (корреляционный, факторный анализ). Вопрос выбора классификационных характеристик нельзя решить формально, однозначных рекомендаций не существует. Большое значение имеет интуиция исследователя и желаемый результат. Выбор числа классов проводится произвольно, после серии статистических экспериментов[7], в зависимости от числа территорий и осмысленности получаемых результатов. В процессе анализа следует сравнивать результаты: если они получаются близкими для двух кластеров, число кластеров следует уменьшить. В любом случае число классов не должно быть слишком большим вследствие трудности интерпретации результатов (обычно выбирают 3 – 5 классов). Выбор числа итераций осуществляется, пока число итераций не превысит заданное пользователем. Если в появившемся окне результатов полученное число итераций ниже указанного исследователем, а другие результаты удовлетворительно интерпретируются, то на данном числе итераций можно остановиться. Если число то же самое, то число итераций еще увеличить. Добавление итераций способствует увеличению точности результатов. Причинно-следственные связи: корреляционно-регрессионный анализ Корреляция – это описание взаимосвязи количественных или порядковых признаков. Интерпретация корреляции проводится на основании: 1) коэффициента корреляции (r) и его квадрата – коэффициент детерминации (R2), которые свидетельствуют о силе связи; R2 представляет собой долю вариации, общую для двух переменных (иными словами, "степень" зависимости или связанности двух переменных); 2) уровня значимости, вычисленного для каждого коэффициента корреляции, позволяющего судить о надежности корреляции; 3) визуального анализа связи. Коэффициент корреляции – мера корреляции, показывает, в какой степени изменение значения одного признака сопровождается изменением значения другого признака в данной выборке. Значения коэффициента корреляции изменяются в интервале от -1 до 1. Знак (плюс или минус) при коэффициенте корреляции указывает направление связи. При отрицательном значении коэффициента корреляции связь обратная, т.е. чем больше значение одного признака, тем меньше значение второго признака, при положительном знаке связь прямая: чем больше, тем больше. Принята следующая классификация силы корреляции в зависимости от значения коэффициента корреляции r: |r| <= 0,3 – слабая связь, 0,3 < |r| < 0,7 – умеренная корреляция (средней силы), |r| >= 0,7 – сильная связь. Вместе с тем даже в случае сильной связи, она может быть статистически не значима, например, в случае малого объема выборки. Для оценки значимости связи необходимо проводить специальные расчеты уровня значимости (аналогично многим другим видам анализа). Пакет Statistica делает это автоматически. Однако и оценки уровня значимости недостаточно. Необходим визуальный анализ связи на точечном графике рассеяния объектов исследования с учетом по форме связи ("облака" точек) и по наличию выбросов на диаграмме рассеяния. "Выбросы" – крайние значения признаков, не характерные для данной выборки, слишком большие или слишком малые значении, аномальные, при удалении которых связь полностью может измениться. Наличие корреляции не является доказательством причинно-следственной связи признаков. Даже сильно связанные друг с другом признаки могут зависеть от какого-либо третьего фактора. Отношение "причина – следствие" возможно на основании логического продолжения корреляционного анализа – регрессионного. Продолжать следует в том случае, когда найдено логическое объяснение полученной связи и можно утверждать, который из коррелированных между собой показателей причина, а который – следствие. Регрессионный анализ – один из методов статистического моделирования, позволяющий получить характеристику изменения одной переменной в зависимости от изменения другой. Моделью является уравнение регрессии. В регрессионном анализе изменение зависимой переменной Y зависит от изменения независимой переменной X. При этом вопрос, какую именно переменную считать за X, а какую принимать за Y – решает автор, исходя из логики изучаемого процесса. В этом принципиальное отличие корреляционного и регрессионного анализов. Важность регрессионного анализа в том, что на основе регрессионных моделей разрабатываются прогнозы развития зависимой переменной Y от изменений независимой (нескольких независимых) переменной X. Если модель построена на основании нескольких переменных X, то регрессия называется множественной. Регрессионная модель задается уравнением: Y = a + b × X, при этом переменная Y выражается через константу (a) и коэффициент (b), умноженный на переменную X. Константу называют также свободным членом a, а угловой коэффициент – регрессионным или B-коэффициентом. В уравнении регрессии оба коэффициенты должны быть значимы, как и вся модель. Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X). Однако природа редко (если вообще когда-нибудь) бывает полностью предсказуемой, и обычно имеется существенный разброс наблюдаемых точек относительно подогнанной прямой. Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком. Корреляционно-регрессионный анализ позволяет выполнить основные задачи социально-гигиенического мониторинга, исходящие из его определения: выявить причинно-следственные связи, прогнозировать на их основе изменение ситуации, разработать конкретные меры профилактики. Пошаговая инструкция ПРИМЕР: Требуется проверить, насколько младенческая смертность в районах Региона зависит от показателей медицинского обеспечения населения? Можно ли, корректируя медицинское обеспечение населения, снизить младенческую смертность? Что надо изменить и насколько? ШАГ N 1. В файле Statistica сформировать базу данных вида: m × n, где: m – перечень районов Региона (32), а n – пять характеристик: 1 – младенческая смертность, на 1000 новорожденных; 2 – обеспеченность населения средним медицинским персоналом, на 1000 населения; 3 – обеспеченность населения врачами, на 1000 населения; 4 – обеспеченность населения койками, на 1000 населения; 5 – обеспеченность населения амбулаторной помощью (число посещений амбулаторно-поликлинических учреждений на 1 жителя в год). ШАГ N 2. Применить меню Основные статистики – Корреляционная матрица. В окнах Переменные выбрать показатели: в левом окне выделить переменную Младенческая смертность, в правом – все характеристики медицинского обеспечения (всего 4). Нажать Итог: матрица корреляций. В окне результатов появятся коэффициенты корреляции Пирсона, значимые из них выделены красным цветом. ШАГ N 3. Проанализировать результаты. Коэффициенты корреляции младенческой смертности и характеристик медицинского обеспечения значимы только в двух случаях из четырех, причем обе связи обратные: с показателями обеспеченности населения врачами (r = -0,35) и посещаемостью амбулаторных учреждений (r = -0,62). Обеспеченность населения средним персоналом и койками с показателями младенческой смертности не связаны (коэффициенты, соответственно, 0,09 и 0,12). Прежде чем делать выводы, следует обязательно проверять полученные связи визуально. ШАГ N 4. Для визуальной проверки применить опцию Вычерчивание..., в результате чего будет получен ряд графиков рассеяния, на которых автоматически нанесена линия тренда. ШАГ N 5. Проанализировать результат, обращая внимание на форму "облака" точек (во всех случаях вытянута вдоль линии тренда, выбросов нет) и наклон линии тренда[8], указывающий на силу и направление связи. В данном случае, исходя из силы связи, наибольший эффект для снижения младенческой смертности следует предположить при увеличении посещаемости населением амбулаторных учреждений. Это допущение следует проверить в ходе дальнейшего регрессионного анализа. ШАГ N 6. Применить опцию Множественная регрессия. В окне Переменные выбрать переменные: как зависимую Y – младенческую смертность, как независимую X – обеспеченность населения амбулаторной помощью. Нажать Итог: результаты регрессии. В появившемся окне будут получены основные результаты регрессии: сила связи r = 0,62, коэффициент детерминации R2 = 0,36, критерий значимости F = 18,8, уровень значимости связи p = 0,000, значение ошибки регрессии Sy = 2,0. В другом окне следует обратить внимание на значения и статистическую значимость обоих полученных коэффициентов a и b (оба выделены красным цветом). Следует записать уравнение: y = 25,8 – 1,75x, где: y – младенческая смертность; x – обеспеченность населения амбулаторной помощью. ШАГ N 7. Для получения графика применить функцию Остатки/предположения/предсказания – Выполнить остаточный анализ – Разбросы – Предсказанные (значения) относительно измеренных (реальных). На полученный график, применив меню правой кнопки на одной из точек, нанести Доверительный эллипс. ШАГ N 8. Проанализировать результаты, учитывая форму облака (эллипса), линейность связи. Чем более плоский эллипс, тем связь сильнее. ШАГ N 9. Вернувшись в меню Остатки/предположения/предсказания применить функцию Предсказать связанную переменную. Эта опция позволит, введя любое значение переменной X (в данном случае это посещаемость населением амбулаторных учреждений), получить прогнозное значение переменной Y (в данном случае это младенческая смертность). Следует предварительно рассчитать среднее значение посещаемости населением амбулаторных учреждений и ввести в окно опции несколько большую цифру. Например, среднее число посещений амбулаторно-поликлинических учреждений на 1 жителя в год составило в реальности 6,2. При этом среднее значение младенческой смертности в регионе – 15,0 на 1000 новорожденных. При введении в окно опции "Предсказать связанную переменную" другого числа, например, 7 (то есть 7, а не 6,2 посещений амбулаторно-поликлинических учреждений на 1 жителя в год), получается цифра младенческой смертности 13,6 (точнее в диапазоне от 12,6 до 14,6), а не 15,0, как в реальности. Если нужно запланировать снижение младенческой смертности до 14,0, то число посещений амбулаторно-поликлинических учреждений следует увеличить до 6,8 на 1 жителя в год. ШАГ N 10. Сделать окончательное заключение. ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ. В ходе изучения связей между показателями младенческой смертности и медицинского обеспечения в районах Региона установлено следующее: чем меньше в районе врачей и чем реже население посещает амбулаторные учреждения, тем выше младенческая смертность. Обеспеченность населения средним персоналом и койками на показатели младенческой смертности не влияют. Наибольший из проанализированных показателей вклад в формирование младенческой смертности в районах Региона вносит доступность амбулаторной помощи – 36%. То есть, чем чаще население районов Региона посещает амбулаторно-поликлинические учреждения, тем реже умирают младенцы. Объяснение этому факту мы видим в общей профилактической роли этого вида медицинской помощи, во-первых. Во-вторых, и женские консультации и детские поликлиники, деятельность которых непосредственно влияет на здоровье новорожденных и детей первого года жизни, – являются одним из видов амбулаторной помощи населению. Следует, очевидно, расширить понимание природы младенческой смертности и для ее снижения принимать меры не только в отношении беременных, рожениц и детей первого года жизни, но и в отношении всего населения. Для снижения младенческой смертности в Регионе с существующего уровня 15,0 на 1000 новорожденных до 14,0 число количеств посещений амбулаторно-поликлинических учреждений на 1 жителя в год следует увеличить до 6,8 (в настоящее время 6,2). Примечания. В случае отсутствия Statistica корреляционный и регрессионный анализ следует проводить в Microsoft Excel, применяя функции Коррел, Пирсон, Анализ данных. Регрессионный анализ также весьма сложен для начинающих аналитиков, кроме того, имеет ряд т.н. ограничений. В частности, предполагается линейный характер связи (что можно увидеть на графике рассеяния), и при существенных отклонениях связи от линейной формы этот анализ неприемлем. Переменные должны быть нормально распределены, как и остатки. Ограничен выбор числа переменных X. Имеет место мультиколлинеарность, то есть взаимообусловленность, взаимосвязь показателей, что препятствует анализу. Поэтому регрессионный анализ, особенно множественная регрессия, также требуют участия опытных специалистов. Метод сокращения числа переменных: факторный анализ Факторный анализ применяется в случае необходимости анализа объемного признакового пространства (большого количества характеристик большого количества объектов). Факторный анализ – это ряд последовательных математических процедур, в результате которых сокращается исходное количество изученных характеристик (переменных) и выделяются новые факторы, число которых значительно меньше исходного количества переменных. В факторном анализе термин фактор имеет другое, отличное от привычного значения – причина, условие, влияющие на что-либо. Факторы факторного анализа или компоненты компонентного анализа (его разновидности) являются гипотетическими, скрытыми, их нельзя измерить непосредственно, в реальности они не существуют, однако характеризуют структуру исходного признакового пространства. Сокращение числа переменных достигается путем выделения скрытых общих факторов, объясняющих связи между наблюдаемыми признаками объекта. В основном процедура выделения факторов подобна вращению, максимизирующему дисперсию (варимакс) исходного пространства переменных. Цель вращения заключается в максимизации изменчивости новой переменной (фактора) и минимизации разброса исходных переменных. Выделенные таким образом факторы называют общими, так как они воздействуют на все признаки (параметры) объекта, а не какой-то один или группу признаков. Одной из основных задач, решаемых при проведении факторного анализа, является то, сколько факторов следует оставить для окончательной интерпретации. Данное решение произвольно и остается за исследователем, однако имеются общеупотребительные критерии – Кайзера, каменистой осыпи и др. Критерий Кайзера предполагает отбор факторов с собственными значениями, большими 1, то есть если фактор не выделяет дисперсию, эквивалентную дисперсии одной переменной, то он опускается. Критерий каменистой осыпи. Критерий каменистой осыпи является графическим методом, отображающим собственные значения полученных факторов (точечный график). На графике отмечается место, где убывание собственных значений слева направо максимально замедляется, и выбираются факторы слева от определенной точки. Учитывают также факторы с собственными значениями, большими 1, то есть если фактор не выделяет дисперсию, эквивалентную дисперсии одной переменной, то он не информативен. Обычно исследуется несколько решений с большим или меньшим числом факторов, и затем выбирается одно наиболее "осмысленное". Факторный анализ в социально-гигиеническом мониторинге необходим в силу необходимости выделения приоритетных влияний (факторов) обширного признакового пространства, накопленного согласно структуре информационного фонда. Факторный анализ используется для оценки причинно-следственных связей. Факторный анализ позволяет также оценить информативность характеристик, отобранных для анализа. Пошаговая инструкция ПРИМЕР. Проведено изучение ряда медико-демографических показателей в совокупности районов Региона: заболеваемости детей, заболеваемости подростков, инвалидности детей, младенческой смертности и общей смертности населения (пять переменных). Необходимо сократить количество переменных и выделить те из них, которые в наибольшей степени определяют вариацию медико-демографической ситуации в Регионе, а также решить вопрос, насколько отобранные для характеристики медико-демографической ситуации переменные на самом деле ее характеризуют, насколько они информативны? ШАГ N 1. В файле Statistica сформировать базу данных вида: m × n, где: m – перечень районов (32), а n – пять классификационных характеристик (заболеваемости детей, заболеваемости подростков, инвалидности детей, младенческой смертности и общей смертности населения). ШАГ N 2. Провести стандартизацию всех данных в меню Данные – Стандартизация, в окне Переменные – Выбор всего. Стандартизация обязательна для получения сопоставимых данных. ШАГ N 3. Выбрать меню Статистика – Многомерные исследующие методы – Анализ особенностей. Провести выбор параметров исследования: переменных: в окне Переменные – Выбор всего. В появившемся окне в ячейке Максимальное (количество факторов) поставить число, соответствующее количеству выбранных переменных (5), в ячейке Минимальное – 0. ОК. ШАГ N 4. Провести интерпретацию полученных результатов факторного анализа путем просмотра появившихся цифр синего цвета после слова Собственные (значения факторов): учитывать, сколько получилось значений больше 1 или близкое к 1. ШАГ N 5. Поскольку в результате предыдущего шага выявлено 3 фактора, имеющие собственные значения больше 1 или близкое к 1, то следует предыдущую процедуру повторить, введя в ячейку Максимальное цифру 3. ШАГ N 6. В появившемся окне нажать вкладку Быстрый (анализ), и появится ячейка Поворот. Выбрать для данной ячейки Варимакс необработанный (он же называется исходный). Нажать Summary. Появляется таблица факторных нагрузок (табл. 6). Перед тем, как ее содержательно интерпретировать, следует убедиться в значимости полученных результатов, о чем свидетельствует значение доли общей дисперсии, объясненной полученными компонентами. Это значение приводится в таблице собственных значений (табл. 7). Таблица 6 РЕЗУЛЬТАТЫ ФАКТОРНОГО АНАЛИЗА МЕДИКО-ДЕМОГРАФИЧЕСКИХ ПОКАЗАТЕЛЕЙ: ТАБЛИЦА ФАКТОРНЫХ НАГРУЗОК[9]
ШАГ N 7. В окне Результаты анализа – Объяснимая дисперсия нажать кнопку Eigenvalue. Будет получена таблица собственных значений главных компонент, в которой приведены основные стандартные результаты анализа (табл. 7). Таблица 7 РЕЗУЛЬТАТЫ ФАКТОРНОГО АНАЛИЗА МЕДИКО-ДЕМОГРАФИЧЕСКИХ ПОКАЗАТЕЛЕЙ: ТАБЛИЦА СОБСТВЕННЫХ ЗНАЧЕНИЙ ФАКТОРОВ
ШАГ N 8. Провести интерпретацию таблицы собственных значений, обращая внимание на нижнее значение в четвертом столбце. Это суммарная дисперсия всех факторов, выраженная в процентах (89,7). Известно, что хорошим результатом считается значение порядка 80%, поэтому следует сделать вывод о том, что данная совокупность переменных удовлетворительно объясняет общую вариабельность признакового пространства медико-демографической ситуации в Регионе, исходные переменные информативны. ШАГ N 9. Провести графический анализ результатов, применив опции Объяснимая дисперсия – Вычерчивание. Проанализировать график каменистой осыпи, ответив на вопрос: сколько факторов следует оставить. Судя по критерию каменистой осыпи и с учетом собственных значений факторов, следует оставить для интерпретации 3 фактора. ШАГ N 10. Провести содержательную интерпретацию полученных факторов, исходя из названий переменных, которые в сильной степени (> 0,70) связаны с каждым из факторов (компонент). Это означает, что именно эти переменные в наибольшей степени определяют выделенные факторы и именно с этой точки зрения следует проводить качественный анализ результатов. В процессе интерпретации следует учитывать также те переменные, которые показали связи средней силы с теми или иными компонентами. В данном примере полученные факторы можно интерпретировать как: 1 – фактор заболеваемости детей, 2 – фактор тяжелых потерь здоровья населения и 3 – фактор младенческой смертности. Обращает внимание разная направленность знаков переменных, объединившихся в фактор 1 (чем больше заболеваемость детей и подростков, тем ниже смертность) и фактор 3 (чем выше младенческая смертность, тем ниже заболеваемость детей). ШАГ N 11. Сделать окончательные выводы, обобщив все результаты. ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ: в результате факторного анализа установлено следующее. Во-первых, исходные переменные – показатели заболеваемости детей, заболеваемости подростков, инвалидности детей, младенческой смертности и общей смертности населения – высоко информативны, поскольку удовлетворительно описывают медико-демографическую ситуацию в Регионе, объясняя 89,7% исходной изменчивости. Во-вторых, сокращено исходное количество переменных с пяти до трех факторов. В-третьих, выделено три главных фактора медико-демографической ситуации в Регионе (табл. 6). Фактор 1 – фактор заболеваемости, который обусловили показатели заболеваемости детей и подростков, причем с увеличением заболеваемости детей отмечается одновременное увеличение заболеваемости подростков. Фактор 1 объясняет почти половину (45,3%) общей вариации. Фактор 2 (фактор тяжелых потерь здоровья) отражает тесную взаимосвязь инвалидности детей и смертности населения, при увеличении одного показателя отмечается рост второго, что позволяет также высоко оценить качество учета инвалидности детей. Фактор 2 объясняет 28,1% общей вариации. Фактор 3 – фактор младенческой смертности, выделившийся в самостоятельную компоненту, что указывает на большую общность районов Региона в отношении этой характеристики и относительную независимость от остальных показателей, отобранных для анализа. Очевидны усилия здравоохранения по минимизации различий между районами области в сфере снижения младенческой смертности. Фактор 3 объясняет 16,2% общей вариации. Наибольший вклад в общую дисперсию фактора 1 указывает на то, что для уменьшения тяжелых потерь здоровья (а именно инвалидности детей и смертности населения) в Регионе должны стать мероприятия, направленные на минимизацию различий в районах области по показателям заболеваемости, на улучшение диспансерной работы, выявление заболеваемости среди детей и подростков в районах с высокими показателями инвалидности детей, смертности населения и детей до 1 года. Примечания. Отбор переменных для факторного анализа следует проводить на основании результатов информационного поиска и других видов статистического анализа данных. Факторный анализ относится к сложным многомерным методам, он имеет ряд допусков и предположений[10], ряд его процедур невозможно вполне формализовать в отличие от многих других видов анализа, поэтому в процессе его проведения обязательно участие квалифицированного специалиста-статистика. Литература: 1. Методические рекомендации "Социально-гигиенический мониторинг. Анализ медико-демографических и социально-экономических показателей на региональном уровне", утв. приказом Роспотребнадзора от 20.09.2010 N 341. Источник: журнал «Медицинская статистика и оргметодработа в учреждениях здравоохранения» N 5/2019. [1] Выделяют аддитивную и мультипликативные модели временного ряда (рассчитываются по формулам, соответственно: y = T + S + E и y = T × S × E, где: T – трендовая составляющая, S – циклическая составляющая, E – случайная составляющая).
[2] Включает в себя следующие шаги: 1) выравнивание исходного ряда методом скользящей средней; 2) расчет значений сезонной компоненты S; 3) устранение сезонной компоненты из исходных уровней ряда и получение выровненных данных (T + E) в аддитивной или (T × E) в мультипликативной модели; 4) аналитическое выравнивание уровней (T + E) или (T × E) и расчет значений T с использованием полученного уравнения тренда; 5) расчет полученных по модели значений (T + S) или (T × S); 6) расчет абсолютных и относительных ошибок.
[3] Расстояние определяют несколькими способами: с применением евклидовой метрики, определяемое по теореме Пифагора, либо с применением т.н. манхэттенского расстояния или "расстояния городских кварталов" (когда можно перемещаться только по улицам, но нельзя по диагонали квартала), а также другие.
[4] В этом методе объект относится к тому классу, расстояние до которого минимально, то есть метод k-средних строит ровно k различных кластеров, расположенных на возможно больших расстояниях друг от друга. С вычислительной точки зрения можно рассматривать метод k-средних, как дисперсионный анализ "наоборот". Программа начинает с k случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: минимизировать изменчивость внутри кластеров и максимизировать изменчивость между кластерами. Данный способ аналогичен методу "дисперсионный анализ (ANOVA) наоборот" в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом k-средних программа перемещает объекты из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа (ANOVA). Значения F-статистики, полученные для каждого измерения, являются индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.
[5] Стандартизация данных – приведение данных к определенному стандарту, дающая возможность их корректного сравнения и проведения некоторых видов анализов (факторного, кластерного).
[6] Интерпретация результатов статистического анализа – осмысление, получение качественного результата, вывода.
[7] Статистический эксперимент – эксперимент, осуществляемый на основании статистических данных методами математической статистики.
[8] Построена по методу наименьших квадратов.
[9] В таблице приведены значения корреляционных коэффициентов переменных с фактором.
[10] Обычно в моделях факторного анализа предполагаются выполненными следующие предположения: 1) все переменные имеют нормальное распределение; 2) общие факторы являются либо некоррелированными случайными величинами с дисперсией 1, либо неизвестными случайными параметрами; 3) остатки (остаточные факторы) имеют нормальное распределение, не коррелированны между собой и не зависят от общих факторов.
| |||||||||||||||||||||||||||||||||||||||||||||
Категория: Медицинская статистика | Добавил: zdrav1 (21.06.2020) | |||||||||||||||||||||||||||||||||||||||||||||
Просмотров: 1473 | |
Всего комментариев: 0 | |