Контрольные карты (III). Предварительный анализ: проверка однородности дисперсий.

В предыдущей части в качестве примера мы отобрали данные титриметрического анализа без учёта различий в метрологических характеристиках методик и пришли к выводу о ненормальности распределения вследствие неоднородности данных. Теперь мы распределим сходные методики по группам, и снова убедимся в их принадлежности нормальному распределению. Группирование произведём таким образом: для каждой методики сделаем выборки и установим однородность для каждой выборки по нескольким критериям. Если гипотеза об однородности пройдёт, то мы будем считать, что между метрологическими характеристиками методик нет существенной разницы, и мы можем строить для них общую контрольную карту. Если данные не однородны, то результаты анализов по таким методикам на одну карту наносить не будем.

Примечание. Если метрологические характеристики методов задаются нормативной документацией, то подобный анализ однородности не требуется. Методики просто группируются относительно указанных в НД пределов погрешностей.
    В ОСТ 107.460092.001-86 не оговариваются пределы погрешностей, поэтому нам такой анализ потребуется. Отметим, что анализ на однородность данных перед работой с картами в любом случае должен проводиться, но, привязывая анализ к данным групп методик, а не случайных выборок, мы решаем ещё одну задачу -  проверяем возможность использования одной контрольной карты для данных полученных от максимально большого количества методик.

   В лаборатории при участке гальванопластики реализуется огромное количество методик анализа, но для примера мы рассмотрим данные химического анализа, полученные в ходе выполнения четырёх из них. Первоначально предполагается, что две из них однородны, однородность третьей по отношению к первым двум вызывает сомнение, а четвёртая предположительно не однородна с остальными. Мы проведём анализ однородности, по результатам которого поймём, сколько контрольных карт нужно будет строить для этих четырёх методик анализа (если вдруг все данные окажутся однородными, то достаточно одной контрольной карты; если все данные будут неоднородными, то необходима своя  контрольная карта для каждой из методик).
  В таблице сведены данные по десяти случайно отобранным химическим определениям. Приведены относительные ошибки определения при 95% доверительной вероятности (εотн., % - х12…х10). Для каждой из выборок была проведена проверка нормальности распределения (расчёты приводить не будем - они аналогичны тем, что мы рассматривали ранее (Контрольные карты (II). Предварительный анализ: проверка принадлежности данных нормальному распределению.), приведём только значения WM-критерия).

 

Выборка 1

Ацидиметрическое определение H2SO4 в электролите лужения

(титрование заместителя)

Выборка 2

Йодометрическое определение меди в электролите меднения

(титрование заместителя)

Выборка 3

Комплексонометрическое определение никеля в электролите никелирования

(прямое титрование)

Выборка 4

Комплексонометрическое определение свободного кобальта  в электролите золочения

(обратное титрование)

x1 0,52 0,99 0,83 3,38
x2 0,62 0,90 0,85 2,41
x3 0,67 1,29 0,87 2,69
x4 0,72 0,77 1,03 2,90
x5 0,83 0,75 1,1 3,23
x6 0,84 1,19 1,19 2,84
x7 0,87 0,38 1,3 1,15
x8 0,91 1,07 1,36 4,17
x9 1,10 1,50 1,38 5,06
x10 1,29 0,89 1,61 2,05
WM 0,955 0,985 0,940 0,976

Анализ однородности проводится следующим образов:

  1. Оценивают принадлежность выборок нормальному распределению. Критерии, по которым мы далее будем проверять однородность данных, чувствительны к отклонениям от нормальности распределения.

Этот этап нами уже выполнен (WM-критерий превышает критическое значение WMкр=930).

  1. Оценивают однородность дисперсий. Данный этап необходим для того, чтобы не ввести себя в заблуждение при оценке средних значений в случае, когда дисперсия у одной из выборок настолько велика, что перекрывает центр распределения второй выборки. Если не провести оценку дисперсий, анализ средних может показать, например, однородность относительных ошибок определения в 2% и в 4% при большой дисперсии второй величины.
  2. И, наконец, оценивают однородность средних тенденций процессов. Все остальные этапы можно рассматривать как подготовительные к этому.

Рассчитаем средние значения каждой выборки:
x1cредн. = ∑xi1/n1 = (0,52+0,62+0,67+0,72+0,83+0,84+0,87+0,91+1,10+1,29)/10 = 0,84

x2cредн. = ∑xi2/n2 = 0,97

x3cредн. = ∑xi3/n3 = 1,15

x4cредн. = ∑xi4/n4 = 2,99
Рассчитаем дисперсии каждой выбороки:

S12 = ( ∑(xi1– x¯1)2) / (n1-1) = [(0,84-0,52)2+(0,84-0,62)2+…+(0,84-1,29)2]/(10-1) = 0,0522

S22 = ( ∑(xi2– x¯2)2) / (n2-1) = 0,0989

S32 = ( ∑(xi3– x¯3)2) / (n3-1) = 0,0689

S42 = ( ∑(xi4– x¯4)2) / (n4-1) = 1,1792

  Выборка 1 Выборка 2 Выборка 3 Выборка 4
xcредн. 0,84 0,97 1,15 2,99
S2 0,0522 0,0989 0,0689 1,1792

 1) Оценка по критерию Фишера.

   Для сравнения двух выборочных дисперсий используют F-критерий. При этом вычисляют отношение большей дисперсии к меньшей:

F = S21/S22

  Затем сравнивают рассчитанное значение Fс табличным Fα(f1,f2), где α – уровень значимости, а f1, f2 – числа степеней свободы для большей и меньшей выборок.

   Сравним дисперсии из нашего примера:

S2 0,0522 0,0989 0,0689 1,1792

    В нашем случае число степеней свободы для всех выборок одинаковы, поэтому мы найдём отношение максимальной (1,1792) дисперсии к минимальной (0,0522) и сравним его с табличным значением. Если большая и меньшая дисперсия однородны, то все остальные также будут однородны. Если они не будут однородными, то мы найдём отношение второй по величине дисперсии (0,0989) к наименьшей (0,0522) и т.д. Гипотеза об однородности принимается, если F<Fα(f1,f2).

Первая итерация: F = S2max/S2min= 1,1792/0,0522 = 22,58

Табличное значение Fα=0,05(f1=9,f2=9) = 3,18. Гипотеза отвергается.

Вторая итерация: F= S2max/S2min= 0,0989/0,0522 = 1,89.

Табличное значение больше расчётного, поэтому гипотеза об однородности дисперсий выборок 1 и 2 принимается. Также однородной с ними является дисперсия выборки 3, т.к. она занимает промежуточное положение.

   Подтвердим полученные результаты с помощью критериев Кохрена и Бартлетта (хи-квадрат).

s1

2) Оценка по критерию Кохрена.

     Критерий Кохрена применяется для выборок одинакового объёма. В случае использования критерия Кохрена вычисляют отношение максимальной дисперсии к сумме всех дисперсий и сравнивают его с табличным значением:

G = S2max/∑Si2

Если G>Gα(f,n), то принимают гипотезу об отсутствии однородности дисперсий с вероятностью α совершить ошибку.

   Процедура сравнения заключается в том, что мы последовательно исключаем наибольшие дисперсии из рассмотрения в случае неоднородности, пока не находим хотя бы две однородные дисперсии или полное отсутствие таковых.

Первая итерация: G = S2max/∑Si2 = 1,1792/(1,1792+0,0689+0,0989+0,0522) = 0,8428

Находим табличное значение Gα(f,n) = 0,5017, где n – число сравниваемых выборок (n=4), f = m-1 = 9– число степеней свободы, m – объём выборки (m=10), α=0,05 – уровень значимости.

Неравенство G>Gα(f,n) соблюдается, значит, мы отбрасываем гипотезу об однородности с вероятностью в 5% совершить ошибку.

    Мы отбрасываем выборку с большей дисперсией 1,1792, и повторяем проверку для оставшихся трёх выборок.

Вторая итерация:

G = S2max/∑Si2 = 0,0989/(0,0689+0,0989+0,0522) = 0,4495

Находим табличное значение Gα(f,n) = 0,6167, где n – число сравниваемых выборок (n=3), f = m-1 = 9– число степеней свободы, m – объём выборки (m=10), α=0,05 – уровень значимости.

Неравенство G>Gα(f,n) нарушается, значит, мы принимаем гипотезу об однородности дисперсий трёх оставшихся выборок.

s2

s3

3) Оценка по критерию Бартлетта.

      Преимуществом этого критерия является возможность сравнения выборок разного объёма. Мы используем выборки одинакового объёма, поэтому будем использовать  упрощённые расчёты. С расчётами для выборок разного объёма можно ознакомиться в книге по ссылке ниже. Критерий Бартлетта чувствителен к отклонению распределения от нормального, поэтому при его применении необходимо осторожно подходить к выводам. При его применении лучше подтверждать выводы другими методами.

   Критерий Бартлетта позволяет сравнивать большое число дисперсий, но мы всё же будем производить сравнение попарно большей и меньшей дисперсии аналогично F-критерию (в нашем случае это связано с тем, что так проще производить расчёты в Eхсel).
Гипотеза однородности принимается, если В/С< χ2.

Т.к. выборки будут сравниваться попарно n=2.

Объём выборок одинаков m=m1=m2=10,

Степень свободы каждой выборки fj=m1-1=m2-1=10-1=9

Степень свободы для критерия Бартлетта f = ∑fj = f1+f2 = 9+9=18

Итерация 1:

S2 0,0522 0,0989 0,0689 1,1792

1) Вычисляем среднюю арифметическую сравниваемых дисперсий:

S2a = ∑S2i/n = (0,0522 + 1,1792)/2 = 0,615732

2) Вычисляем среднюю геометрическую сравниваемых дисперсий:

S2g = (∏Si2fj)1/f=  [(0,05222*9)*(1,17922*9)]1/18 = 0,248161

3) Вычисляем критерий Бартлетта:

В = f*ln(S2a/S2g) = 18*ln(0,615732/0,248161) = 16,35721

4) Вычисляем коэффициент С:

С = 1 + (n+1)/(3*n*fj) = 1+(2+1)/(3*2*9) = 1,05555

5) Вычисляем отношение В к С:

В/С = 16,35721/1,05555 = 15,49630

Сравниваем полученное отношение В/С cтабличным значением хи-квадрат при числе степеней свободы ν=n-1=2-1 и уровне значимости 5%.

s4

χ2 = 3,841

    Рассчитанное значение больше критического, поэтому гипотеза однородности не может быть принята.

    Мы отбрасываем самую большую дисперсию и продолжаем проверку однородности.

Итерация 2.

S2 0,0522 0,0989 0,0689 -

1) S2a = ∑S2i/n = (0,0522 + 0,0989)/2 = 0,07555

2) S2g = (∏Si 2fj)1/f=  [(0,05222*9)*(0,09892*9)]1/18 = 0,071855

3) В = f*ln(S2a/S2g) = 18*ln(0,07555/0,071855) = 0,901431

4) С = 1 + (n+1)/(3*n*fj) = 1+(2+1)/(3*2*9) = 1,05555

5) В/С = 0,901431/1,05555 = 0,85399

   Сравниваем полученное отношение В/С cтабличным значением хи-квадрат при числе степеней ν=n-1=2-1=1 и уровне значимости 5%.

В/С=0,85399 <χ2 = 3,841

    Рассчитанное значение меньше критического, поэтому гипотеза однородности принимается.


Выводы: Данные анализа по критерию Фишера и критериям Кохрена и Бартлетта позволяют нам сделать вывод об однородности дисперсий выборок 1, 2 и 3 и неоднородности с ними выборки 4. Данные выборки 4 исключаются из дальнейшей проверки средних значений.

   Относительно нашей основной задачи можно отметить, что для методики определения кобальта (выборка 4) либо строится своя индивидуальная контрольная карта, либо данные этой методики сравниваются с данными других методов (вынесенных за рамки нашего рассмотрения) для объединения их в одну группу. Для остальных методик будет проведена оценка однородности средних значений.

Литература:

1. Агаянц И.М. Азы статистики в мире химии: Обработка экспериментальных данных – СПб: Научные основы и технологии, 2015. – 618 с.