Контрольные карты (Il). Предварительный анализ: проверка принадлежности данных нормальному распределению.

Гальванопластика — направление прикладной электрохимии, направленное на создание изделий путем электрохимического осаждения металлов и сплавов на различные носители формы (формообразующие элементы) в жидких средах.

Принцип формирования металлического осадка на поверхности модели, такой же как и при гальваническом нанесении покрытий, но в отличии от классической гальваники (гальваностегии) – толщина формируемых металлических осадков может достигать нескольких сантиметров.

В первой половине 20 века применение гальванопластики с целью получения технических изделий превратилось в полноценную промышленную технологию получения сложных и точных изделий.

 Перед началом работы с контрольными картами необходимо убедиться в том, что данные принадлежат нормальному распределению. Если условие нормальности не выполняется, то имеют место какие-то особые причины неслучайного течения процессов. В случае их наличия анализ при помощи контрольных карт неэффективен. Эти причины либо устраняются, либо, при невозможности их устранения, используются специальные методы анализа. В случае химических определений данные должны быть нормально распределены, поэтому специальные методы мы рассматривать не будем. После проверки нормальности распределения необходимо убедиться, что данные принадлежат к одной и той же генеральной совокупности. При затруднениях в определении однородности метрологических характеристик нескольких методик может проводиться проверка однородности средних значений погрешностей. Проверку однородности мы рассмотрим после проверки нормальности распределения.

    Методы оценки принадлежности нормальному распределению можно разделить на две группы: одни применимы к большим выборкам, вторые - к малым. При больших выборках (более 50) применяют метод построения гистограммы, метод сравнения арифметического среднего, моды и медианы и пр. При малых выборках (менее 10) применяют три метода: анализ среднего абсолютного отклонения, анализ отношения размаха к среднеквадратичному отклонению и вычисление WM-критерия.

    Рассмотрим эти методы на примерах выборок из массива данных титриметрического анализа.

  1. Построение гистограммы.

     Для построения гистограммы возьмём выборку в 50 единиц по следующему принципу: отбираем относительные ошибки определения каждого десятого по порядку анализа из журнала проведения анализов: 

2,1

0,72

2,31

0,86

1,35

1,15

0,49

1,49

1,31

0,41

0,42

1,72

0,85

1,28

0,47

1,66

1,97

1,08

0,58

0,61

0,95

0,7

0,66

2,29

0,48

0,71

2,89

0,65

0,7

2,22

0,65

1,5

0,89

0,36

1,09

1,3

1,8

1,74

0,74

1,06

0,93

0,94

0,47

2,97

0,1

1,55

2,03

1,74

1,28

0,92

  1) Определяем размах выборки, определяющей ширину гистограммы:

 R = xmaxxmax = 2,97 – 0,1 = 2,87

  2) Полученный размах делим на несколько интервалов k и определяем ширину интервала:

 h=R/k = 2,87/9 = 0,319

 k зависит от общего числа собранных данных (обычно k=6-20), в нашем случае выберем k=9.

  3) Распределяем полученные данные по интервалам.

В графу «Частота» вносят количество значений из выборки, входящее в данный интервал. Например, в интервал [0,1; 0,419] попадают три значения – 0,1; 0,36 и 0,41. 

№ интервала

Интервалы

Частота

1

0,1(xmin) – 0,419(xmin+h)

3

2

0,419(xmin+h) – 0,738(xmin+2h)

14

3

0,738(xmin+2h) – 1,057(xmin+3h)

8

4

1,057(и т.д.) – 1,376

9

5

1,376 – 1,694

4

6

1,694 – 2,013

5

7

2,013 – 2,332

5

8

2,332 – 2,651

0

9

2,651 – 2,97(xmax)

2

  4) По полученным данным строим гистограмму.

 На оси абсцисс (Х) откладываем границы интервалов (можно ограничиться номерами интервалов, т.к. все интервалы равны), на оси ординат (Y) – частоты.

 g1

      Получившаяся гистограмма несимметрична (самый высокий пик смещён влево), также имеются подозрения на мультимодальность (наличие нескольких пиков) и возможно на  изолированный отстоящий пик. Это говорит о том, что данные не подчиняются нормальному закону распределения, а рассматриваемый процесс формально нельзя считать статистически управляемым. Стоит отметить, что разумно будет подтвердить наши выводы иными методами. Для этого рассмотрим альтернативные расчётные методы проверки на нормальность, не требующие больших выборок и построения диаграмм.

    В нашем распоряжении имеется три метода оценки нормальности (стоить отметить, что результаты, полученные при использовании этих методов, могут расходиться). В ходе предварительного анализа можно пользоваться сразу тремя методами или ограничиться только WM-критерием.

 

2. Анализ среднего абсолютного отклонения.

      Рассмотрим выборку в 10 единиц, взятую из первых двух столбцов изначальной случайной выборки (можно взять любую другую строку или столбцы, главное не выбирать сознательно): 

2,1

0,72

0,42

1,72

0,95

0,7

0,65

1,5

0,93

0,94

 1) Вычисляем среднее арифметическое результатов анализа:

 x‾ = ∑xi/n = (x1 + x2 + … + xi)/n = (2,1 + 0,42 + 0,95 + … + 0,94)/10 = 1,063

 2) Вычисляем среднее абсолютное отклонение:

 Н = (∑׀xi x׀)/n – разница i-того и среднего значения берётся по модулю.

 Н = (׀2,1 – 1,063 ׀+   ׀0,42-1,063׀  +  … +  ׀0,94 – 1,063‌‌‌׀)/10 = 0,4262

  3) Вычисляем дисперсию и среднее квадратическое отклонение:

 S2 = ( ∑(xix¯)2) / (n-1) = [(2,1-1,063)2 + (0,42-1,063)2 + … + (0,94-1,063)2]/(n-1) = 0,28633444

 S = √S2= √0,28633444 = 0,5351

 4) Для выборки имеющей приближённо нормальное распределение, должно быть справедливо неравенство:

 ׀Н/S – 0,7979‌‌‌׀ < 0,4/n0,5

 Подставляем в неравенство наши значения:

 ׀0,4262/0,5351 – 0,7979‌‌‌׀ < 0,4/100,5

 0,001417 < 0,12649

 Поскольку выражение справедливо, принимается гипотеза о нормальности распределения.

 

3. Анализ отношения размаха к среднеквадратичному отклонению.

      Рассмотрим ту же выборку: 

2,1

0,72

0,42

1,72

0,95

0,7

0,65

1,5

0,93

0,94

 1) Вычисляем размах выборки:

 R = xmaxxmin = 2,1 – 0,42 = 1,68

  2) Вычисляем среднее арифметическое результатов анализа:

 x‾ = ∑xi/n = (x1 + x2 + … + xi)/n = (2,1 + 0,42 + 0,95 + … + 0,94)/10 = 1,063

  3) Вычисляем дисперсию и среднее квадратическое отклонение:

 S2 = ( ∑(xix¯)2) / (n-1) = [(2,1-1,063)2 + (0,42-1,063)2 + … + (0,94-1,063)2]/(n-1) = 0,28633444

 S = √S2= √0,28633444 = 0,5351

  4) Рассчитывает отношение размаха к среднеквадратическому отклонению:

 R/S = 1,68/0,5351 = 3,1396

 5) Для выборки имеющей приближённо нормальное распределение, должно быть справедливо неравенство:

 aR/Sb

 Критические границы a и b приведены в таблице для уровня значимости 10% (доверительная вероятность 90%). 

g2

 Для выборки в 10 единиц a=2,76, b=3,57.

 a=2,76 ≤ R/S=3,1396 ≤ b=3,57

    В нашем случае гипотеза о нормальности распределения принимается с вероятностью ошибки 10%. Как мы видели из гистограммы распределение не нормально, поэтому мы попали именно в эти 10%.

 

4. Проверка по WM-критерию.

  Теперь проведём оценку нормальности по WM-критерию. Расчёты будут не так просты, как в предыдущем методе, но зачастую именно по этому критерию гипотеза о нормальности не проходит, поэтому для нас он более интересен.

  1) Размещаем данные из прошлых примеров в порядке возрастания: 

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

0,42

0,65

0,7

0,72

0,93

0,94

0,95

1,5

1,72

2,1

  2) Вычисляем среднее арифметическое результатов анализа:

 x‾ = ∑xi/n = (x1 + x2 + … + xi)/n = (2,1 + 0,42 + 0,95 + … + 0,94)/10 = 1,063

  3) Вычисляем сумму квадратов отклонений данных от среднего арифметического:

 SSE =  ∑(xix¯)2 = (0,42-1,063)2 + (0,65-1,063)2 + … + (2,1-1,063)2 = 2,57701

  4) Вычисляем коэффициент bm:

 Для этого нам потребуется найти коэффициенты а10, а9, а8, а7 и а6 при m=10 по таблице ниже.

g3

 Для нашего случая находим, что а10=0,5739, а9=0,3291, а8=0,2141, а7=0,1224  и а6=0,0399.

 bm = an•(xn - x1) + an-1•(xn-1 x2) +…+ an-k+1•(xn-k+1- xk),

 где k = n/2, если n – чётное число, k = (n-1)/2, если n – нечётное число.

 bm = 0,5739•(2,1 – 0,42) + 0,3291•(1,72 – 0,65) + 0,2141•(1,5 – 0,7) + 0,1224•(0,95 – 0,72) + 0,0399•(0,94 – 0,93) = 1,51612

 Примечание: Если выборка нечётная, то срединное значение не будет участвовать в расчётах.

 5) Вычисляем критерий WM:

 WM = bm2/SSE = 1,516122/2,57701 = 0,89197

  Полученное значение WM сравниваем с Wкр критическим:

Wкр=0,930 (при n≤10)

 Wкр=0,950 (при n≤20)

 Wкр=0,964 (при n≤30)

 Если полученное WM меньше критического, нельзя принять, что выборка взята из нормального распределения.

    Полученный в нашем случае критерий WM=0,89197 меньше критического Wкр=0,930, поэтому гипотеза нормальности не проходит.

      Таким образом, гипотеза о нормальности прошла по первым двум методам, и не прошла по WM-критерию. Гистограмма также показала отклонения от нормального определения. По совокупности результатов мы делаем заключение о ненормальности распределения. Строить контрольные карты по таким данным будет неэффективно. 

   Стоит отметить, что в нашем случае нестабильность процессов является лишь кажущейся. Причина ненормальности получившегося распределения состоит в том, что данные принадлежат к нескольким генеральным совокупностям (отбирались данные от нескольких процессов с разной воспроизводимостью, один из которых настроен точнее остальных – пик №2 на гистограмме).

    Для продолжения расчётов мы сформируем группы методик со сходными характеристиками. Однородность дисперсий в группах мы будет оценивать при помощи критериев Фишера и Бартлетта/Кохрена, а однородность средних при помощи t-критерия и множественного рангового критерия Дункана).

 

 

 

Литература:

 1. Агаянц И.М. Азы статистики в мире химии: Обработка экспериментальных данных. – СПб: Научные основы и технологии, 2015. – 618 с.

 2. В. А. Васильев, Ш. Н. Каландаришвили, В. А. Новиков, С. А. Одиноков. Управление качеством и сертификация. – М: Интермет Инжиниринг, 2002 г.- 416 с.