Регрессия Деминга

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Двумерный случай метода наименьших полных квадратов (регрессия Деминга). Красные отрезки показывают ошибку как по x, так и по y, что отличается от традиционного метода наименьших квадратов, в котором ошибка измеряется только по оси y. Показан случай, когда отклонение измеряется перпендикулярно, что происходит, когда x и y имеют равные дисперсии.

В статистике регрессия Деминга, названная именем У. К. Деминга, — это вид регрессии с ошибками в переменных[англ.], которая пытается найти прямую наилучшего сглаживания для двумерного набора данных. Регрессия отличается от простой линейной регрессии[англ.] в том, что она принимает во внимание ошибки[англ.] в наблюдении как по оси x, так и по оси y. Регрессия является частным случаем метода наименьших полных квадратов, которая рассматривает любое число показателей и имеет более сложную структуру ошибок.

Регрессия Деминга эквивалентна оценке максимального правдоподобия на модели с ошибками в переменных[англ.], в которой ошибки двух переменных считаются независимыми и имеют нормальное распределение, а отношение их дисперсий, δ, известно [1]. На практике это отношение может быть оценено из исходных данных. Однако процедура регрессии не принимает во внимание возможные ошибки в оценке отношений дисперсии.

Регрессия Деминга лишь слегка сложнее простой линейной регрессии[англ.]. Большинство статистических пакетов, используемых в клинической химии, предоставляют регрессию Деминга.

Модель первоначально была предложена Адкоком[2], который рассматривал случай δ = 1, а затем рассматривалась в более общем виде Куммеллем [3] с произвольным δ. Однако их идеи оставались большей частью незамеченными более 50 лет, пока их не возродил Купманс[4] и позднее распространил Деминг[5]. Книга последнего стала столь популярной в клинической химии и связанных областях, что метод в этих областях получил название регрессия Деминга[6].

Спецификация[править | править код]

Предположим, что данные (yi, xi) являются значениями, полученными в ходе измерений "истинных" значений (yi*, xi*), которые лежат на регрессионной прямой:

где ошибки ε и η независимы и отношение их дисперсий, известно:

На практике дисперсии параметров и часто неизвестны, что усложняет оценку . Заметим, что когда метод измерения и тот же самый, эти дисперсии, скорее всего, равны, так что в этом случае .

Мы пытаемся найти прямую "наилучшего сглаживания"

такую, что взвешенная сумма квадратов остатков минимальна [7]

Решение[править | править код]

Решение может быть выражено в терминах моментов второго порядка. То есть мы сначала вычисляем следующие величины (все суммы берутся по i = 1 : n):

Наконец, параметры оценки методом наименьших квадратов будут[8]:

Ортогональная регрессия[править | править код]

В случае равенства дисперсий ошибок, т.е. в случае , регрессия Деминга становится ортогональной регрессией — она минимизирует сумму квадратов расстояний от точек выборки до регрессионной прямой[англ.]*. В этом случае обозначим каждую точку выборки zj на комплексной плоскости (т.е. точка (xj, yj) выборки записывается как zj = xj + iyj, где iмнимая единица). Обозначим через Z сумму квадратов разностей от точек выборки до центра тяжести (также представленного в комплексных координатах). Центр тяжести — это среднее точек выборки. Тогда[9]:

  • Если Z = 0, то любая прямая, проходящая через центр тяжести, является прямой наилучшего ортогонального сглаживания.
  • Если Z ≠ 0, прямая наилучшего ортогонального сглаживания проходит через центр тяжести и параллельна вектору из начала координат в .

Тригонометрическую интерпретацию прямой наилучшего ортогонального сглаживания дал Кулидж в 1913[10].

Приложения[править | править код]

В случае трёх неколлинеарных точек на плоскости треугольник, образованный этими точками, имеет единственный вписанный эллипс Штейнера, который касается сторон треугольника в средних точках. Главная ось этого эллипса будет ортогональной регрессией этих трёх вершин[11].

Примечания[править | править код]

  1. Linnet, 1993.
  2. Adcock, 1878.
  3. Kummell, 1879.
  4. Koopmans, 1937.
  5. Deming, 1943.
  6. Cornbleet, Gochman, 1979, с. 432–438.
  7. Fuller, 1987, с. ch.1.3.3.
  8. Glaister, 2001, с. 104-107.
  9. Minda, Phelps, 2008, с. 679–689, Theorem 2.3.
  10. Coolidge, 1913, с. 187–190.
  11. Minda, Phelps, 2008, с. 679–689, Corollary 2.4.

Литература[править | править код]

  • R. J. Adcock. A problem in least squares // The Analyst. — Annals of Mathematics, 1878. — Т. 5, вып. 2. — С. 53–54. — doi:10.2307/2635758. — JSTOR 2635758.
  • J. L. Coolidge. Two geometrical applications of the mathematics of least squares // The American Mathematical Monthly. — 1913. — Т. 20, вып. 6. — С. 187–190. — doi:10.2307/2973072.
  • P.J. Cornbleet, N. Gochman. Incorrect Least–Squares Regression Coefficients // Clin. Chem.. — 1979. — Т. 25, вып. 3. — С. 432–438. — PMID 262186.
  • W. E. Deming. Statistical adjustment of data. — Wiley, NY (Dover Publications edition, 1985), 1943. — ISBN 0-486-64685-8.
  • Wayne A. Fuller. Measurement error models. — John Wiley & Sons, Inc, 1987. — ISBN 0-471-86187-1.
  • P. Glaister. Least squares revisited // The Mathematical Gazette. — 2001. — Вып. 85 March. — С. 104-107.
  • T. C. Koopmans. Linear regression analysis of economic time series. — DeErven F. Bohn, Haarlem, Netherlands, 1937.
  • C. H. Kummell. Reduction of observation equations which contain more than one observed quantity // The Analyst. — Annals of Mathematics, 1879. — Т. 6, вып. 4. — С. 97–105. — doi:10.2307/2635646. — JSTOR 2635646.
  • K. Linnet. Evaluation of regression procedures for method comparison studies // Clinical Chemistry. — 1993. — Т. 39, вып. 3. — С. 424–432. — PMID 8448852.
  • D. Minda, S. Phelps. Triangles, ellipses, and cubic polynomials // American Mathematical Monthly. — 2008. — Т. 115, вып. 8. — С. 679–689.