RUS  ENG
Полная версия
СЕМИНАРЫ

Семинар отдела дискретной математики МИАН
10 февраля 2026 г. 16:00, г. Москва, МИАН, комн. 313 (ул. Губкина, 8) + online


Модифицированный критерий Хеллер-Хеллера-Горфин для проверки однородности

А. П. Бузин

Московский государственный университет имени М. В. Ломоносова

Аннотация: Рассмотрим задачу проверки гипотезы однородности $m$ независимых выборок из независимых наблюдений: $X_{j,1}, \dots X_{j,n_j} \sim F_j, \ j = 1,2,\dots,m$ с непрерывными функциями распределения.

Пусть $n=n_1+n_2+\ldots+n_m$,
$$ \lim_{n\rightarrow \infty} n_j/n =: \alpha_j, \ j=1,2,\dots,m. $$
Пусть $G$ некоторая функция распределения. Всюду далее будем использовать обозначение $G(\Delta) := G(b)-G(a)$ для полуинтервалов или лучей $\Delta=(a,b]$.
Везде далее будем считать фиксированным натуральный параметр $k\ge 2$. Пусть T – некоторое разбиение $\mathbb{R}$ на $k$ непересекающихся полуинтервалов и лучей $\Delta_i, \ i=1,\dots , k$. Положим
$$\widehat{\chi}^2_n(T) := \sum_{j=1}^{m}\sum _{i=1}^{k}\frac{\left( \widehat{F}_{j,n_j}(\Delta_i) -\widehat{H}_n (\Delta_i) \right)^{2} n_j } { \widehat{H}_n(\Delta_i) }, $$
где $\widehat{F}_{j,n_j}$ – эмпирическая функция распределения (ЭФР) для каждой из выборок, $\widehat{H}_n$ – ЭФР для объединенной выборки. Это – классическая статистика однородности хи-квадрат, записанная в терминах эмпирических распределений.
Известна проблема критерия однородности хи-квадрат, связанная с тем, что выбор ячеек разбиения достаточно существенно влияет на мощность. В связи с этим ряд авторов предлагал рассматривать различные формы перебора ячеек. Одним из наиболее эффективных решений в этом направлении с точки зрения мощности критерия является критерий, предложенный Хеллер, Хеллером и Горфин (Heller R., Gorfine M., Heller Y. A class of multivariate distribution-free tests of independence based on graphs //Journal of Statistical Planning and Inference. – 2012. – Т. 142. – №. 12. – С. 3097-3106.).
Этот критерий предлагал перебирать всевозможные разбиения $\{\Delta_i\}$, а затем смотреть на максимальное или среднее значение полученных статистик. Однако, несмотря на высокую мощность критерия, он оказывается крайне вычислительно затратным. Предельных распределений соответствующих статистик авторами не приводилось. Более того, у одной из них его и нет, а у другой, по-видимому, есть, однако в литературе подобных утверждений мы не встречали. В связи с этим для каждого размера выборки критические значения статистики приходится рассчитывать индивидуально. Подсчет статистики ведется огромным перебором, что вкупе с вычислительными затратами на расчет критических значений методом Монте-Карло, приводит к низкой вычислительной эффективности метода.
Мы предлагаем модификацию соответствующих статистик и получаем ряд предельных теорем для модифицированных статистик. Рассмотрим совместное распределение $H(\cdot)$, соответствующее функции распределения $\alpha_1 F_1(\cdot) +\alpha_2 F_2(\cdot) + \ldots + \alpha_m F_m(\cdot)$.
Обозначим $\mathcal{T}_{\varepsilon, n}$ множество таких разбиений $T$, что количество попавших в каждый из отрезков разбиения точек объединенной выборки не меньше $\varepsilon n$. Будем рассматривать статистики

$$ D_\varepsilon:= \sup_{T \in \mathcal{T}_{\varepsilon, n} } \widehat{\chi}^2_n(T),\quad D_\varepsilon^\prime:= \frac{1}{|\mathcal{T}_{\varepsilon, n}|} \sum_{T \in \mathcal{T}_{\varepsilon, n} } \widehat{\chi}^2_n(T), $$

где $\widehat{H}_n$ — совместное эмпирическое распределение выборок, $\varepsilon$ — фиксированное неотрицательное число. Эта модификация позволяет получить предельное распределение для обеих статистик.
Теорема При верной гипотезе при фиксированном $\varepsilon$ статистики $D_\varepsilon, D^\prime_\varepsilon$ имеют невырожденные предельные распределения.
В докладе будет показана стостоятельность критериев, построенных по статистикам $D_\varepsilon$, $D^\prime_\varepsilon$ и рассмотрены предельное распределения статистик $D_\varepsilon$, $D^\prime_\varepsilon$ как при верной гипотезе так и при верной альтернативе.
Для случая $\varepsilon_n \to 0$ при $n\to \infty$ рассматриваем следующие модификации статистик:
$$ \begin{aligned}& D_0 := \sup_{T: \widehat{H}_n(\Delta_i(T))>\varepsilon_n} \left( \sum_{j=1}^m \sum _{i=1}^{k}\frac{\left( \widehat{F}_{j,n_j}(\Delta_i) -\widehat{H}_n (\Delta_i) \right)^{2} n_j } { \widehat{H}_n(\Delta_i) \ln^2 \left(\widehat{H}_n(\Delta_i)/2 \right) } \right), \\ & D_0^\prime := \frac{1}{|\mathcal{T}_{\varepsilon_n, n}|} \sum_{T \in \mathcal{T}_{\varepsilon_n, n} } \left( \sum_{j=1}^m \sum _{i=1}^{k}\frac{\left( \widehat{F}_{j,n_j}(\Delta_i) -\widehat{H}_n (\Delta_i) \right)^{2} n_j } { \widehat{H}_n(\Delta_i) \ln^2 \left(\widehat{H}_n(\Delta_i)/2 \right) } \right). \end{aligned} $$
В докладе также будут изложены предельные свойства статистик $D_0, D_0^\prime $.


© МИАН, 2026