no8_ledwina.pdf

(243 KB) Pobierz
MATEMATYKA STOSOWANA 8, 2007
Teresa Ledwina
(Wrocław)
O asymptotycznej efektywności estymatorów
Streszczenie.
W pracy przedstawiamy i dyskutujemy pojęcie asymptotycznej efektyw-
ności estymatorów w ujęciu H´jeka i Le Cama. Podajemy też ogólną konstrukcję pewnej
a
klasy asymptotycznie optymalnych estymatorów dla parametrów z przestrzeni euklide-
sowej. Pokrótce szkicujemy uogólnienia dyskutowanych idei na przypadek semiparame-
tryczny i pokazujemy, że techniczne wyniki uzyskane w teorii asymptotycznie efektywnej
estymacji mogą być z powodzeniem wykorzystane w asymptotycznej teorii testowania.
Wybór materiału jest wysoce subiektywny i tylko w niewielkim stopniu oddaje złożo-
ność rozpatrywanych współcześnie zagadnień oraz ogrom wyników, jakie uzyskano w tej
tematyce. Tekst jest skróconą wersją wykładu przygotowanego na zaproszenie Organizato-
rów Konferencji ze Statystyki Matematycznej – Wisła 2005. Głównym celem prezentacji
jest pokazanie, że klasyczne podejście do definiowania asymptotycznej efektywności nie
sprawdziło się i przedyskutowanie tego jak, dla pewnej klasy zagadnień, w naturalny i ele-
gancki sposób został ten problem rozwiązany.
Słowa kluczowe:
asymptotyczna efektywność, asymptotyczna optymalność, funkcja
wpływu, superefektywność, test wynikowy.
1. Klasyczne podejście do asymptotycznej efektywności.
Pierw-
sze, niezbyt formalne, próby definiowania i udowadniania asymptotycznej
optymalności estymatorów pochodziły od Edgewortha (1908). Fisher (1922,
1925) zrobił istotny krok poprzez dużo bardziej formalne rozważania dla
ogólnej jednoparametrowej rodziny rozkładów. Choć jego wywody nie były
całkiem ścisłe, prace te były bardzo istotne. Wielu autorów (np. Doob 1934)
formalizowało wywody Fishera. Większość tych formalizacji była zbliżona do
klasycznego dziś podejścia Cram´ra (1946). Dla kompletności prezentacji
e
przedstawiamy poniżej wariant takiego rozwiązania. Dla prostoty ograni-
czymy się do przypadku, gdy estymujemy parametr z prostej.
Rozważamy model
P
=
{P
θ
:
θ
Θ
R}.
Zakładamy, że rozkłady
P
θ
posiadają gęstości
p
θ
względem pewnej
σ-skończonej
miary dominującej
µ
i informacja Fishera
I
θ
=
R
log
p
θ
(x)
∂θ
2
p
θ
(x)µ(dx)
istnieje oraz spełnia
I
θ
(0,
∞).
[66]
O asymptotycznej efektywności estymatorów
67
Dla odróżnienia klasycznego rozwiązania od rozwiązań współczesnych
będziemy używać nazwy
v-efektywność
na ujęcie klasyczne. Taką nazwę
wprowadził Rao (1963). Tradycyjnie rozważania ogranicza się do klasy
{T
n
}
zgodnych i asymptotycznie normalnych estymatorów parametru
θ,
to znaczy
takich, że
D
n(T
n
θ)
N
(0,
v(θ)).
(1)
Definicja
1. Ciąg estymatorów
{T
n
}
spełniający (1) z
v(θ)
= 1/I
θ
nazywamy
v-efektywnym.
Sztandarowymi przykładami estymatorów
v-efektywnych
były estyma-
tory największej wiarogodności i estymatory jednokrokowe. Omówimy po-
krótce oba te przykłady.
1.1.
Klasyczne założenia regularności o
P
=
{P
θ
:
θ
Θ
R, P
θ
≺≺
µ}.
Rozważmy założenia:
(i) Θ jest zbiorem otwartym.
(ii) Rozkłady
P
θ
mają wspólny nośnik
A,
który nie zależy od
θ.
(iii) Dla każdego
x
A
gęstość
p
θ
jest trzykrotnie ciągle różniczkowalna
względem
θ.
(iv) Funkcja
p
θ
(x)µ(dx) jest dwukrotnie różniczkowalna po
θ
pod zna-
kiem całki.
(v)
I
θ
(0,
∞).
(vi) Dla każdego
θ
0
Θ istnieją dodatnia liczba
c
i funkcja
M
(x) (być może
obie zależne od
θ
0
) takie, że
3
log
p
θ
(x)
M
(x),
∂θ
3
oraz
M
(x)p
θ
0
(x)µ(dx)
<
∞.
∀x ∈
A,
∀θ ∈
0
c, θ
0
+
c)
1.2.
Funkcja wiarogodności i estymatory największej wiarogodności.
Dla
wyników
x
1
, ..., x
n
niezależnych obserwacji o rozkładzie
P
θ
oznaczmy przez
n
L(θ)
=
i=1
log
p
θ
(x
i
)
logarytm funkcji wiarogodności.
Niech
L
oznacza pochodną
L
względem
θ
i niech estymator
θ
n
będzie
rozwiązaniem równania
(2)
L
(
θ
n
) = 0.
Twierdzenie
1.
Zakładamy, że
P
spełnia
(i )–(vi ).
Jeśli
θ
n
,
będące roz-
wiązaniem
(2 ),
jest zgodnym estymatorem
θ,
to
D
n(θ
n
θ)
N
(0, 1/I
θ
).
68
T. Ledwina
Kwestia zgodności rozwiązania równania (2) jest problemem nietrywialnym.
Warunki zgodności badali między innymi Le Cam (1953, 1970), Kiefer i Wol-
fowitz (1956) oraz Zacks (1971). Wiadomo, że są sytuacje, gdy zgodności nie
ma. Dla uniknięcia powyższych kłopotów zaproponowano następujące przy-
bliżone rozwiązanie.
1.3.
Estymatory jednokrokowe.
Niech
θ
n
będzie rozwiązaniem równa-
nia (2) i niech
θ
n
będzie jakimś innym estymatorem
θ.
Przy założeniu (iii)
funkcja wiarogodności
L
jest trzykrotnie różniczkowalna. Z wzoru Taylora
dla
L
mamy
0 =
L
(
θ
n
) =
L
(
θ
n
) + (
θ
n
θ
n
)L (
θ
n
) +
R
n
,
gdzie
R
n
= (
θ
n
θ
n
)
2
L
(
θ
n
)/2,
a
θ
n
jest punktem pośrednim między
θ
n
i
θ
n
. Zdefiniujmy
δ
n
poprzez relację
0 =
L
(
θ
n
) + (δ
n
θ
n
)L (
θ
n
).
Rozwiązanie
δ
n
nazywamy jednokrokowym estymatorem opartym na
θ
n
.
Oczywiście
.
L
(
θ
n
)
Użyteczność tej konstrukcji wynika z poniższego twierdzenia i wniosku.
Przed ich sformułowaniem przypomnijmy, że ciąg estymatorów
{T
n
}
pa-
rametru
θ
jest
n-zgodny,
jeśli ciąg zmiennych losowych
{
n(T
n
θ)}
jest
ograniczony według prawdopodobieństwa
P
θ
.
Twierdzenie
2.
Niech
θ
n
będzie jakimś
n-zgodnym
estymatorem
θ.
Przy założeniach
(i )–(vi )
estymator
δ
n
jest
v-efektywny.
Wniosek
1.
Jeśli
I
θ
jest ciągłą funkcją
θ
to, przy założeniach twierdze-
nia 2
,
estymator
(3)
gdzie
˙
θ
(x) =
log
p
θ
(x),
∂θ
jest
v-efektywny.
Funkcję ˙
θ
(x) będziemy nazywać funkcją wynikową.
1.4.
Superefektywność i problemy pochodne.
W 1953 r. Hodges podał
przykład, który zachwiał bezkrytyczną wiarą w użyteczność i sensowność
0
δ
n
δ
n
=
θ
n
L
(
θ
n
)
L
(
θ
n
)
1
=
θ
n
+
=
θ
n
+
nI
θ
n
n
n
i=1
I
−1
˙
θ
(X
i
),
θ
n
n
O asymptotycznej efektywności estymatorów
69
definicji
v-efektywności.
Mianowicie, Hodges zdefiniował ciąg estymatorów
{S
n
},
dla którego zachodzi
D
n(S
n
θ)
N
(0,
v(θ)), v(θ)
1/I(θ)
∀θ,
(4)
z ostrą nierównością dla pewnego
θ.
Własność (4) nazwano superefektywnością.
Przykład Hodgesa.
Niech
X
1
, ..., X
n
będą niezależnymi zmiennymi loso-
wymi o rozkładzie
P
θ
=
N
(θ, 1) dla każdej zmiennej. Zdefiniujmy
S
n
=
XI{|X|
n
−1/4
}
+
a XI{|X| < n
−1/4
},
gdzie
I{A}
oznacza indykator zdarzenia
A,
a
X
=
n
X
i
/n.
Łatwo poka-
i=1
D
zać, że
n(S
n
θ)
N
(0,
v(θ)),
gdzie
v(θ)
=
I{θ
= 0}+
a
2
I{θ
= 0}. Oczy-
wiście, biorąc odpowiednio małe
a,
możemy uczynić
v(θ)
dowolnie małym
w punkcie
θ
= 0. Jest to jednak dość iluzoryczny zysk. Aby to zrozumieć,
rozważmy znormalizowane ryzyko estymatora
S
n
dane wzorem
R
n
(θ) =
nE
θ
(S
n
θ)
2
,
gdzie
E
θ
(•) oznacza wartość oczekiwaną zmiennej
liczoną przy rozkładzie
P
θ
. Zanotujmy, że znormalizowane ryzyko estymatora
X
wynosi 1 dla każ-
dego
θ.
Z postaci
R
n
(θ) (por. Lehmann 1983, s. 408) wynika, że
R
n
(θ)
1,
jeśli
θ
= 0, oraz
R
n
(θ)
a
2
, gdy
θ
= 0. Ponadto, dla
θ
n
=
n
−1/4
zachodzi
R
n
n
)
→ ∞,
co implikuje sup
θ
R
n
(θ)
→ ∞.
Dla
a
= 0 i kilku wybranych
n
rysunek 8.1 w książce van der Vaarta (2000) ilustruje, jak mocno oscyluje
znormalizowane ryzyko
R
n
(θ) estymatora
S
n
w pobliżu punktu
θ
= 0. Tak
więc mniejsza wariancja
S
n
w
θ
= 0 istotnie „rozregulowuje” zachowanie
ryzyka w otoczeniu
θ
= 0.
W ogólnej sytuacji Le Cam (1953) i Huber (1966) pokazali, że dla
θ
R
oraz
θ
R
2
superefektywność w pewnym punkcie
θ
0
powoduje niepożądane
własności ryzyka w otoczeniu
θ
0
.
Warto odnotować, że dla
θ
R
k
, k
3, superefektywność nie musi
mieć tak groźnego wpływu na ryzyko, a superefektywne estymatory mogą
mieć dobre własności. Kilka uwag na ten temat zamieszczamy poniżej.
Dla zwartości prezentacji zauważmy, że, przy dodatkowym założeniu
o jednostajnej całkowalności
n(T
n
θ)
2
,
v-efektywność
estymatora
T
n
pa-
rametru
θ
R
implikuje relację
(5)
n→∞
lim
nE
θ
|T
n
θ|
2
= 1/I
θ
.
Naturalnym analogonem (5) dla
θ
R
k
jest warunek
(6)
n→∞
−1
lim
nE
θ
||T
n
θ||
2
= tr{I
θ
},
70
T. Ledwina
gdzie
|| ||
oznacza normę euklidesową w
R
k
a tr{•} ślad macierzy
•.
Dla
ilustracji rozważmy teraz
k
wymiarowe wektory
X
i
o rozkładzie
N
(0,
I), I
macierz identycznościowa wymiaru
k
×
k
i następujący estymator Jamesa-
Steina (1961)
(7)
T
n
=
X
(k
2)X/(n||X||)
2
,
gdzie, jak poprzednio,
X
=
n
X
i
/n.
Znormalizowane ryzyko tego esty-
i=1
matora ma postać (por. Lehmann 1983, str. 306 i 294)
(k
2)
2
2
E
θ
||
nX||
−2
.
nE
θ
||T
n
θ||
=
k
1
k
Zauważmy, że dla
θ
= 0 zachodzi
lim
nE
θ
||T
n
θ||
2
=
k
= tr{I}.
lim
E
θ
||
nX||
−2
= 0 i
n→∞
n→∞
Ponadto, dla
X
1
N
(θ,
I)
oraz
k
3, mamy
1
1
1
E
θ
k
2 +
||θ||
2
||X
1
||
2
k
2
k
k
+
||θ||
2
(por. Casella i Hwang 1982).
Wobec tego, dla
θ
= 0 dostajemy lim
n→∞
nE
θ
||T
n
θ||
2
= 2. To po-
kazuje, że
T
n
dany wzorem (7) jest superefektywny w sensie definicji (6).
Z drugiej strony przy
k
3 zachodzi relacja
nE
θ
||T
n
θ||
2
< k
=
nE
θ
||X −
θ||
2
,
∀θ, ∀n.
Tak więc, przy wymiarze
k
3 oraz przy dowolnych ustalonych
n
i
k,
su-
perefektywność zredukowała ryzyko
v-efektywnego
estymatora
X
w całej
przestrzeni parametrów. Tego typu zjawisko powoduje, że superefektywne
estymatory są do dziś obiektem badań i okazują się użyteczne w wielu sy-
tuacjach.
W literaturze w latach 60. i 70. ubiegłego wieku można zaobserwować
rozmaite reakcje na superefektywność. Wymienimy tu cztery nurty badań.
1. Wykazywanie, że dla asymptotycznie normalnych estymatorów miara Le-
besgue’a zbioru punktów
θ,
w których ma miejsce superefektywność, wy-
nosi 0 (Le Cam 1953, Bahadur 1964). Były to oczywiście interesujące
wyniki, ale przykład estymatora Jamesa-Steina pokazuje, że zbiór miary
0 ma znaczenie w praktyce.
2. Próby formułowania warunków, przy których
n(T
n
θ)
L
θ
, jed-
nostajnie względem
θ
wziętej ze zbiorów zwartych, gdzie
L
θ
jest pewną
zmienną losową (Rao 1963, Wolfowitz 1965). Wyniki te były na tyle wą-
skie, że nie rodziły nadziei na uzyskanie wniosków istotnych dla praktyki.
3. Ograniczenie rozważań do modeli i estymatorów
T
n
, dla których
n(T
n
θ)
L
θ
lokalnie jednostajnie.
Zgłoś jeśli naruszono regulamin