Dywergencja Kullbacka-Leiblera – Wikipedia, wolna encyklopedia Przejdź do zawartości

Dywergencja Kullbacka-Leiblera

Z Wikipedii, wolnej encyklopedii

Dywergencja Kullbacka-Leiblera (zwana też entropią względną lub relatywną entropią)[1] jest miarą stosowaną w statystyce i teorii informacji do określenia rozbieżności między dwoma rozkładami prawdopodobieństwa i Czasem zwana jest też odległością Kullbacka-Leiblera, nie jest to jednak prawdziwa metryka, gdyż nie jest symetryczna ani nie spełnia nierówności trójkąta[2][3].

Definicja

[edytuj | edytuj kod]

Dywergencja Kullbacka-Leiblera dana jest wzorem[2][3]:

dla rozkładów dyskretnych, oraz

dla rozkładów ciągłych. Dla przykładu, w typowym zastosowaniu reprezentuje dane rzeczywiste, zaś teoretyczny model.

Entropia względna przyjmuje zawsze wartości nieujemne, przy czym 0 wtedy i tylko wtedy, gdy porównywane rozkłady są identyczne. jest jedyną wartością tego typu charakteryzującą się pewnymi użytecznymi właściwościami charakteryzującymi miary entropii (m.in. jest ciągła i addytywna)[4][5].

Oryginalna propozycja

[edytuj | edytuj kod]

Dywergencja K-L została przedstawiona przez S. Kullbacka i R.A. Leiblera w pracy z 1951[6], i w podręczniku z 1959; skupiali się oni na poniższej symetrycznej postaci[7]:

Jak zwraca uwagę Kullback, podobną wartość wykorzystywało wcześniej m.in. małżeństwo Jeffreys[8]. W 1987 zadeklarował, że spośród dziewięciu stosowanych wówczas dla tego wskaźnika nazw osobiście preferuje termin ang. discrimination information[9].

Uogólnienia i związki

[edytuj | edytuj kod]

Dywergencja Kullbacka-Leiblera jest przypadkiem dywergencji Bregmana i -dywergencji[10]. Informacja wzajemna to dywergencja ze wspólnego rozkładu do produktu rozkładów[11][12]:

Interpretacja i zastosowania

[edytuj | edytuj kod]

Dywergencja K-L może być rozumiana jako generalizacja entropii Shannona[4], oraz negatywna postać uogólnionej entropii Boltzmanna[13]. Może reprezentować na przykład zmianę (przyrost lub stratę) lub różnicę (niedobór lub nadmiar) informacji pomiędzy dwoma rozkładami.

Jej minimalizacja jest stosowana na przykład przy wyborze optymalnych modeli statystycznych oraz systemów kodowania.

Choć nie jest pseudoodległością, jej hesjan wyznacza tensor metryczny określany jako miara informacji Fishera.

Kryteria informacyjne

[edytuj | edytuj kod]

Wybór modeli statystycznych na podstawie pozwalają zrealizować tzw. kryteria informacyjne. Akaike zauważył, że pomimo iż w praktyce hipotetyczny prawdziwy model jest nieznany i niedostępny jako odniesienie, to wyraża się jako nieokreślona stała, co nadal pozwala na dokonanie optymalizacji[13][14]:

Po przekształceniach i uwzględnieniu poprawki na obciążenie oszacowania, wartością asymptotycznie minimalizującą oczekiwane (maksymalizującą relatywną entropię) i pozwalającą na porównywanie alternatywnych modeli jest tzw. kryterium informacyjne Akaikego:

gdzie to funkcja wiarygodności, a to liczba estymowanych parametrów modelu. W intuicji oferowanej przez Bozdogana, pierwszy wyraz wzoru odpowiada oczekiwanemu niedopasowaniu modelu badawczego do danych spoza próby, i do prawdziwego modelu, a drugi złożoności, przekładającej się na nadmierne dopasowanie do próby[13]. Wybór modelu wiąże się bowiem w praktyce z balansowaniem między tymi problemami (z kompromisem między obciążeniem a wariancją)[15].

W późniejszej literaturze przedstawiono kolejne propozycje kryteriów informacyjnych, opartych na tej samej zasadzie, z dodatkowymi doprecyzowaniami, na przykład kryterium Schwarza lub Watanabe-Akaikego[13][16].

Zobacz też

[edytuj | edytuj kod]

Przypisy

[edytuj | edytuj kod]
  1. Tadeusz Inglot, Teoria informacji a statystyka matematyczna, „Mathematica Applicanda”, 42 (1), 2014, s. 115–115, DOI10.14708/ma.v42i1.521 [dostęp 2020-10-14] (pol.).
  2. a b David John Cameron MacKay, Information theory, inference, and learning algorithms, Cambridge, UK: Cambridge University Press, 2003, s. 34, ISBN 0-521-64298-1, OCLC 52377690 [dostęp 2019-04-04].
  3. a b Christopher Michael Bishop, Pattern recognition and machine learning, New York: Springer, 2006, s. 55, ISBN 0-387-31073-8, OCLC 71008143 [dostęp 2019-04-04].
  4. a b Arthur Hobson, Bin-Kang Cheng, A comparison of the Shannon and Kullback information measures, „Journal of Statistical Physics”, 7 (4), 1973, s. 301–310, DOI10.1007/BF01014906, ISSN 0022-4715 [dostęp 2019-04-04] (ang.).
  5. Imre Csiszar, Why Least Squares and Maximum Entropy? An Axiomatic Approach to Inference for Linear Inverse Problems, „The Annals of Statistics”, 19 (4), 1991, s. 2032–2066, ISSN 0090-5364, JSTOR2241918 [dostęp 2019-04-04].
  6. S. Kullback, R.A. Leibler, On Information and Sufficiency, „The Annals of Mathematical Statistics”, 22 (1), 1951, s. 79–86, DOI10.1214/aoms/1177729694, ISSN 0003-4851 [dostęp 2019-04-04] (ang.).
  7. Solomon Kullback, Information theory and statistics, Gloucester, Mass.: Peter Smith, 1959, s. 6, 22, ISBN 0-8446-5625-9, OCLC 4140346 [dostęp 2019-04-04].
  8. Harold Jeffreys, Bertha Swirles Jeffreys, Methods of Mathematical Physics (3rd.ed.), Cambridge University Press, 1956 [dostęp 2019-04-04].
  9. Letters to the Editor, „The American Statistician”, 41 (4), 1987, s. 338–341, DOI10.1080/00031305.1987.10475510, ISSN 0003-1305 [dostęp 2019-04-04] (ang.).
  10. A. Cichocki, S. Amari, Information geometry of divergence functions, „Bulletin of the Polish Academy of Sciences. Technical Sciences”, 58 (nr 1), 2010, s. 183–195, ISSN 0239-7528 [dostęp 2019-04-04] (ang.).
  11. Xiaocong Xu i inni, Multimodal registration of remotely sensed images based on Jeffrey’s divergence, „ISPRS Journal of Photogrammetry and Remote Sensing”, 122, 2016, s. 97–115, DOI10.1016/j.isprsjprs.2016.10.005 [dostęp 2019-04-04] (ang.).
  12. Nicolas Veyrat-Charvillon, François-Xavier Standaert, Mutual Information Analysis: How, When and Why? Christophe Clavier, Kris Gaj (red.), t. 5747, Berlin, Heidelberg: Springer Berlin Heidelberg, 2009, s. 429–443, DOI10.1007/978-3-642-04138-9_30, ISBN 978-3-642-04137-2 [dostęp 2019-04-04].
  13. a b c d Hamparsum Bozdogan, Model selection and Akaike’s Information Criterion (AIC): The general theory and its analytical extensions, „Psychometrika”, 52 (3), 1987, s. 345–370, DOI10.1007/BF02294361, ISSN 0033-3123 [dostęp 2019-04-04] (ang.).
  14. Hirotogu Akaike, Information Theory and an Extension of the Maximum Likelihood Principle, Emanuel Parzen, Kunio Tanabe, Genshiro Kitagawa (red.), New York, NY: Springer New York, 1998, s. 199–213, DOI10.1007/978-1-4612-1694-0_15, ISBN 978-1-4612-7248-9 [dostęp 2019-04-04].
  15. Scott I. Vrieze, Model selection and psychological theory: A discussion of the differences between the Akaike information criterion (AIC) and the Bayesian information criterion (BIC)., „Psychological Methods”, 17 (2), 2012, s. 228–243, DOI10.1037/a0027127, ISSN 1939-1463, PMID22309957, PMCIDPMC3366160 [dostęp 2019-04-04] (ang.).
  16. Sumio Watanabe, Asymptotic Equivalence of Bayes Cross Validation and Widely Applicable Information Criterion in Singular Learning Theory, „arXiv:1004.2316 [cs]”, 14 kwietnia 2010, arXiv:1004.2316 [dostęp 2019-04-04].