Additive Glättung

In der Statistik bezeichnet das additive Glätten, auch bekannt als Laplace-Glättung, eine Technik zur Glättung von Zähldaten, um Probleme zu beseitigen, die durch das Auftreten der Häufigkeit 0 eines Ereignisses verursacht werden.

Definition

Gegeben seien die beobachtete Zahlen (Engl. counts) n = n 1 , n 2 , , n d {\displaystyle \mathbf {n} =\left\langle n_{1},n_{2},\ldots ,n_{d}\right\rangle } von verschiedenen Merkmalsausprägungen 1 , 2 , d {\displaystyle 1,2,\dots d} , dann ist der additiv geglätte Schätzer für die Parameter der Multinomialverteilung:

p ^ i = n i + α N + α d ( i = 1 , , d ) , {\displaystyle {\hat {p}}_{i}={\frac {n_{i}+\alpha }{N+\alpha d}}\qquad (i=1,\ldots ,d),}

mit N = i n i {\displaystyle N=\sum _{i}n_{i}} und α = 1 , {\displaystyle \alpha =1,\dots } ein Glättungsparameter.[1]

Man beachte, dass der additiv geglättete Schätzer der Parameter vom Maximum-Likelihood-Schätzer p ^ i M L = n i N ( i = 1 , , d ) , {\displaystyle {\hat {p}}_{i}^{ML}={\frac {n_{i}}{N}}\qquad (i=1,\ldots ,d),} abweicht.

Motivation

Ein Grund für den Einsatz der Glättung ist auch für bisher nicht beobachtete Ausprägungen ( n i = 0 {\displaystyle n_{i}=0} ) in generativen Modellen einen erzeugenden Pfad zu ermöglichen. Der geglättete Schätzer kann in der Bayesschen Statistik als Maximum-a-posteriori Schätzer betrachtet werden, der mithilfe einer Prior-Verteilung folgt.

Die Laplace-Glättung mit einem Glättungsparameter von α = 1 {\displaystyle \alpha =1} kann intuitiv verstanden werden, da sie darauf hinweist, dass selbst für Ereignisse, die derzeit nicht beobachtet werden, mindestens eine Beobachtung vorhanden sein muss. Andernfalls würde man nichts über die Existenz des Ereignisses wissen.

Einzelnachweise

  1. Foster, D. (2020). Generatives Deep Learning: Maschinen das Malen, Schreiben und Komponieren beibringen. Deutschland: O’Reilly. Seite 18, https://books.google.de/books?id=WsDYDwAAQBAJ&pg=PA18