Stima kernel di densità

Niente fonti!
Questa voce o sezione sugli argomenti matematica e statistica non cita le fonti necessarie o quelle presenti sono insufficienti.
Abbozzo statistica
Questa voce sull'argomento statistica è solo un abbozzo.
Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento.

In statistica, la stima kernel di densità[1] (o kernel density estimation) è un metodo non parametrico utilizzato per il riconoscimento di pattern e per la classificazione attraverso una stima di densità negli spazi metrici, o spazio delle feature. Per ogni x {\displaystyle x} all'interno dello spazio delle feature, l'algoritmo permette di calcolare la probabilità di appartenere ad una classe C , {\displaystyle C,} considerando la densità di C {\displaystyle C} in un intorno k {\displaystyle k} del punto x . {\displaystyle x.} Il metodo si basa su un intorno di dimensione fissa calcolata in funzione del numero di osservazioni N . {\displaystyle N.}

È nota anche come metodo delle finestre di Parzen-Rosenblatt o delle finestre di Parzen,[2] dagli statistici Emanuel Parzen e Murray Rosenblatt.

Idea di base

Classificazione per prossimità

Un metodo di classificazione per prossimità (finestre di Parzen o k-nearest neighbors), propone di calcolare la probabilità condizionale in un punto x {\displaystyle x} con la seguente stima di densità:

P ( x | C ) = K / N V , {\displaystyle P(x|C)=K/NV,}

dove:

  • N {\displaystyle N} è il numero di osservazioni nel training set;
  • V {\displaystyle V} è il volume dell'intorno del punto x {\displaystyle x} ;
  • K {\displaystyle K} sono gli elementi nell'intorno V {\displaystyle V} , appartenenti alla classe C {\displaystyle C} .

Strategia

L'algoritmo a finestre di Parzen propone di ridurre la dimensione della regione V {\displaystyle V} intorno ad x {\displaystyle x} , in funzione del numero N {\displaystyle N} di osservazioni disponibili. Questa strategia si basa sull'idea di ridurre V {\displaystyle V} il più possibile, in maniera da ottenere una stima approssimata a quella reale del punto, allo stesso tempo cerca di non considerare una regione tanto piccola da avere K = 0 {\displaystyle K=0} , non perché x {\displaystyle x} è impossibile per C {\displaystyle C} , ma perché la regione non è troppo piccola per contenerlo.

Comparazione tra un istogramma (sx) e la sua kernel density estimate (dx) costruite utilizzando gli stessi dati. 6 kernel singoli sono rappresentati da linee tratteggiate rosse, mentre la kernel density estimate è raffigurata in blu

Algoritmo

Funzione K

Si consideri una funzione K ( h , P ) {\displaystyle K(h,P)} che dipende dal parametro di scala h {\displaystyle h} , e dalla distanza di P {\displaystyle P} a un punto fissato P {\displaystyle P} 0. È richiesto che questa funzione abbia integrale unitario sul dominio P {\displaystyle P} .

Il metodo

Consiste nell'assegnare P ( x | C ) {\displaystyle P(x|C)} nel punto x {\displaystyle x} nel seguente modo:

P ( x | C ) = 1 N i K ( h , d ( x , x i ) ) . {\displaystyle P(x|C)={\frac {1}{N}}\sum _{i}K(h,d(x,x_{i})).}

Cioè la densità nel punto x {\displaystyle x} si ottiene considerando il contributo come la somma dei contributi forniti dalle osservazioni nel campione spalmate secondo la legge K ( h , P ) {\displaystyle K(h,P)} , normalizzati ad N {\displaystyle N} .

La scelta di h

La scelta di h {\displaystyle h} è un problema molto delicato, generalmente dipende dal problema in esame. Una regola molto diffusa e generalizzata è quella di prendere h = O ( n 1 / 5 ) {\displaystyle h=O(n^{-1/5})} .

Valutazioni

Un problema di questo metodo è dovuto alla scelta fissa della funzione K {\displaystyle K} per tutto lo spazio delle feature. Alla fine se si utilizza una finestra molto piccola, si introduce il rischio di overfitting. Se si utilizza una finestra troppo grande si hanno più errori nelle zone più addensate. Per questo motivo una finestra dinamica (algoritmo k-nn) potrebbe dare risultati migliori.

Note

  1. ^ kernel density [kernel, stima di densità], in Dizionario di economia e finanza, Roma, Istituto dell'Enciclopedia Italiana, 2012.
  2. ^ Cosimo Distante, Clustering (PDF), su people.isasi.cnr.it, Consiglio Nazionale delle Ricerche - Istituto di Scienze Applicate e Sistemi Intelligenti, 13-14. URL consultato il 3 luglio 2017 (archiviato il 3 luglio 2017).

Voci correlate

  • Diagramma a violino

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file su stima kernel di densità
  Portale Informatica
  Portale Matematica
  Portale Statistica