venerdì 10 gennaio 2020

L'Entropia dell'Informazione

"L'informazione è l'insieme di dati, correlati tra loro, con cui un'idea (o un fatto) prende forma ed è comunicata" (vedi Wikipedia).

La definizione data sopra può essere meglio specificata; in particolare nel campo dell'elaborazione e trasmissione dati si afferma: l'informazione è il fattore che diminuisce l'incertezza sulla conoscenza di un evento*.
Perciò per quantificare questa definizione ci poniamo il problema di come misurare l'informazione associata alla comunicazione di un evento.

Introduciamo quindi una definizione, proposta da Claude Shannon, che specifica il contenuto di informazione di un qualsiasi messaggio relativo ad un evento: assegnata ad un evento x la probabilità P(x) di verificarsi, il contenuto di informazione I(x) della comunicazione dell'evento è:
I(x)=ln(1/P(x))
o anche per le proprietà dei logaritmi: I(x)=-lnP(x).
Nota: con ln si indica il logaritmo naturale ma se la sorgente è, ad esempio, binaria si userà il logaritmo in base-2 per definire I(x) (misurata in bit).

Questa particolare definizione è l'unica che rispetta, proprio grazie alle proprietà dei logaritmi, i seguenti requisiti (vedi Wikipedia):
1) se l'evento è certo (cioè P(x)=1) allora il contenuto di informazione della comunicazione è nullo (poiché I(x)=ln1=0);
2) viceversa l'informazione aumenta (I(x)->∞) al diminuire della probabilità dell'evento* (cioè quando P(x)->0);
3) dati due eventi indipendenti x e y la probabilità che si verifichino entrambi è P(x,y)=P(x)P(y) quindi il contenuto di informazione è dato dalla loro somma: I(x,y)=I(x)+I(y).
Nota: la definizione del contenuto di informazione può essere estesa a due (o più eventi): I(x,y)=ln(1/P(x,y))=ln[(1/(P(x))(1/P(y))]=I(x)+I(y).

Ora in generale un'informazione viene generata da una sorgente che trasmette un insieme di simboli xi (ad esempio le lettere dell'alfabeto) ciascuno caratterizzato da una certa probabilità P(xi) di essere trasmesso (può anche essere la stessa per tutti i simboli della sorgente).

Perciò il contenuto medio <I(x)> di informazione per una data sorgente è definito dalla seguente relazione:
<I(x)>=∑P(xi)ln(1/P(xi))
si calcola cioè il valore medio di I(x) pesandolo con i coefficienti P(xi).
Nota: ciò significa che la trasmissione di ogni singolo simbolo della sorgente viene valutato come un evento con la sua probabilità.

Quindi possiamo definire la quantità H(x) detta entropia della sorgente:
H(x)=k<I(x)> 
che viene misurata in nat/simbolo (possiamo porre la costante k=1).
Nota: se invece poniamo k=1/ln2 possiamo esprime l'entropia in base-2 (poiché vale la relazione log2x=lnx/ln2).

In particolare se la probabilità è la stessa per tutti gli N simboli (cioè pari a P(xi)=1/N) allora H(x)=∑(1/N)lnN=lnN (essendo ∑(1/N)=1) e quindi 
H(x)=I(x).
Nota: si può dimostrare che in generale vale la relazione: H(x)≤I(x) (essendo <I(x)>I(x)).

Ora essendo I(x)÷1/P(x) si può affermare che H(x) misura l'incertezza o meglio il livello di casualità di una sorgente (cioè dei simboli trasmessi).
Ma per quale motivo la grandezza H(x) viene chiamata entropia?

Per capirlo ricordiamo innanzitutto che in termodinamica per definire l'entropia statistica, introdotta per la prima volta da Ludwig Boltzmann (vedi il post "L'Entropia secondo Boltzmann"), si considera un sistema composto da N particelle distribuite sui vari livelli di energia Ei.

Quindi il numero di tutti i possibili microstati (corrispondenti ad un macrostato assegnato) è dato da (posto N=∑ni):
W=N!/(n1!n2!n3!...)
dove n1, n2, n3... è il numero di particelle per ogni livello E1, E2, E3... e l'entropia termodinamica è per definizione pari a
S=KBlnW
dove KB è la costante dimensionale di Boltzmann.
Nota: nel post "Entropia statistica e termodinamica" abbiamo mostrato l'equivalenza fisica della definizione statistica e quella termodinamica.

Si può dimostrare per N grande la seguente relazione**, che giustifica il nome di entropia attribuito al valore H(x)=<I(x)>:
lnW≈N∑P(ni)ln(1/P(ni))
dove P(ni)=ni /N è la probabilità di trovare le particelle nello stato Ei; ma può anche indicare, come visto sopra, la probabilità che un dato simbolo xi venga trasmesso da una sorgente: quindi in definitiva S=KBlnWKBN<I(x)> (avendo definito <I(x)>=∑P(xi)ln(1/P(xi))).
Nota: nella analogia con H(x), la quantità N non indica il numero di simboli della sorgente ma il numero totale di simboli trasmessi.

Perciò se il numero N di particelle è molto alto la definizione delle due entropie è formalmente equivalente risultando:
S÷H(x).
Nota: ad ogni modo la definizione di H(x) resta valida per qualsiasi sorgente e non solo quando N è molto grande.

Tale equivalenza formale ha spinto Léon Brillouin ad affermare che al contenuto di informazione <I(x)> corrisponde fisicamente una entropia termodinamica pari a S=KB<I(x)>, da calcolare ad esempio nel computo dell'entropia di un sistema in cui si fa uso di bit d'informazione***.
Nota: in pratica Brillouin ipotizzò che acquisire informazione non è mai gratis ma ha sempre un costo in termini di energia.

(*) Con il termine incertezza di un evento in pratica si collega l'informazione alla probabilità che questo si possa verificare (come vedremo oltre). Per esempio sapere che ad agosto ha piovuto contiene più informazione di sapere che a novembre pioverà perché è più probabile
(**) Per l'approssimazione di Stirling se N è molto grande vale la relazione lnN!≈NlnN-N ed essendo lnW=lnN!-ln(n1!n2!n3!...) segue l'approssimazione lnW≈NlnN-∑nilnni (posto N=∑ni); perciò poiché ni=NP(ni) si ha lnW≈N∑P(ni)ln(1/P(ni)) (essendo ∑P(ni)=1).
(***) Il paradosso del diavoletto di Maxwell, che sembra violare il secondo Principio della termodinamica, può essere spiegato proprio grazie all'introduzione di S=KB<I(x)> nel calcolo dell'entropia del sistema.
(Tuttavia la soluzione generale al paradosso deriva dal Principio di Landauer secondo cui l'eliminazione di 1 bit di informazione produce una quantità ciclica minima di calore non eliminabile pari a KBTln2).

Nessun commento:

Posta un commento