venerdì 10 gennaio 2020

L'Entropia dell'Informazione

"L'informazione è l'insieme di dati, correlati tra loro, con cui un'idea (o un fatto) prende forma ed è comunicata" (vedi Wikipedia).

La definizione data sopra può essere meglio specificata; in particolare nel campo dell'elaborazione e trasmissione dati si afferma: l'informazione è il fattore che diminuisce l'incertezza sulla conoscenza di un evento*.
Nota: per quantificare questa definizione ci poniamo il problema di come misurare l'informazione associata alla comunicazione di un evento.

Introduciamo quindi una definizione, proposta da Claude Shannon, che specifica il contenuto di informazione di un qualsiasi messaggio relativo ad un evento: assegnata ad un evento x la probabilità P(x) di verificarsi, il contenuto di informazione I(x) della comunicazione dell'evento è:
I(x)=ln(1/P(x))
o anche per le proprietà dei logaritmi: I(x)=-lnP(x). Come si osserva l'informazione è legata alla probabilità che un evento si possa verificare.
Nota: con ln si indica il logaritmo naturale ma se la sorgente è, ad esempio, binaria si userà il logaritmo in base-2 per definire I(x) (misurata in bit).

Questa particolare definizione è l'unica che rispetta, proprio grazie alle proprietà dei logaritmi, i seguenti requisiti (vedi Wikipedia):
1) se l'evento è certo (cioè P(x)=1) allora il contenuto di informazione della comunicazione è nullo (poiché I(x)=ln1=0);
2) poiché in generale P(x)≤1 l'informazione aumenta (I(x)->∞) al diminuire della probabilità dell'evento (cioè quando P(x)->0);
3) dati due eventi indipendenti x e y la probabilità che si verifichino entrambi è P(x,y)=P(x)P(y) quindi il contenuto di informazione è: I(x,y)=I(x)+I(y).
Nota: la definizione del contenuto di informazione può essere estesa a due (o più eventi): I(x,y)=ln(1/P(x,y))=ln[(1/(P(x))(1/P(y))]=I(x)+I(y).

Ora in generale un'informazione viene generata da una sorgente che trasmette un insieme di simboli xi (ad esempio le lettere dell'alfabeto) ciascuno caratterizzato da una certa probabilità P(xi) di essere trasmesso (può anche essere la stessa per tutti i simboli della sorgente).
Nota: ciò significa che la trasmissione di ogni singolo simbolo della sorgente viene valutato come un evento con la sua probabilità.

Perciò il contenuto medio <I(x)> di informazione per una data sorgente è definito dalla seguente relazione:
<I(x)>=∑P(xi)ln(1/P(xi))
si calcola cioè il valore medio di I(x) pesandolo con i coefficienti P(xi).

Possiamo quindi definire la quantità H(x) detta entropia della sorgente:
H(x)=k<I(x)> 
che viene misurata in nat/simbolo (se poniamo k=1).
Nota: se invece poniamo k=1/ln2 possiamo esprime l'entropia in base-2 (poiché vale la relazione log2x=lnx/ln2).

In particolare se la probabilità è la stessa per tutti gli N simboli (cioè pari a P(xi)=1/N) allora H(x)=∑(1/N)lnN=lnN (essendo ∑(1/N)=1) e quindi 
H(x)=I(x).
Nota: si può dimostrare che in generale vale la relazione: H(x)≤I(x) (poiché <I(x)>I(x)).

Ora essendo I(x)÷1/P(x) si può affermare che H(x) misura l'incertezza o meglio il livello di casualità di una sorgente (cioè dei simboli trasmessi).
Ma per quale motivo la grandezza H(x) viene chiamata entropia?

Per capirlo ricordiamo innanzitutto che in termodinamica per definire l'entropia statistica, introdotta per la prima volta da Ludwig Boltzmann (vedi il post "L'Entropia secondo Boltzmann"), si considera ad esempio un sistema composto da N particelle distribuite sui vari livelli di energia Ei.

Quindi il numero di tutti i possibili microstati (corrispondenti ad un macrostato assegnato) è dato da (posto N=∑ni):
W=N!/(n1!n2!n3!...)
dove n1, n2, n3... è il numero di particelle per ogni livello E1, E2, E3... e l'entropia termodinamica è per definizione pari a
S=KBlnW
dove KB è la costante dimensionale di Boltzmann.
Nota: nel post "Entropia statistica e termodinamica" abbiamo dimostrato l'equivalenza fisica della definizione statistica e quella termodinamica (qui invece l'equivalenza fisica tra entropia e informazione è solo formale).

Si può dimostrare per N grande la seguente relazione**, che giustifica il nome di entropia attribuito al valore H(x)=<I(x)>:
lnW≈N∑P(ni)ln(1/P(ni)) ≡ N<I(x)>
dove P(ni)=ni /N è la probabilità di trovare le particelle nello stato Ei; ma può anche indicare, come visto sopra, la probabilità che un dato simbolo xi venga trasmesso da una sorgente: quindi in definitiva segue che
S=KBlnWKBN<I(x)>
avendo definito <I(x)>=∑P(xi)ln(1/P(xi))).
Nota: nella analogia con H(x), la quantità N non indica il numero di simboli della sorgente ma il numero totale di simboli trasmessi.

Perciò se il numero N di particelle è molto alto la definizione delle due entropie è formalmente equivalente risultando:
S÷H(x).
Nota: ad ogni modo la definizione di H(x) resta valida per qualsiasi sorgente e non solo quando N è molto grande.

Tale equivalenza formale ha spinto Léon Brillouin ad affermare che al contenuto di informazione <I(x)> corrisponde fisicamente una entropia termodinamica pari a S=KB<I(x)>, da calcolare ad esempio nel computo dell'entropia di un sistema in cui si fa uso di bit d'informazione***.
Nota: in pratica Brillouin ipotizza che acquisire informazione non è mai gratis ma ha sempre un costo in termini di energia.

(*) Con il termine incertezza di un evento in pratica si collega l'informazione alla probabilità che questo si possa verificare (come vedremo oltre). Per esempio sapere che ad agosto ha piovuto contiene più informazione di sapere che a novembre pioverà (essendo più probabile).
(**) Per l'approssimazione di Stirling se N è molto grande vale la relazione lnN!≈NlnN-N ed essendo lnW=lnN!-ln(n1!n2!n3!...) segue la relazione: lnW≈NlnN-∑nilnni (posto N=∑ni); perciò poiché ni=NP(ni) si ha lnW≈N∑P(ni)ln(1/P(ni)) (essendo ∑P(ni)=1).
(***) Il paradosso del diavoletto di Maxwell, che sembra violare il secondo Principio della termodinamica, può essere spiegato proprio grazie all'introduzione di S=KB<I(x)> nel calcolo dell'entropia del sistema.
(Tuttavia la soluzione generale al paradosso deriva dal Principio di Landauer secondo cui l'eliminazione di 1 bit di informazione produce una quantità ciclica minima di calore non eliminabile pari a KBTln2).