venerdì 10 gennaio 2020

L'Entropia dell'Informazione

In generale "l'informazione è l'insieme di dati, correlati tra loro, con cui un'idea (o un fatto) prende forma ed è comunicata" (vedi Wikipedia).

Tuttavia la definizione data sopra può essere meglio specificata.
In particolare nel campo dell'elaborazione e della trasmissione dei dati si afferma che l'informazione è il fattore che diminuisce l'incertezza sulla conoscenza di un evento.
Ci poniamo quindi il problema di come misurare l'informazione associata alla comunicazione (o meglio conoscenza) di un evento*.

Introduciamo quindi una nuova definizione, proposta da Claude Shannon, che specifica il contenuto di informazione di un dato messaggio relativo alla comunicazione di un evento.
Se assegnamo ad un evento x la probabilità P(x) di verificarsi, il contenuto di informazione I(x) della comunicazione dell'evento è così definito:
I(x)=ln(1/P(x))
o anche per le proprietà dei logaritmi: I(x)=-lnP(x).

Quindi questa definizione di contenuto di informazione è legata solo alla probabilità che un evento si possa verificare e non al contenuto semantico di un messaggio, come vedremo meglio di seguito.
Nota: ln indica il logaritmo naturale ma se la sorgente è, ad esempio, binaria si userà il logaritmo in base-2 per definire I(x) (misurata in bit).

Si osservi che questa particolare definizione è l'unica che rispetta, grazie alle proprietà dei logaritmi, i seguenti requisiti (vedi Wikipedia):
1) se l'evento è certo (cioè P(x)=1) allora il contenuto di informazione della comunicazione è nullo (poiché I(x)=ln1=0);
2) poiché in generale P(x)≤1 l'informazione aumenta (I(x)->∞) al diminuire della probabilità dell'evento (cioè quando P(x)->0);
3) dati due eventi indipendenti x e y la probabilità che si verifichino entrambi è P(x,y)=P(x)P(y) quindi in questo caso: I(x,y)=I(x)+I(y).
Nota: la definizione del contenuto di informazione può essere estesa a due (o più eventi): I(x,y)=ln(1/P(x,y))=ln[(1/(P(x))(1/P(y))]=I(x)+I(y).

In generale una data informazione viene generata da una sorgente che trasmette un insieme di simboli xi (ad esempio le lettere dell'alfabeto) ciascuno caratterizzato da una certa probabilità P(xi) di essere trasmesso dalla sorgente, che può anche essere la stessa per tutti i simboli.
Nota: ciò significa che la trasmissione di ogni simbolo della sorgente viene valutato come un evento con la sua probabilità.

Perciò il contenuto medio <I(x)> di informazione per una data sorgente è definito dalla seguente relazione:
<I(x)>=∑P(xi)ln(1/P(xi))
si calcola cioè il valore medio di I(x) pesandolo con i coefficienti P(xi).

Possiamo quindi definire la quantità H(x) detta entropia della sorgente:
H(x)=k<I(x)> 
che viene misurata in nat/simbolo (se poniamo k=1).
Nota: se invece poniamo k=1/ln2 possiamo esprime l'entropia in base-2 (poiché vale la relazione log2x=lnx/ln2).

In particolare se la probabilità è la stessa per tutti gli N simboli (cioè se P(xi)=1/N) allora H(x)=∑(1/N)lnN=lnN (essendo ∑(1/N)=1) e quindi 
H(x)=I(x).
Nota: si può dimostrare che <I(x)>I(x) quindi in generale: H(x)≤I(x).

Poiché come abbiamo visto I(x)÷1/P(x) si può affermare che H(x) misura l'incertezza o meglio il livello di casualità di una data sorgente. Ma per quale motivo la grandezza H(x) viene chiamata entropia?

Per capirlo ricordiamo innanzitutto che in termodinamica per definire l'entropia statistica – introdotta per la prima volta da Ludwig Boltzmann (vedi il post "L'Entropia secondo Boltzmann") – si considera ad esempio un sistema composto da N particelle distribuite sui vari livelli di energia Ei.

Quindi il numero di tutti i possibili microstati, corrispondenti ad un macrostato assegnato, è dato da (posto N=∑ni):
W=N!/(n1!n2!n3!...)
dove n1, n2, n3... è il numero di particelle per ogni livello E1, E2, E3... e l'entropia termodinamica è per definizione pari a
S=KBlnW
dove KB è la costante dimensionale di Boltzmann.
Nota: nel post "Entropia statistica e termodinamica" abbiamo dimostrato l'equivalenza fisica della definizione statistica e quella termodinamica (qui invece l'equivalenza tra entropia e informazione è solo formale).

Ora si può dimostrare per N molto grande la seguente relazione**, che come vedremo giustifica il nome di entropia attribuito al valore H(x)=<I(x)>:
lnW≈N∑P(ni)ln(1/P(ni)) ≡ N<I(x)>
dove P(ni)=ni /N è la probabilità di trovare le particelle nello stato Ei; ma può anche indicare, come visto sopra, la probabilità che un dato simbolo xi venga trasmesso da una sorgente.

Quindi in definitiva si può scrivere:
S=KBlnWKBN<I(x)>
avendo definito <I(x)>=∑P(xi)ln(1/P(xi))).
Nota: nella analogia con H(x), la quantità N non indica il numero di simboli della sorgente ma il numero totale di simboli trasmessi.

Perciò se il numero N di particelle è molto grande la definizione delle due entropie è formalmente equivalente risultando:
S÷H(x).
Nota: ad ogni modo la definizione di H(x) resta valida per qualsiasi sorgente e non solo quando N è molto grande.

Tale equivalenza formale ha spinto Léon Brillouin ad affermare che in realtà al contenuto di informazione <I(x)> corrisponde fisicamente una entropia termodinamica pari a S=KB<I(x)>, da calcolare ad esempio nel computo dell'entropia di un sistema in cui si fa uso di bit d'informazione***.
Nota: cioè Brillouin ipotizza che acquisire informazione non è mai gratis ma ha sempre un costo in termini di energia.

(*) Con il termine incertezza di un evento in pratica si collega l'informazione alla probabilità che questo si possa verificare: per esempio sapere che ad agosto ha piovuto contiene più informazione di sapere che a novembre pioverà (essendo più probabile).
(**) Per l'approssimazione di Stirling se N è molto grande vale la relazione lnN!≈NlnN-N ed essendo lnW=lnN!-ln(n1!n2!n3!...) segue la relazione: lnW≈NlnN-∑nilnni (posto N=∑ni); perciò poiché ni=NP(ni) si ha lnW≈N∑P(ni)ln(1/P(ni)) (essendo ∑P(ni)=1).
(***) Il paradosso del diavoletto di Maxwell, che sembra violare il secondo Principio della termodinamica, può essere spiegato proprio grazie all'introduzione di S=KB<I(x)> nel calcolo dell'entropia del sistema.
(Tuttavia la soluzione generale al paradosso deriva dal Principio di Landauer secondo cui l'eliminazione di 1 bit di informazione produce una quantità ciclica minima di calore non eliminabile pari a KBTln2).

Nessun commento:

Posta un commento