Significato fisico: gennaio 2020

In generale "l'informazione è l'insieme di dati, correlati tra loro, con cui un'idea (o un fatto) prende forma ed è comunicata" (vedi Wikipedia).

Tuttavia la definizione data sopra può essere meglio specificata: in particolare nel campo dell'elaborazione e della trasmissione dei dati si afferma che l'informazione è il fattore che diminuisce l'incertezza sulla conoscenza di un evento. Ci poniamo quindi il problema di come misurare l'informazione associata alla comunicazione di un evento*.

Introduciamo quindi una nuova definizione, proposta da Claude Shannon, che specifica il contenuto di informazione di un dato messaggio relativo alla comunicazione di un evento.
Se assegnamo ad un evento x la probabilità P(x) di verificarsi, il contenuto di informazione I(x) della comunicazione dell'evento è così definito:

I(x)=ln(1/P(x))

o anche per le proprietà dei logaritmi: I(x)=-lnP(x) (essendo ln1=0).

Quindi questa definizione del contenuto di informazione è legata alla probabilità che un evento si possa verificare e non al contenuto semantico di un messaggio (come vedremo meglio di seguito).
Nota: ln indica il logaritmo naturale ma se la sorgente è, ad esempio, binaria si userà il logaritmo in base-2 per definire I(x) (misurata in bit).

Si osservi che questa particolare definizione è l'unica che rispetta, grazie alle proprietà dei logaritmi, i seguenti requisiti (vedi Wikipedia):
1) se l'evento è certo (cioè P(x)=1) allora il contenuto di informazione della comunicazione è nullo (poiché I(x)=ln1=0);
2) poiché in generale P(x)≤1 l'informazione aumenta (I(x)->∞) al diminuire della probabilità dell'evento (cioè quando P(x)->0);
3) dati due eventi indipendenti x e y la probabilità che si verifichino entrambi è P(x,y)=P(x)P(y) quindi in questo caso: I(x,y)=I(x)+I(y).
Nota: la definizione del contenuto di informazione può essere estesa a due (o più eventi): I(x,y)=ln(1/P(x,y))=ln[(1/(P(x))(1/P(y))]=I(x)+I(y).

In generale una data informazione viene generata da una sorgente che trasmette un insieme di simboli x_i (ad esempio le lettere dell'alfabeto) ciascuno caratterizzato da una certa probabilità P(x_i) di essere trasmesso dalla sorgente (che può anche essere la stessa per tutti i simboli): ciò significa che la trasmissione di ogni simbolo della sorgente viene valutato come un evento con la sua probabilità.

Perciò il contenuto medio <I(x)> di informazione per una data sorgente è definito dalla seguente relazione:

<I(x)>=∑P(x_i)ln(1/P(x_i))

si calcola cioè il valore medio di I(x) pesandolo con i coefficienti P(x_i).
Nota: nel post "Informazione, codici e bit!" vengono descritti alcuni esempi.

Possiamo quindi definire la quantità H(x) detta entropia della sorgente:

H(x)=k<I(x)>

che viene misurata in nat/simbolo (se poniamo k=1).
Nota: se invece poniamo k=1/ln2 possiamo esprime l'entropia in base-2 (poiché vale la relazione log₂x=lnx/ln2).

In particolare se la probabilità è la stessa per tutti gli N simboli (cioè se P(x_i)=1/N per ogni x_i) allora

H(x)=∑P(x_i)ln(1/P(x_i))=lnN∑P(x_i)=lnN

essendo ∑P(x_i)=1 e quindi per la definizione data sopra di Informazione I(x)=ln(1/P(x))=lnN segue subito

H(x)=I(x).

Nota: si può dimostrare che <I(x)>≤I(x) quindi in generale: H(x)≤I(x) cioè l'entropia è massima quando la sorgente è completamente casuale.

Poiché come abbiamo visto I(x)÷1/P(x) si può affermare che H(x) misura l'incertezza o meglio il livello di casualità di una data sorgente.
Ma per quale motivo la grandezza H(x) viene chiamata entropia?

Per capirlo ricordiamo innanzitutto che in termodinamica per definire l'entropia statistica – introdotta per la prima volta da Ludwig Boltzmann (vedi il post "L'Entropia secondo Boltzmann") – si considera ad esempio un sistema composto da N particelle distribuite sui vari livelli di energia E_i.

Quindi il numero di tutti i possibili microstati, corrispondenti ad un macrostato assegnato, è dato da (posto N=∑n_i):

W=N!/(n₁!n₂!n₃!...)

dove n₁, n₂, n₃... è il numero di particelle per ogni livello E₁, E₂, E₃... e l'entropia termodinamica è per definizione pari a

S=K_BlnW

dove K_B è la costante dimensionale di Boltzmann.
Nota: nel post "Entropia statistica e termodinamica" abbiamo dimostrato la equivalenza fisica della definizione statistica e di quella termodinamica (qui invece l'equivalenza tra entropia e informazione è solo formale).

In particolare si può dimostrare per N molto grande la seguente relazione**:

lnW≈N∑P(n_i)ln(1/P(n_i))

dove P(n_i)=n_i /N è la probabilità di trovare le particelle nello stato E_i.
Ma per analogia lnW può anche indicare, come visto sopra, la probabilità che un dato simbolo x_i venga trasmesso da una sorgente:

lnW≈N∑P(x_i)ln(1/P(x_i))=N<I(x)>.

Quindi in definitiva si può scrivere:

S=K_BlnW≈K_BN<I(x)>

essendo come visto sopra lnW≈N<I(x)> e ciò giustifica almeno formalmente il nome di entropia attribuito al valore H(x)=<I(x)>.
Nota: è chiaro che nella analogia con H(x), la quantità N non indica il numero di simboli della sorgente ma il numero totale di simboli trasmessi.

Perciò se il numero N di particelle è molto grande la definizione delle due entropie è formalmente equivalente risultando:

S÷H(x).

Nota: ad ogni modo la definizione di H(x) resta valida per qualsiasi sorgente e non solo quando N è molto grande.

Tale equivalenza formale ha tuttavia spinto Léon Brillouin ad affermare che in realtà al contenuto di informazione <I(x)> corrisponde fisicamente una entropia termodinamica pari a S=K_B<I(x)>, da calcolare ad esempio nel computo dell'entropia di un sistema in cui si fa uso di bit d'informazione***.
Nota: in pratica Brillouin ipotizza che acquisire informazione non è mai gratis ma ha sempre un costo in termini di energia.

(*) Con il termine incertezza di un evento in pratica si collega l'informazione alla probabilità che questo si possa verificare: per esempio sapere che ad agosto ha piovuto contiene più informazione di sapere che a novembre pioverà (essendo più probabile).
(**) Per l'approssimazione di Stirling se N è molto grande vale la relazione lnN!≈NlnN-N ed essendo lnW=lnN!-ln(n₁!n₂!n₃!...) segue sostituendo: lnW≈NlnN-∑n_ilnn_i. Perciò poiché n_i=NP(n_i) ed essendo ∑P(n_i)=1 si ha: lnW≈NlnN-[Nln∑P(n_i)+N∑P(n_i)lnP(n_i)]≈N∑P(n_i)ln(1/P(n_i)).
(***) Il paradosso del diavoletto di Maxwell, che sembra violare il secondo Principio della termodinamica, può essere spiegato proprio grazie all'introduzione di S=K_B<I(x)> nel calcolo dell'entropia del sistema.
Tuttavia la soluzione generale al paradosso deriva dal Principio di Landauer secondo cui l'eliminazione di 1 bit di informazione produrrebbe una quantità ciclica minima di calore non eliminabile pari a K_BTln2.

Significato fisico

venerdì 10 gennaio 2020

L'Entropia dell'Informazione