In generale "l'informazione è l'insieme di dati, correlati tra loro, con cui un'idea (o un fatto) prende forma ed è comunicata" (vedi Wikipedia).
Tuttavia la definizione data sopra può essere meglio specificata: in particolare nel campo dell'elaborazione e della trasmissione dei dati si afferma che l'informazione è il fattore che diminuisce l'incertezza sulla conoscenza di un evento. Ci poniamo quindi il problema di come misurare l'informazione associata alla comunicazione di un evento*.
Introduciamo quindi una nuova definizione, proposta da Claude Shannon, che specifica il contenuto di informazione di un dato messaggio relativo alla comunicazione di un evento.
Se assegnamo ad un evento x la probabilità P(x) di verificarsi, il contenuto di informazione I(x) della comunicazione dell'evento è così definito:
Quindi questa definizione del contenuto di informazione è legata alla probabilità che un evento si possa verificare e non al contenuto semantico di un messaggio (come vedremo meglio di seguito).
Nota: ln indica il logaritmo naturale ma se la sorgente è, ad esempio, binaria si userà il logaritmo in base-2 per definire I(x) (misurata in bit).
1) se l'evento è certo (cioè P(x)=1) allora il contenuto di informazione della comunicazione è nullo (poiché I(x)=ln1=0);
2) poiché in generale P(x)≤1 l'informazione aumenta (I(x)->∞) al diminuire della probabilità dell'evento (cioè quando P(x)->0);
3) dati due eventi indipendenti x e y la probabilità che si verifichino entrambi è P(x,y)=P(x)P(y) quindi in questo caso: I(x,y)=I(x)+I(y).
Nota: la definizione del contenuto di informazione può essere estesa a due (o più eventi): I(x,y)=ln(1/P(x,y))=ln[(1/(P(x))(1/P(y))]=I(x)+I(y).
In generale una data informazione viene generata da una sorgente che trasmette un insieme di simboli xi (ad esempio le lettere dell'alfabeto) ciascuno caratterizzato da una certa probabilità P(xi) di essere trasmesso dalla sorgente (che può anche essere la stessa per tutti i simboli): ciò significa che la trasmissione di ogni simbolo della sorgente viene valutato come un evento con la sua probabilità.
Perciò il contenuto medio <I(x)> di informazione per una data sorgente è definito dalla seguente relazione:
Nota: nel post "Informazione, codici e bit!" vengono descritti alcuni esempi.
Possiamo quindi definire la quantità H(x) detta entropia della sorgente:
Nota: se invece poniamo k=1/ln2 possiamo esprime l'entropia in base-2 (poiché vale la relazione log2x=lnx/ln2).
In particolare se la probabilità è la stessa per tutti gli N simboli (cioè se P(xi)=1/N per ogni xi) allora
Poiché come abbiamo visto I(x)÷1/P(x) si può affermare che H(x) misura l'incertezza o meglio il livello di casualità di una data sorgente.
Ma per quale motivo la grandezza H(x) viene chiamata entropia?
Per capirlo ricordiamo innanzitutto che in termodinamica per definire l'entropia statistica – introdotta per la prima volta da Ludwig Boltzmann (vedi il post "L'Entropia secondo Boltzmann") – si considera ad esempio un sistema composto da N particelle distribuite sui vari livelli di energia Ei.
Quindi il numero di tutti i possibili microstati, corrispondenti ad un macrostato assegnato, è dato da (posto N=∑ni):
Nota: nel post "Entropia statistica e termodinamica" abbiamo dimostrato la equivalenza fisica della definizione statistica e di quella termodinamica (qui invece l'equivalenza tra entropia e informazione è solo formale).
In particolare si può dimostrare per N molto grande la seguente relazione**:
Ma per analogia lnW può anche indicare, come visto sopra, la probabilità che un dato simbolo xi venga trasmesso da una sorgente:
Quindi in definitiva si può scrivere:
Nota: è chiaro che nella analogia con H(x), la quantità N non indica il numero di simboli della sorgente ma il numero totale di simboli trasmessi.
Perciò se il numero N di particelle è molto grande la definizione delle due entropie è formalmente equivalente risultando:
Tale equivalenza formale ha tuttavia spinto Léon Brillouin ad affermare che in realtà al contenuto di informazione <I(x)> corrisponde fisicamente una entropia termodinamica pari a S=KB<I(x)>, da calcolare ad esempio nel computo dell'entropia di un sistema in cui si fa uso di bit d'informazione***.
Nota: in pratica Brillouin ipotizza che acquisire informazione non è mai gratis ma ha sempre un costo in termini di energia.
(*) Con il termine incertezza di un evento in pratica si collega l'informazione alla probabilità che questo si possa verificare: per esempio sapere che ad agosto ha piovuto contiene più informazione di sapere che a novembre pioverà (essendo più probabile).
(**) Per l'approssimazione di Stirling se N è molto grande vale la relazione lnN!≈NlnN-N ed essendo lnW=lnN!-ln(n1!n2!n3!...) segue sostituendo: lnW≈NlnN-∑nilnni. Perciò poiché ni=NP(ni) ed essendo ∑P(ni)=1 si ha: lnW≈NlnN-[Nln∑P(ni)+N∑P(ni)lnP(ni)]≈N∑P(ni)ln(1/P(ni)).
(***) Il paradosso del diavoletto di Maxwell, che sembra violare il secondo Principio della termodinamica, può essere spiegato proprio grazie all'introduzione di S=KB<I(x)> nel calcolo dell'entropia del sistema.
Tuttavia la soluzione generale al paradosso deriva dal Principio di Landauer secondo cui l'eliminazione di 1 bit di informazione produrrebbe una quantità ciclica minima di calore non eliminabile pari a KBTln2.
Nessun commento:
Posta un commento