lunedì 23 marzo 2020

Stati misti, intrecciati e...

Come abbiamo anticipato nel post "Stati puri, miscele e sovrapposizioni!", analizzeremo un sistema composto da due elettroni e verificheremo se si tratta di uno stato di spin puro o misto utilizzando la matrice densità*. 

Consideriamo ad esempio un sistema composto da due elettroni preparati separatamente nei seguenti stati di spin:
|Ψ>=ψu|u>+ψd|d>   e   |Φ>=φu|u>+φd|d>.
Lo stato prodotto che descrive il sistema combinato è:
|ΨΦ>=(ψu|u>+ψd|d>)⊗(φu|u>+φd|d>)
quindi sviluppando il prodotto tensoriale indicato con si ottiene:
|ΨΦ>=ψuφu|uu>+ψuφd|ud>+ψdφu|du>+ψdφd|dd>.
con le condizioni di normalizzazione:
ψuψu+ψdψd=1   e   φuφudφd=1.
Nota: ψu è il complesso coniugato di ψu e lo stesso vale per gli altri valori.

Tuttavia si osservi che in generale un sistema composto da due elettroni è descritto dal seguente stato di spin:
|Ψ>=ψuu|uu>+ψud|ud>du|du>dd|dd>
che non è sempre rappresentabile da uno stato prodotto (vedi sopra), inoltre in questo caso vale la condizione di normalizzazione:
ψuuψuu+ψudψudduψduddψdd=1.
Nota: questo stato combinato è detto stato entangled (o intrecciato) proprio perché non può essere fattorizzato in due stati separati.

Ad esempio consideriamo una coppia di elettroni, preparata con spin opposti, il cui stato combinato non fattorizzabile è:
|Ψ>=(1/2)1/2|ud>+(1/2)1/2|du>
dove la somma degli stati |ud> e |du> rappresenta due coppie di elettroni con spin opposti in sovrapposizione quantistica, mentre il fattore (1/2)1/2 indica che la misura di uno dei due stati è equiprobabile infatti:
ψudψudduψdu=1/2.
Nota: possiamo ad esempio pensare al caso descritto nell'esperimento EPR (per chiarimenti vedi il post "Un esperimento chiave: EPR").

Calcoliamo quindi la matrice densità, già introdotto nel post "Stati puri, miscele e sovrapposizioni!", così definita:
ρ=|Ψ><Ψ/=(1/2)(|ud>+|du>)(<ud|+<du|)
e svolgendo il prodotto si ottiene:
ρ=(1/2)(|ud><ud|+|ud><du|+|du><ud|+|du><du|).

Premesso che indicheremo i vettori colonna come vettori riga trasposti, scegliamo due vettori di base: |u>=(1,0)T e |d>=(0,1)T (dove T indica la matrice trasposta)** e sviluppiamo i prodotti tensoriali:
|ud>=(1,0)T⊗(0,1)T=(0,1,0,0)T   ,   |du>=(0,1)T⊗(1,0)T=(0,0,1,0)T
 <ud|=(1,0)⊗(0,1)=(0,1,0,0)   ,   <du|=(0,1)⊗(1,0)=(0,0,1,0).

Quindi, svolgendo i prodotti sopra definiti, si ottiene la matrice [4x4]:
Come già visto nel precedente post, gli elementi di ρ sono i prodotti delle ampiezze di probabilità per i coniugati; infatti nel nostro caso risulta:
ψudψududψduduψudduψdu=1/2 
mentre gli altri elementi di ρ sono tutti nulli.

A questo punto possiamo verificare facilmente la relazione ρ=ρ2 (basta moltiplicare la matrice ρ per se stessa); ciò significa che siamo in presenza di uno stato puro quindi la conoscenza del sistema combinato è completa***.
Nota: lo stato del sistema è stato preparato con spin nullo perciò è puro, inoltre ciò implica una forte correlazione tra gli spin delle due particelle.

Tuttavia la matrice densità ρ riguarda tutto il sistema combinato mentre noi vorremmo descrivere lo stato di ogni singolo elettrone (che chiameremo A e B); a questo scopo la matrice densità ridotta permette di studiare uno solo dei due sottosistemi (ad esempio A) ed è così definita:
ρA=∑<i|(|Ψ><Ψ|)/i>=TrBρ
rispetto ad una base di vettori |i> del sistema B.
Nota: TrB è l'operatore traccia parziale sulla base di B; in modo equivalente si ha ρB=TrAρ. Inoltre se |Ψ> è uno stato prodotto risulta ρ=ρAρB.

Perciò nel caso considerato possiamo calcolare la matrice ridotta dello stato di spin dell'elettrone A (oppure B) e risulta:
ρA=1/2(|u><u|+|d><d|)=1/2(1,0)T(1,0)+1/2(0,1)T(0,1)=(1/2)I
dove con I abbiamo indicato la matrice identità; da ciò si deduce subito che ρAρA2 cioè siamo in presenza di uno stato composto(!)
Nota: I è una matrice diagonale con tutti gli elementi pari a 1 perciò I2=I.

Ciò significa che gli stati dell'elettrone A (o B) non sono in sovrapposizione quantistica, l'incertezza sullo spin è in realtà dovuta alla non completa conoscenza dello stato del sottosistema-elettrone e la probabilità statistica che lo spin sia up oppure down è pari a 1/2.
Nota: tuttavia a differenza della meccanica classica, nemmeno in linea di principio si può stabilire lo stato del sistema A (o B) prima della misura.

È interessante osservare che anche il famoso Paradosso del gatto di Schrödinger può essere trattato come lo stato entangled che abbiamo ora considerato; ciò significa che anche in quel caso non si ha sovrapposizione di due stati distinti (vivo e morto) poiché il sottosistema "gatto" si trova in uno stato misto di tipo statistico (cioè non è di natura quantistica).

(*) Nel precedente post abbiamo definito, per uno stato puro, la matrice densità ρ=|Ψ><Ψ/ per la quale risulta ρ2=|Ψ><Ψ/|Ψ><Ψ/=ρ; invece per uno stato misto si pone ρ=∑pi|Ψi><Ψi/ dove pi è la probabilità che il sistema si trovi nello stato i-esimo e in questo caso risulta ρ≠ρ2.
(**) Si osservi che i vettori di base scelti soddisfano correttamente le condizioni di ortonormalità: <u|u>=<d|d>=1 e <u|d>=<d|u>=0.
(***) Le teorie a variabili nascoste affermano invece che la conoscenza quantistica del sistema composto non è completa poiché lo stato dei singoli sottositemi non è definito con certezza.

martedì 3 marzo 2020

Stati puri, miscele e sovrapposizioni!

Come è noto, definito uno stato |Ψ> di un qualsiasi sistema quantistico la sua evoluzione temporale, una volta fissato lo stato iniziale, è descritta dalla equazione di Schrödinger (vedi Wikipedia) scritta nella notazione di Dirac:
i(h/2π)∂|Ψ>/∂t=H|Ψ>
dove il valore medio dell'operatore hamiltoniano <H> rappresenta il valore di aspettazione dell'energia del sistema.

Si osservi che qui ci limitiamo a trattare il caso di uno spazio finito-dimensionale (cioè definito da n vettori di base |i>) per il quale si ha:
|Ψ>=∑ψi|i>
dove ψi sono le ampiezze di probabilità relative ai vettori di base |i>.
Nota: per chiarimenti sul vettore di stato di un sistema quantistico vedi i post "I numeri Compessi e la M.Q." e "Le grandezze Osservabili!".

È però possibile dare una descrizione alternativa ma equivalente a quella di Schrödinger definendo il seguente Operatore di densità*:
ρ=|Ψ><Ψ/
dove ρ è rappresentato da una matrice quadrata che si ottiene moltiplicando il vettore colonna |Ψ> per il suo duale vettore riga <Ψ/.
Nota: l'operatore |Ψ><Ψ/ è un proiettore poiché applicato ad uno stato /Φ> si ha |Ψ><Ψ/Φ>=k|Ψ> con k=<Ψ/Φ> (cioè proietta /Φ> lungo |Ψ>).

Poiché il vettore di stato è definito rispetto ad una base ortonormale di vettori |i> si ha che gli elementi di matrice ρij sono dati da**
ρij=<i|ρ/j>
da cui segue subito (sostituendo ρ=|Ψ><Ψ/ ed essendo ψi=<i|Ψ>):
ρij=<i|Ψ><Ψ/j>=ψiψj
cioè gli elementi di ρ sono i prodotti delle ampiezze di probabilità, associate ai vettori di base dello stato considerato, per i coniugati.
Nota: quando i=j il prodotto ψiψi=|ψi|2 rappresenta la probabilità che il sistema venga misurato nello stato i-esimo.

Inoltre se abbiamo a che fare con un sistema il cui stato non è ben definito, ma è dato da un ensemble statistico di stati possibili i} si può porre:
ρ=∑pi|Ψi><Ψi/
dove pi è la probabilità statistica che il sistema si trovi nello stato i-esimo: in pratica si esegue la media pesata su tutti gli stati possibili del sistema.
Nota: la probabilità pi è di tipo statistico cioè è dovuta alla non esatta conoscenza dello stato del sistema (non è di natura quantistica).

Si parla quindi di stato puro quando le pi sono tutte nulle tranne una (pari a 1), mentre negli altri casi avremo uno stato misto poiché si determina una media pesata su tutti gli stati |Ψi> in cui si potrebbe trovare il sistema.

Facciamo subito un esempio di stato puro e consideriamo lo stato di spin di un singolo elettrone (vedi il post "I numeri Complessi e la M.Q.") che può essere descritto in generale (rispetto alle basi |u> e |d> lungo l'asse Z):
|Ψ>=ψu|u>+ψd|d>.
Ciò significa che, dato uno spin preparato in uno stato qualunque |Ψ> e un apparato di misura orientato lungo l'asse Z, i prodotti ψuψu e ψdψd sono le rispettive probabilità che lo spin si trovi nello stato |u> oppure |d>.
Nota: secondo i postulati quantistici, prima della misura lungo Z gli stati |u> e |d> sono in una sovrapposizione quantistica.

Si ricordi infatti che il principale postulato della meccanica quantistica stabilisce che il prodotto ψiψi (cioè i|2) dà la probabilità che il sistema si trovi nello stato i-esimo (ψi è il complesso coniugato di ψi).

Perciò, come mostrato sopra, le componenti della matrice ρ sono:
ρuuuψu , ρuduψd , ρdudψu , ρdddψd
e in particolare risulta: Trρ=ρii=∑ψiψi=1 (dove Tr è l'operatore traccia cioè la somma degli elementi posti sulla diagonale di ρ).
Nota: si ha Trρ=1 poiché la somma degli elementi ψiψi posti sulla diagonale, che esprimono le relative probabilità, è normalizzata a 1.

Ad esempio se prepariamo (misuriamo) lo stato di spin dell'elettrone nella direzione dell'asse X positivo (detto stato right) allora possiamo scrivere (vedi il post "I numeri Complessi e la M.Q."):
|Ψr>=(1/2)1/2|u>+(1/2)1/2|d>
quindi risulta per tutti gli elementi della matrice ρ [2x2]:
ρuuuddu=ρdd=1/2
dove correttamente si ha Trρ=ρuudd=1/2+1/2=1 (cioè la condizione di normalizzazione ψuψudψd=1 è soddisfatta).
Nota: perciò la probabilità che lo spin, misurato lungo l'asse Z, sia up oppure down è pari a 1/2.

Ma ciò che risulta di grande interesse è che per uno stato puro, come quello appena trattato, vale la condizione*** ρ=ρ2 e ciò ci permette di distinguere, come vedremo nel prossimo post, uno stato puro da uno stato misto!
Nota: moltiplicando per se stessa la matrice ρ [2x2] composta da elementi pari a 1/2 si ottiene di nuovo la matrice ρ.

(*) L'evoluzione di ρ è descritta dall'equazione di Von Neumann:
i(h/2π)∂ρ/∂t=[H,ρ] dove [H,ρ]=Hρ-ρH è il commutatore (vedi Wikipedia). 
(**) Posto |Ψ>=∑ψj|j> si ha <i|Ψ>=∑ψj<j|i>=ψi poiché quando j=i si ha <i|i>=1; inoltre in generale dato un operatore A risulta Aij=<i|A/j> infatti possiamo scrivere <i|A|Ψ>=∑ψj<i|A|j>=∑ψjAij <i|A|Ψ>=<i|∑Φj|j>=Φi (per j=i), che rappresenta l'equazione A|Ψ>=|Φ> in forma matriciale.
(***) Per uno stato puro si ha ρ=|Ψ><Ψ/ quindi ρ2=|Ψ><Ψ/Ψ><Ψ/=ρ essendo per la condizione di normalizzazione <Ψ/Ψ>=1.

venerdì 7 febbraio 2020

Informazione, codici e bit!

È proprio grazie all'entropia informazionale (trattata nel post "L'Entropia dell'informazione") che si può rispondere ad una fondamentale questione relativa alla trasmissione di un messaggio:
"Qual è il numero minimo di bit che servono per memorizzare in media il messaggio di una sorgente?" (vedi Wikipedia).
Nota: si vuole cioè stabilire la quantità minima di bit che si devono trasmettere per comunicare un qualunque messaggio.

Ricordiamo che nel post "L'Entropia dell'Informazione" abbiamo definito l'entropia H(x) di una sorgente discreta (con un numero finito di elementi):
H(x)=<I(x)>
dove <I(x)> è il contenuto medio di informazione della sorgente: 
<I(x)>=∑P(xi)ln(1/P(xi))
mentre P(xi) definisce la probabilità che ogni simbolo xi venga trasmesso.

In particolare se P(x) è la stessa per tutti i simboli (cioè P(x)=1/N) risulta:
<I(x)>=ln(1/P(x))=I(x).
Nota: se P(x)=1/N si ha <I(x)>=∑(1/N)lnN=lnN=I(x) essendo ∑(1/N)=1.

Si dimostra in generale che <I(x)>≤I(x) quindi l'entropia è sempre minore (o al massimo uguale) del contenuto di informazione* di una sorgente che trasmette simboli equiprobabili, cioè risulta: H(x)I(x).

Ora nella trasmissione di dati si sceglie quasi sempre la codifica binaria** (indicata dai simboli 0 e 1) — sia per semplicità (perché è costituita da soli due simboli) ma soprattutto per affidabilità (poiché è difficile confondere fisicamente i due simboli) — la cui unità di informazione è detta bit.

Il contenuto di informazione I(x), per questo tipo di sorgente a due valori, viene definito in base-2:
I(x)=log2(1/P(x))
e se l'emissione dei due simboli è equiprobabile (cioè P(x)=1/2) si ha:
I(x)=log2(1/P(x))=1 bit
che è l'unità minima di informazione binaria.
Nota: per cambiare unità di misura e passare da bit a nat (cioè da log2 a ln) basta porre lnx=log2x/log2e≈log2x/1,4 (per le proprietà dei logaritmi).

Con soli due simboli è possibile creare stringhe (cioè sequenze di 0 e 1) la cui lunghezza n determina 2n messaggi distinti; per esempio con stringhe composte da 3 bit possiamo codificare 23=8 messaggi diversi (a cui possiamo far corrispondere altrettanti simboli):
000 001 011 111 110 100 101 010.
Nota: ad esempio possiamo far corrispondere i numeri da 1 a 8 oppure i giorni della settimana (in questo caso sfrutteremmo solo 7 codici).

Ma vediamo un esempio legato all'alfabeto inglese composto da 26 lettere: se ogni lettera fosse trasmessa in modo equiprobabile (P(x)=1/26) il contenuto di informazione per ogni simbolo sarebbe:
I(x)=log2(1/P(x))=log2264,7 bit.
Quindi dovremmo utilizzare esattamente 5 bit per comporre messaggi con l'alfabeto inglese e codificarli in binario***.
Nota: infatti essendo 25=32 sono disponibili sufficienti combinazioni binarie per codificare tutte le 26 lettere dell'alfabeto.

Tuttavia sappiamo che ogni lettera dell'alfabeto viene usata con frequenze diverse (non solo nella lingua inglese) e quindi è opportuno calcolare il contenuto medio di informazione o entropia della sorgente:
H(x)=∑P(xi)ln(1/P(xi))
dove le P(xi) sono le probabilità di ogni lettera calcolate empiricamente.
Nota: un recente studio ha stabilito empiricamente il contenuto medio di informazione dell'alfabeto inglese pari a <I(x)>4,1 bit/simbolo.

Facciamo un esempio, consideriamo una sorgente S con quattro simboli:
S{A, B, C, D} 
che possiamo codificare utilizzando una sorgente binaria:
A=00, B=01, C=10 e D=11.

Supponiamo inoltre che le probabilità di emissione dei simboli sia diversa:
P(A)=1/2, P(B)=1/4 e P(C)=P(D)=1/8
possiamo quindi calcolare l'entropia della sorgente in base-2:
H(x)=∑P(xi)log2(1/P(xi))=(1/2)*1+(1/4)*2+2*(1/8)*3=1,75 bit/simbolo.

In effetti se la probabilità di emissione fosse la stessa (P(x)=1/4) avremmo:
H(x)=log2(1/P(x))=2 bit/simbolo
poiché l'entropia è in generale maggiore se i simboli sono equiprobabili.

Ora però ci chiediamo (data la diversa frequenza dei simboli) se non sia possibile ottimizzare il codice, in modo da utilizzare il minor numero possibile di bit nella trasmissione di messaggi.
Proponiamo quindi il seguente abbinamento simbolo-codice:
A=0, B=10, C=110 e D=111.
Nota: coerentemente ai simboli con maggior frequenza facciamo corrispondere meno bit e viceversa (come ad esempio nel codice Morse).

Calcoliamo ora il numero medio <N(x)> di bit usati per ogni simbolo:
<N(x)>=∑N(xi)P(xi)=1*1/2+2*(1/4)+2*3*(1/8)=1,75 bit/simbolo
dove N(xi) è il numero di bit dell'i-esimo simbolo.
Nota: abbiamo semplicemente calcolato la media pesata del numero di bit usati per ogni simbolo trasmesso.

Il risultato H(x)=<N(x)> è notevole poiché ciò significa, secondo il primo teorema di Shannon, che questa è la migliore codifica possibile(!)
Nota: il teorema è valido per una sorgente senza memoria, cioè quando ogni simbolo viene trasmesso in modo indipendente dal precedente.

Si osservi che se usassimo la codifica precedente, con lo stesso numero di bit per ogni simbolo, si avrebbe:
<N(x)>=∑N(xi)P(xi)=2*1/2+2*(1/4)+2*2*(1/8)=2 bit/simbolo
confermando che in generale risulta: H(x)<N(x)>.

(*) Si osservi che il contenuto o meglio la misura dell'informazione non riguarda il significato di un messaggio ma la sua composizione in simboli.
(**) In quasi tutti gli elaboratori elettronici si usa la logica binaria, rappresentata fisicamente da due diversi livelli di tensione elettrica.
(***) Calcoliamo ad esempio il contenuto minimo di informazione necessario per esprimere un orario in forma digitale: 00:00:00.
In totale gli stati dell'orario sono: 24 (ore) x 60 (min.) x 60 (sec.) = 86.400 stati, quindi I(x)=log286.400=16,4 bit.
In effetti per esprimere l'orario nel formato voluto dobbiamo considerare: I(ore)+I(min.)+I(sec.) dove I(ore)=log224=4,6 bit (quindi 5 bit) e I(min.)=I(sec.)=log260=5,9 bit (cioè 6 bit) perciò servono 5+6+6=17 bit.

venerdì 10 gennaio 2020

L'Entropia dell'Informazione

"L'informazione è l'insieme di dati, correlati tra loro, con cui un'idea (o un fatto) prende forma ed è comunicata" (vedi Wikipedia).

La definizione data sopra può essere meglio specificata; in particolare nel campo dell'elaborazione e trasmissione dati si afferma: l'informazione è il fattore che diminuisce l'incertezza sulla conoscenza di un evento*.
Nota: per quantificare questa definizione ci poniamo il problema di come misurare l'informazione associata alla comunicazione di un evento.

Introduciamo quindi una definizione, proposta da Claude Shannon, che specifica il contenuto di informazione di un qualsiasi messaggio relativo ad un evento: assegnata ad un evento x la probabilità P(x) di verificarsi, il contenuto di informazione I(x) della comunicazione dell'evento è:
I(x)=ln(1/P(x))
o anche per le proprietà dei logaritmi: I(x)=-lnP(x). Come si osserva l'informazione è legata alla probabilità che un evento si possa verificare.
Nota: con ln si indica il logaritmo naturale ma se la sorgente è, ad esempio, binaria si userà il logaritmo in base-2 per definire I(x) (misurata in bit).

Questa particolare definizione è l'unica che rispetta, proprio grazie alle proprietà dei logaritmi, i seguenti requisiti (vedi Wikipedia):
1) se l'evento è certo (cioè P(x)=1) allora il contenuto di informazione della comunicazione è nullo (poiché I(x)=ln1=0);
2) poiché in generale P(x)≤1 l'informazione aumenta (I(x)->∞) al diminuire della probabilità dell'evento (cioè quando P(x)->0);
3) dati due eventi indipendenti x e y la probabilità che si verifichino entrambi è P(x,y)=P(x)P(y) quindi il contenuto di informazione è: I(x,y)=I(x)+I(y).
Nota: la definizione del contenuto di informazione può essere estesa a due (o più eventi): I(x,y)=ln(1/P(x,y))=ln[(1/(P(x))(1/P(y))]=I(x)+I(y).

Ora in generale un'informazione viene generata da una sorgente che trasmette un insieme di simboli xi (ad esempio le lettere dell'alfabeto) ciascuno caratterizzato da una certa probabilità P(xi) di essere trasmesso (può anche essere la stessa per tutti i simboli della sorgente).
Nota: ciò significa che la trasmissione di ogni singolo simbolo della sorgente viene valutato come un evento con la sua probabilità.

Perciò il contenuto medio <I(x)> di informazione per una data sorgente è definito dalla seguente relazione:
<I(x)>=∑P(xi)ln(1/P(xi))
si calcola cioè il valore medio di I(x) pesandolo con i coefficienti P(xi).

Possiamo quindi definire la quantità H(x) detta entropia della sorgente:
H(x)=k<I(x)> 
che viene misurata in nat/simbolo (se poniamo k=1).
Nota: se invece poniamo k=1/ln2 possiamo esprime l'entropia in base-2 (poiché vale la relazione log2x=lnx/ln2).

In particolare se la probabilità è la stessa per tutti gli N simboli (cioè pari a P(xi)=1/N) allora H(x)=∑(1/N)lnN=lnN (essendo ∑(1/N)=1) e quindi 
H(x)=I(x).
Nota: si può dimostrare che in generale vale la relazione: H(x)≤I(x) (poiché <I(x)>I(x)).

Ora essendo I(x)÷1/P(x) si può affermare che H(x) misura l'incertezza o meglio il livello di casualità di una sorgente (cioè dei simboli trasmessi).
Ma per quale motivo la grandezza H(x) viene chiamata entropia?

Per capirlo ricordiamo innanzitutto che in termodinamica per definire l'entropia statistica, introdotta per la prima volta da Ludwig Boltzmann (vedi il post "L'Entropia secondo Boltzmann"), si considera ad esempio un sistema composto da N particelle distribuite sui vari livelli di energia Ei.

Quindi il numero di tutti i possibili microstati (corrispondenti ad un macrostato assegnato) è dato da (posto N=∑ni):
W=N!/(n1!n2!n3!...)
dove n1, n2, n3... è il numero di particelle per ogni livello E1, E2, E3... e l'entropia termodinamica è per definizione pari a
S=KBlnW
dove KB è la costante dimensionale di Boltzmann.
Nota: nel post "Entropia statistica e termodinamica" abbiamo dimostrato l'equivalenza fisica della definizione statistica e quella termodinamica (qui invece l'equivalenza fisica tra entropia e informazione è solo formale).

Si può dimostrare per N grande la seguente relazione**, che giustifica il nome di entropia attribuito al valore H(x)=<I(x)>:
lnW≈N∑P(ni)ln(1/P(ni)) ≡ N<I(x)>
dove P(ni)=ni /N è la probabilità di trovare le particelle nello stato Ei; ma può anche indicare, come visto sopra, la probabilità che un dato simbolo xi venga trasmesso da una sorgente: quindi in definitiva segue che
S=KBlnWKBN<I(x)>
avendo definito <I(x)>=∑P(xi)ln(1/P(xi))).
Nota: nella analogia con H(x), la quantità N non indica il numero di simboli della sorgente ma il numero totale di simboli trasmessi.

Perciò se il numero N di particelle è molto alto la definizione delle due entropie è formalmente equivalente risultando:
S÷H(x).
Nota: ad ogni modo la definizione di H(x) resta valida per qualsiasi sorgente e non solo quando N è molto grande.

Tale equivalenza formale ha spinto Léon Brillouin ad affermare che al contenuto di informazione <I(x)> corrisponde fisicamente una entropia termodinamica pari a S=KB<I(x)>, da calcolare ad esempio nel computo dell'entropia di un sistema in cui si fa uso di bit d'informazione***.
Nota: in pratica Brillouin ipotizza che acquisire informazione non è mai gratis ma ha sempre un costo in termini di energia.

(*) Con il termine incertezza di un evento in pratica si collega l'informazione alla probabilità che questo si possa verificare (come vedremo oltre). Per esempio sapere che ad agosto ha piovuto contiene più informazione di sapere che a novembre pioverà (essendo più probabile).
(**) Per l'approssimazione di Stirling se N è molto grande vale la relazione lnN!≈NlnN-N ed essendo lnW=lnN!-ln(n1!n2!n3!...) segue la relazione: lnW≈NlnN-∑nilnni (posto N=∑ni); perciò poiché ni=NP(ni) si ha lnW≈N∑P(ni)ln(1/P(ni)) (essendo ∑P(ni)=1).
(***) Il paradosso del diavoletto di Maxwell, che sembra violare il secondo Principio della termodinamica, può essere spiegato proprio grazie all'introduzione di S=KB<I(x)> nel calcolo dell'entropia del sistema.
(Tuttavia la soluzione generale al paradosso deriva dal Principio di Landauer secondo cui l'eliminazione di 1 bit di informazione produce una quantità ciclica minima di calore non eliminabile pari a KBTln2).

venerdì 13 dicembre 2019

Le grandezze Osservabili!

Come afferma Wikipedia "in fisica si definisce osservabile una qualsiasi grandezza che è in qualche modo misurabile"; dove in qualche modo significa "misurabile direttamente tramite le operazioni e gli opportuni strumenti di misura oppure indirettamente attraverso calcolo analitico".
Nota: ad esempio i campi e i potenziali, come quelli elettromagnetici, sono grandezze fisiche ma non sono direttemente misurabili.

In generale se in un esperimento vogliamo misurare una grandezza è opportuno, per eliminare gli errori casuali, ripetere la misurazione molte volte per poter determinare un valore medio, che per definizione è il valore più vicino a quello reale (in assenza di errori sistematici).
Nota: si suppone che gli errori casuali, in senso statistico, tendano a compensarsi nel calcolo del valore medio.

Supponiamo ad esempio che durante la misurazione di una certa grandezza A sia stato misurato c1 volte il valore a1, c2 volte il valore a2 e in generale cn volte il valore an; il valore medio, pesato dai coefficienti cn, sarà quindi:
<A>=(c1a1+c2a2+...+cnan)/N=∑anP(an)
dove P(an)=cn/N (N=c1+c2+...+cn) è la probabilità di ottenere il valore an.
Nota: è implicito che il numero di misure deve essere sufficientemente alto affinché questa relazione sia statisticamente valida.

La definizione di valore medio di una grandezza osservabile è valida anche in meccanica quantistica, dove però A è rappresentato da un operatore lineare, cioè una funzione tra due spazi vettoriali "che conserva le operazioni di somma di vettori e di moltiplicazione per uno scalare" (vedi Wikipedia).
Nota: se gli spazi vettoriali hanno dimensione finita un operatore lineare è sempre rappresentabile da una matrice associata ad essa.

Come abbiamo già anticipato nel post "I numeri Complessi e la M.Q." gli stati di un sistema quantistico vengono descritti nello spazio vettoriale di Hilbert che generalizza lo spazio euclideo (vedi Wikipedia).
Ciò in pratica significa che se un operatore A agisce su uno stato |S> produce un nuovo vettore di stato, che viene indicato con A|S> (secondo la notazione di Dirac).
Nota: ricordiamo che il vettore |S> viene chiamato ket ma è possibile definire anche il suo duale <S| chiamato bra (vedi oltre).

Ora, come tutti i vettori, anche quello di stato può essere definito come combinazione lineare di una base dello spazio (|a1>, |a2>, ..., |an>) moltiplicata per le relative componenti* (𝜶1, 𝜶2, ..., 𝜶n):
|S>=𝜶1|a1>+𝜶2|a2>+...+𝜶n|an>=𝜶n|an>.

In particolare, per motivi che diventeranno subito chiari, scegliamo come base quella che soddisfa la seguente relazione:
A|an>=an|an>
dove ricordiamo an rappresenta il valore di una misura dell'osservabile A.

Tale relazione afferma che quando A agisce su una delle basi |an> restituisce la stessa base moltiplicata per an: si può mostrare che l'insieme (|a1>, |a2>, ..., |an>) può essere scelto come una base ortonormale (cioè vettori di norma unitaria e ortogonali tra loro) dello spazio vettoriale considerato.
Nota: si dice che an è l'autovalore del relativo autovettore |an>; inoltre an è un numero reale essendo A per scelta un operatore hermitiano.

Facciamo quindi agire l'operatore A sullo stato |S> (e quindi sulle sue basi):
A|S>=𝜶nA|an>
da cui ricordando che A|an>=an|an> si ha:
A|S>=𝜶nan|an>.

Prima di compiere l'ultimo passaggio dobbiamo definire un nuovo elemento, cioè il duale del vettore |S> (detto ket) che viene indicato con <S| (chiamato bra)** prendendo il suo complesso coniugato:
 <S|=<an|𝜶n
dove con 𝜶n abbiamo indicato il complesso coniugato di 𝜶n.
Nota: se ad esempio |S> viene rappresentato da un vettore colonna il duale <S| è un vettore riga i cui elementi sono i complessi coniugati di |S>.

A questo punto possiamo far agire il vettore duale <S| sul vettore di stato A|S> prima derivato, cioè sostituendo quanto ottenuto sopra:
 <S|A|S>=<an|𝜶n𝜶nan|an>.
Nota: usando la notazione bra-ket basta applicare in sequenza i bra e i ket di <S| e A|S> derivati sopra nel simbolo di sommatoria.

Se si osserva che la sequenza <an|𝜶n𝜶nan|an> può essere riscritta come 𝜶n𝜶nan<an|an> (poiché 𝜶n𝜶nan è solo un coefficiente moltiplicativo) ed inoltre essendo <an|an>=1 (dato che la base scelta è normalizzata)*** si ha:
<S|A|S>=𝜶n𝜶nan.

Poiché il prodotto 𝜶n𝜶n rappresenta per ipotesi la probabilità P(an) che si verifichi l'evento an (è uno dei postulati della meccanica quantistica), allora segue dalla definizione di valor medio (introdotta all'inizio del post):
<S|A|S>=𝜶n𝜶nan=∑P(an)an=<A>.

Ciò significa che ogni volta che desideriamo ottenere il valor medio di una grandezza osservabile in meccanica quantistica, basta inserire l'operatore che la rappresenta tra il bra e il ket del relativo vettore di stato.

(*) Gli elementi del campo dello spazio vettoriale di Hilbert sono in generale numeri complessi.
(**) Per chiarimenti sullo spazio vettoriale duale vedi anche il post "Trasformazioni di basi, vettori e... co-vettori!". 
(***) Con la notazione < | > si indica il prodotto scalare tra due vettori, in particolare <an|an> indica il quadrato della norma di |an> che è pari a 1.

mercoledì 23 ottobre 2019

I numeri Complessi e la M.Q.

In questo post cercheremo di mostrare, attraverso l'esame di un semplice sistema quantistico, il ruolo dei numeri complessi nella rappresentazione formale di uno stato quantico.

Ricordiamo innanzitutto che un numero complesso z è così definito:
z=a+ib
dove a e b sono due numeri reali mentre i=(-1)1/2 è l'unità immaginaria; i numeri complessi sono perciò una diretta estensione dei numeri reali.
Nota: il valore di i è stato introdotto per risolvere, ad esempio, l'equazione x2+1=0 che non ha soluzioni nel campo dei numeri reali.

Come è noto gli stati di un sistema quantistico vengono descritti nello spazio vettoriale di Hilbert che generalizza lo spazio euclideo (vedi Wikipedia):
"Uno spazio di Hilbert H=(H, < , >) è uno spazio vettoriale reale o complesso sul quale è definito un prodotto interno < , > (tale che, detta d la distanza indotta da < , > su H, lo spazio metrico  (H,d) sia completo)".
Nota: uno spazio metrico è un insieme di elementi, detti punti, nel quale è definita una distanza, detta anche metrica (vedi Wikipedia).

Per i nostri scopi non è necessario entrare nei dettagli dello spazio vettoriale H ma possiamo procedere illustrando un semplice sistema quantistico. Per farlo utilizzeremo un singolo elettrone che, come è noto, è dotato di una proprietà detta Spin che può assumere solo due stati.

La cosa interessante è che nello spazio di Hilbert, possiamo indicare gli stati come vettori; cioè se ad esempio misuriamo lo spin lungo l'asse Z possiamo porre, a seconda del risultato della misura*, uno dei seguenti vettori come stato del sistema (secondo la notazione di Dirac):
|u> (stato up) oppure |d> (stato down)
ricordando che la probabilità di trovare lo spin in uno dei 2 stati è la stessa.
Nota: per definizione |u> punta lungo l'asse positivo di Z mentre |d> lungo quello negativo.

Se sommiamo questi due stati (vettori), in modo da ottenerne un terzo, questo descriverà il generico stato di spin |S> lungo uno qualsiasi degli assi:
|S>=a|u>+b|d>
dove a e b sono le componenti di |S> (siamo in uno spazio vettoriale!) rispettivamente lungo |u> (asse positivo di Z) e |d> (asse negativo di Z).
Nota: abbiamo in pratica scelto le due basi |u> e |d> per descrivere qualsiasi stato del nostro sistema quantistico a due dimensioni.

Si osservi che secondo un noto postulato della meccanica quantistica i prodotti aa e bb indicano rispettivamente la probabilità di trovare (misurare) lo spin nello stato up oppure down.
Nota: con a e b indichiamo il complesso coniugato rispettivamente di a e di b; come vedremo a e b sono in generale numeri complessi.

La cosa poco intuitiva dello spin è che se lo misuriamo lungo un qualsiasi asse, il suo valore è sempre definito nel verso positivo oppure negativo dell'asse di misura (ci aspetteremmo invece di misurare la sua proiezione, come accade nel caso classico per una grandezza vettoriale).

Supponiamo quindi di aver misurato lo spin dell'elettrone nello stato |u> (cioè lungo l'asse Z positivo) e subito dopo eseguiamo una misura lungo l'asse X: se lo spin si trova lungo l'asse X positivo indicheremo tale stato con il vettore |r> (right) definendolo rispetto alle basi |u> e |d>:
|r>=a|u>+b|d>
(dove come detto i prodotti aa e bb indicano la probabilità di trovare lo spin lungo l'asse Z positivo oppure negativo rispettivamente).

Gli esperimenti indicano che dobbiamo porre a=b=(1/2)1/2 poiché la probabilità di trovare lo stato |u> oppure |d> lungo l'asse Z (dopo aver eseguito la misura lungo X) è la stessa:
aa=bb=1/2
cioè si ha il 50% di probabilità per entrambi gli stati e perciò risulta:
 |r>=(1/2)1/2|u>+(1/2)1/2|d>.
Nota: la somma delle probabilità è normalizzata a 1 infatti P=aa+bb=1.

Possiamo fare la stessa misura lungo l'asse Y e troveremo lo stesso risultato: cioè se misuriamo prima lo spin lungo l'asse Z e subito dopo lungo l'asse X oppure Y, allora lo stato dell'elettrone lungo l'asse Z non è più definito, ha cioè la stessa probabilità di trovarsi nello stato up oppure down(!)
Nota: se invece eseguiamo più volte di seguito la misura dello spin lungo lo stesso asse si ottiene sempre lo stesso valore.

Se inoltre indichiamo con |l> (left) lo stato dello spin preparato lungo l'asse X negativo, si può dimostrare la relazione (vedi la Nota sotto):
|l>=(1/2)1/2|u>-(1/2)1/2|d>.
Ed infine considerando anche lo stato lungo l'asse Y positivo |i> (in) oppure negativo |o> (out), si ha rispettivamente:
|i>=(1/2)1/2|u>+i(1/2)1/2|d>
|o>=(1/2)1/2|u>-i(1/2)1/2|d>
dove abbiamo dovuto introdurre** l'unità immaginaria i (in modo che per tutti questi stati risulti correttamente per le probabilità: aa=bb=1/2).
Nota: gli stati di spin si ottengono ponendo, oltre ai dati sperimentali che definiscono le probabilità, anche le relazioni di indipendenza lineare: <u|d>=<d|u>=<r|l>=<l|r>=<i|o>=<o|i>=0.

Si osservi quindi come sia necessario inserire l'unità immaginaria i nella definizione degli ultimi due stati di spin***. È altresì corretto supporre che ciò non riguardi solo questo semplice esempio ma sia vero in generale: senza i numeri complessi, non potremmo definire correttamente gli stati di un sistema quantistico e le relative probabilità.

(*) Dopo la misura lo stato di spin dell'elettrone è definito e si dice che l'elettrone è stato preparato nello stato di spin relativo all'asse di misura.
(**) Si può dimostrare che non possiamo fare a meno dell'introduzione dell'unità immaginaria i nella definizione degli stati di spin (da non confondere con lo stato in: |i>).
(***) Questo elementare sistema quantistico può essere definito qubit (quantum bit), poiché presenta solo due stati; sembra che tutti i sistemi quantistici possano essere costruiti combinando solo qubit.

domenica 23 giugno 2019

Il Teorema di Bayes e... un Test!

Per derivare il teorema di Bayes o teorema della probabilità delle cause, dovuto al reverendo Thomas Bayes (1702-1761), dobbiamo innanzitutto introdurre la definizione di probabilità condizionata (vedi Wikipedia):
"In teoria della probabilità la probabilità condizionata di un evento A rispetto a un evento B è la probabilità che si verifichi A, sapendo che B si è verificato"; la indicheremo di seguito con il simbolo P(A|B) (viceversa con P(B|A) indicheremo la probabilità di B quando A è noto).
Nota: è chiaro che la conoscenza dell'evento B non cambia l'esito di A ma solo la sua probabilità di verificarsi.

È inoltre utile definire in modo preliminare quello che nel calcolo delle probabilità viene chiamato spazio campionario (vedi Wikipedia):
"Lo spazio campionario S o insieme universo è l'insieme dei possibili risultati di un esperimento casuale"; ad esempio, nel caso del lancio di un dado a sei facce, è l'insieme dei sei elementi {1, 2, 3, 4, 5, 6} cioè S=6.

Per dimostrare il teorema di Bayes introduciamo quindi il seguente grafico dove, all'interno di un universo S di possibili eventi, sono definiti:
- l'insieme A: che contiene gli elementi (x+y) che corrispondono all'evento dato A (ad esempio il lancio di un dado);
- l'insieme B: che contiene gli elementi (y+z) che corrispondono all'evento dato B (ad esempio l'uscita di un numero dispari nell'evento A).
Inoltre supponiamo che gli eventi A e B siano dipendenti, cioè che il verificarsi di uno cambi la probabilità di verificarsi dell'altro*.


Quindi per definire la probabilità P(A|B) che accada l'evento A noto l'evento B (o viceversa la probabilità P(B|A)) basta osservare che y rappresenta la parte di elementi comuni ad A e B e quindi (vedi grafico):
P(A|B)=y/(y+z)   o viceversa   P(B|A)=y/(x+y).

Inoltre se indichiamo con S lo spazio di tutti i possibili eventi avremo S=x+y+z+w (dove w indica gli elementi non compresi in A o in B) e quindi la probabilità di verificarsi di A e di B è:
P(A)=(x+y)/S   e   P(B)=(y+z)/S
cioè P(A) e P(B) esprimono il rapporto tra i casi favorevoli e quelli possibili.

A questo punto è semplice ottenere la formula di Bayes:
P(A|B)=P(B|A)*P(A)/P(B)
basta infatti sostituire i valori delle varie probabilità (viste sopra) per verificare questa relazione.

Ma vediamo, come esempio significativo, quello di un test diagnostico: consideriamo ad esempio l'esame di una data patologia, il cui rischio di ammalarsi della popolazione è già stato misurato ed è pari all'1%.

Stabiliamo quindi l'uso dei seguenti simboli:
P(+): indica la probabilità che il test abbia esito positivo;
P(malato): definisce la probabilità che il paziente sia malato;
P(+|malato): è la probabilità che il test sia positivo se il paziente è malato;
P(malato|+): è la probabilità che il paziente sia malato se il test è positivo.

Inoltre poiché un test non è mai certo al 100%, supponiamo che gli esiti positivi o negativi del test in seguito rivelati infondati, siano i seguenti:
P(+|sano)=7% (falsi positivi: sono i test errati nel riscontrare la malattia);
P(-|malato)=10% (falsi negativi: i test errati nel non rivelare la malattia).

Applicando la formula di Bayes si può quindi calcolare P(malato/+) cioè la probabilità che il paziente sia malato quando il test risulta positivo:
P(malato/+)=P(+|malato)*P(malato)/P(+)
dove sappiamo già che:
P(+|malato)=90% (poiché per il 10% dei malati si ha un falso negativo);
P(malato)=1% (dato che questo è il dato verificato per la popolazione).

Dobbiamo perciò calcolare la probabilità P(+) che il test abbia esito positivo. Per questo si devono sommare le probabilità condizionate con esito positivo del test (cioè P(+|sano) e P(+|malato)), che vanno moltiplicate rispettivamente per le probabilità che il paziente sia sano oppure malato (cioè P(sano) e P(malato))**. In sintesi possiamo scrivere:
P(+)=P(+|sano)*P(sano)+P(+|malato)*P(malato)=7,83%
essendo come già descritto sopra:
P(+|sano)*P(sano)=(7%)*(99%)   e   P(+|malato)*P(malato)=(90%)*(1%).

Siamo infine in grado di calcolare P(malato/+) in termini percentuali con la formula di Bayes:
P(malato/+)=(90%)*(1%)/(7,83%)=11,49%
che è una probabilità piuttosto bassa che il paziente sia malato quando il test risulta positivo, contrariamente alla nostra aspettativa.

È quindi evidente come il test diagnostico dell'esempio (con quei dati valori di falsi positivi e negativi) non sia sufficiente per stabilire, con una probabilità significativa, la malattia del paziente!***.

(*) Ad esempio sapendo che il lancio di un comune dado ha dato esito dispari, la probabilità a posteriori di indovinare il numero uscito sarà di 1/3 e non più di 1/6 come supposto a priori prima del lancio. Infatti in riferimento al grafico avremo S=6, x=0, y=1 e z=2 da cui P(A|B)=1/3.
(**) Per chiarire come si ottiene P(+) poniamo gli eventi A=malato, B=+ e A=(S-A)=sano (sono gli elementi non contenuti in A). Quindi in riferimento a quanto visto sopra con i diagrammi si ha: P(B|A)=y/(x+y), P(A)=(x+y)/S, P(B/A)=z/(S-A) e P(A)=(S-A)/S perciò essendo P(B)=(y+z)/S si può verificare la relazione di P(B)=P(+) indicata sopra.
(***) È possibile fare un calcolo più diretto. Se consideriamo 1.000 persone, si ha che 10 (1%) sono malate e di queste 1 non risulta al test (10% di falsi negativi); perciò le altre 9 risultano positive al test. Le restanti 990 (99%) sono sane di cui 69,3 risultano positive al test (7% di falsi positivi); mentre le altre 920,7 risultano negative al test. In definitiva si hanno 9 persone malate e positive al test su un totale di 69,3+9=78,3 positive al test. Quindi risulta P(malato/+)=9/78,3=11,49% come visto sopra.