giovedì 11 maggio 2023

Base locale e derivata covariante (seconda parte)

Nel precedente post abbiamo visto come si può costruire una base curvilinea locale a partire da una base cartesiana e viceversa, in particolare abbiamo ottenuto le seguenti relazioni tra le basi dei due riferimenti:
ei=(∂xj/∂xi)ej   ,   ei=(∂xj/∂xi)ej
dove ei sono le basi del riferimento cartesiano (x1,..., xn) mentre ej sono le basi del riferimento curvilineo (x1,..., xn) in uno spazio Rn (con i,j=1,..., n).
Nota: come sempre le coordinate curvilinee sono definite in funzione di quelle cartesiane e viceversa, inoltre sono funzioni differenziabili.

È interessante osservare che possiamo riscrivere le relazioni sopra (raccogliendo componenti x basi) come:
ei=(∂xjej)/∂xi=r/∂xi   ,   ei=(∂xjej)/∂xi=∂r/∂xi
dove si è posto r=∂xjej=xjej e quindi il differenziale dr del raggio vettore r si può scrivere, nei due riferimenti, come basi x componenti:
dr=(∂r/∂xj)dxj =ejdxj   oppure   dr=(∂r/∂xj)dxj=ejdxj.
Nota: dr è un vettore e quindi deve restare invariato nei due riferimenti.

Ricordiamo inoltre che in generale un vettore T si può definire in funzione delle sue basi ei e delle sue componenti Ti:
T=T1e1+...+Tnen=Tiei
dove abbiamo applicato la notazione di Einstein sugli indici i=1,..., n.

Abbiamo ricordato sopra che se cambiamo riferimento le basi cambiano come ej=(∂xi/∂xj)ei quindi se vogliamo che il vettore T=Tjej resti invariato anche le sue componenti Tj dovranno trasformarsi (in modo inverso):
Tj=(∂xj/∂xi)Ti
in modo cioè che nel nuovo riferimento il vettore T resti invariato:
T=Tjej=(∂xj/∂xi)Ti(∂xi/∂xj)ei=Tiei=T
essendo (∂xj/∂xi)(xi/xj)=1.
Nota: dal differenziale dxj=(∂xj/∂xi)dxi segue dxj/dxj=(∂xj/∂xi)(xi/xj)=1.

Calcoliamo ora la derivata del vettore T=Tiei lungo una coordinata xj qualsiasi, questa sarà definita (come derivata di una funzione prodotto):
∂T/∂xj=∂(Tiei )/∂xj=(∂Ti/∂xj)ei+Ti(∂ei/∂xj)
dove il termine ∂ei/∂xj tiene conto della possibile variazione delle basi ei rispetto alle coordinate xj: questa derivata è detta derivata covariante e in pratica estende il concetto usuale di derivata direzionale.
Nota: si dice derivata covariante perché preserva il carattere di invarianza rispetto alla trasformazione di coordinate (vedi il relativo post).

Si osservi che se le coordinate sono cartesiane, allora le basi non variano in funzione delle coordinate (cioè mantengono sempre stesso modulo e direzione in ogni punto e quindi ∂ei/∂xj=0); in tal caso la derivata si riduce alla classica derivata direzionale (calcolata cioè lungo l'asse coordinato xj):
∂T/∂xj=(∂Ti/∂xj)ei
dove ricordiamo T è un vettore n-dimensionale (con i,j=1,..., n).

Tuttavia nel caso più generale di coordinate curvilinee il modulo e la direzione delle basi può variare da punto a punto e quindi il termine ∂ei/∂xj è generalmente diverso da zero*.

Vediamo quindi un esempio riprendendo le coordinate curve polari (r,θ) introdotte nel precedente post e le relative basi (er,eθ) ottenute in funzione delle coordinate cartesiane (ex,ey):
er=cosθex+sinθey
eθ=-rsinθex+rcosθey.
ricordando che il vettore T si esprime come (con i=r,θ):
T=Tiei=Trer+Tθeθ.

In questo caso particolare i valori dei termini ∂ei/∂xj espressi in funzione di ereθ sono (con i,j=r,θ):
er/∂r=∂(cosθex+sinθey)/∂r=0
er/∂θ=-sinθex+cosθey=(1/r)eθ
eθ/∂r=-sinθex+cosθey=(1/r)eθ
eθ/∂θ=-rcosθex-rsinθey=-rer
dove notiamo che er/∂θ=eθ/∂r e infatti in generale risulta:
∂ei/∂xj=∂ej/∂xi.
Nota: ciò accade in generale quando le derivate seconde incrociate sono uguali**, per le funzioni lisce questa condizione è sempre soddisfatta.

Perciò le derivate rispetto ad r e θ del vettore T sono (con i=r,θ):
∂T/∂r=∂(Tiei )/∂r=(∂Ti/∂r)ei+Tr(∂er/∂r)+Tθ(∂eθ/∂r)
∂T/∂θ=∂(Tiei )/∂θ=(∂Ti/∂θ)ei+Tr(∂er/∂θ)+Tθ(∂eθ/∂θ)
e quindi sostituendo i valori delle derivate delle basi ottenuti sopra:
∂T/∂r=(∂Ti/∂r)ei+(1/r)Tθeθ
∂T/∂θ=(∂Ti/∂θ)ei+(1/r)Treθ-rTθer.

Si osservi in particolare che se supponiamo che le componenti di T lungo r e θ non variano (cioè se ∂Ti/∂r=0 e ∂Ti/∂θ=0) si ottiene:
∂T/∂r=(1/r)Tθeθ
∂T/∂θ=(1/r)Treθ-rTθer
in questo caso si ha cioè il contributo dovuto alla sola variazione delle basi.
Nota: è evidente che il punto r=0 deve essere escluso, infatti qui le coordinate non sono invertibili come richiesto***.

Se infine vogliamo che T venga trasportato parallelamente rispetto alla superficie curva, dovremo annullare la derivata covariante ponendo:
∂T/∂r=0   e   ∂T/∂θ=0
cioè dovremo annullare i valori delle componenti delle derivate parziali ottenuti sopra, rispettivamente lungo er ed eθ.
 
(*) Solitamente nella derivata covariante per indicare i termini (∂ei/∂xj) si usano i simboli di Christoffel del secondo tipo così definiti: Γkij=(∂ei/∂xj)ek. Perciò ∂T/∂xj=(∂Ti/∂xj)ei+TiΓkijek=(∂Ti/∂xj+TkΓikj)ei (scambiando k con i).
(**) Dalle seguenti relazioni tra basi (vedi il precedente post):
er=(∂x/r)ex+(y/r)ey e eθ=(∂x/θ)ex+(y/θ)ey si ottiene derivando
er/θ=(∂x/rθ)ex+(y/rθ)ey e eθ/r=(∂x/θr)ex+(y/θr)ey
da cui si ha: er/θ=eθ/r se ∂x/rθ=∂x/θr e y/rθ=y/θr (cvd).
(***) Condizione generale affinché le coordinate siano invertibili è che il determinante della matrice Jacobiana non si annulli.

[Una ottima esposizione di questi concetti si trova nella Playlist Video di Dermot Green - Queen's University Belfast]

Base locale e derivata covariante (prima parte)

Come è noto un sistema di riferimento cartesiano è formato da n rette ortogonali che si intersecano in un punto O detto origine, ognuna delle rette è orientata e riporta una unità di misura: in questo modo è possibile identificare qualsiasi punto dello spazio euclideo Rn con una n-upla di numeri reali (x1, x2,..., xn) in modo univoco (vedi Wikipedia).

Generalizzando è possibile costruire geometricamente, a partire da un sistema di riferimento cartesiano, un altro riferimento qualsiasi detto curvilineo, che avrà lo stesso numero di coordinate ma nel quale le linee coordinate sono generalmente delle curve (vedi Wikipedia).

Ad esempio, come avevamo già visto nel post "Trasformazioni di basi, vettori e... co-vettori!", consideriamo un sistema di coordinate cartesiano bidimensionale (x1,x2) e un nuovo sistema di coordinate curvilinee (x1,x2) che sono note in funzione delle prime*:
x1=x1(x1,x2)   ,   x2=x2(x1,x2)
e dove vale anche la trasformazione inversa:
x1=x1(x1,x2)   ,   x2=x2(x1,x2)
ed inoltre tali funzioni sono per definizione differenziabili (funzioni lisce).
Nota: le coordinate devono essere indipendenti e quindi ∂xi/∂xj=δij cioè ∂xi/∂xj=0 se i≠j e ∂xi/∂xj=1 solo se i=j (δij è la delta di Kronecker). 

Consideriamo ad esempio il riferimento cartesiano rappresentato in figura dove è indicata la retta x1 e il relativo vettore di base unitario e1 con origine nel punto O da cui parte una linea curva coordinata x1 con vettore di base unitario e1 ad essa tangente come illustrato in figura:


Ora si osservi che tra il tratto infinitesimo dx1 della retta x1 e il tratto infinitesimo dx1 tangente alla linea curva x1 (che quindi approssima la linea in quel punto) esiste la seguente relazione trigonometrica:
dx1=dx1cosα
e quindi la proiezione del vettore di base e1 sulla retta x1 è pari a
|e1|cosα=|e1|(dx1/dx1)
dove |e1|=1 è il modulo unitario di e1 mentre α è l'angolo tra dx1 e dx1.
In modo equivalente la proiezione del vettore di base e1 sulla retta x2 è:
|e1|sinα=|e1|(dx2/dx1)
valendo di nuovo la relazione trigonometrica:
dx2=dx1sinα.

Perciò la nuova base locale e1 espressa in funzione delle basi cartesiane e1 ed e2 (che ricordiamo sono per semplicità tutti vettori di modulo 1) è:
e1=(|e1|cosα)e1+(|e1|sinα)e2
e quindi utilizzando le relazioni ricavate sopra
e1=(∂x1/x1)e1+(x2/x1)e2
avendo posto |e1|=|e2|=1 e ∂x1/∂x1=cosα , ∂x2/∂x1=sinα.
Nota: abbiamo indicato le derivate parziali dato che le coordinate sono funzioni di più variabili.

Si osservi che dal rapporto trigonometrico di due infinitesimi come dx1/dx1dx2/dx1 siamo passati alle derivate parziali ∂x1/x1x2/x1 supponendo in particolare che la variazione di x1 rispetto a x1 e quella di x2 sempre rispetto a x1 siano rispettivamente pari a cosαsinα.
Nota: ciò è vero poiché x1 approssima (nell'origine) la coordinata di un riferimento ruotato di un angolo α rispetto a quello cartesiano (x1, x2)**.

In modo analogo per la base e2 si ha (anche se non è mostrato in figura):
e2=(∂x1/x2)e1+(x2/x2)e2
dove ricordiamo che le basi sono state tutte normalizzate:
|e1|=|e2|=1   e   |e1|=|e2|=1.
Nota: per costruzione geometrica le basi (e1,e2) sono tangenti alle linee coordinate (x1,x2) e ciò vale in generale per più coordinate.

Se viceversa volessimo derivare le basi cartesiane e1 e e2 a partire da quelle curvilinee e1 e e2 un ragionamento analogo ci porterebbe ad ottenere:
e1=(∂x1/x1)e1+(x2/x1)e2
e2=(∂x1/x2)e1+(x2/x2)e2.
che rappresentano le relazioni inverse di quelle prima ottenute.

Quindi riscrivendo quanto abbiamo ottenuto sopra in forma più generale (applicando la notazione di Einstein sugli indici ripetuti) si ha:
ei=(∂xj/∂xi)ej   ,   ei=(∂xj/∂xi)ej
dove gli indici i,j=1,..., n indicano il numero di coordinate e le relative basi.
Nota: si osservi che gli elementi (∂xj/∂xi) e (∂xj/∂xi) definiscono rispettivamente la matrice jacobiana e la sua inversa.

Ma facciamo subito un esempio introducendo le coordinate curvilinee (r,θ) (ponendo cioè x1=r e x2) dove r≥0 è la distanza dall'origine (polo) mentre 0≤θ≤2π è l'angolo tra r e l'asse X (coordinate polari).

Per calcolare le nuove basi e1=er e e2=eθ è utile definire le coordinate cartesiane (x,y) in funzione delle nuove coordinate (r,θ):
x(r,θ)=rcosθ  ,   y(r,θ)=rsinθ.

Possiamo quindi ottenere le nuove basi er e eθ utilizzando le equazioni alle derivate parziali ottenute sopra (dove x1=r e x2):
er=(∂x/r)ex+(y/r)ey
eθ=(∂x/θ)ex+(y/θ)ey.
Perciò le basi del nuovo riferimento curvilineo di coordinate (r,θ) espresse in funzione delle basi cartesiane note ex ed ey sono:
er=cosθex+sinθey
eθ=-rsinθex+rcosθey
ed inoltre essendo perpendicolari il loro prodotto scalare è nullo:
<er,eθ>=-rcosθsinθ+rsinθcosθ=0.
Nota: la base eθ non è unitaria poiché risulta |eθ|=r tuttavia possiamo porre come base unitaria θ=-sinθex+cosθey e quindi eθ=rθ.

È importante osservare che le basi er e eθ dipendono dalle coordinate (r,θ) come in effetti capita generalmente per le basi curvilinee: viceversa le basi cartesiane ex ed ey sono sempre le stesse in ogni punto dello spazio.

Come vedremo nel prossimo post le relazioni ricavate sopra saranno utili per definire la trasformazione di un vettore affinché resti invariato quando passa da un riferimento ad un altro e definiremo la sua derivata covariante.

(*) Ricordiamo che gli apici indicano entità che si trasformano in modo controvariante (come le componenti di un vettore) mentre i pedici indicano entità che si trasformano in modo covariante (come ad esempio le relative basi) come descritto in "Trasformazioni di basi, vettori e... co-vettori!".
(**) In due dimensioni la trasformazione delle coordinate per una rotazione degli assi è: x1=x1cosα-x2sinαx2=x1sinα+x2cosα da cui segue subito ∂x1/∂x1=cosα , ∂x2/∂x1=sinα come già derivato sopra.

[Una ottima esposizione di questi concetti si trova nella Playlist Video di Dermot Green - Queen's University Belfast]

mercoledì 8 marzo 2023

La Sfera di Bloch

È noto che lo stato quantistico di un qubit (quantum bit) è così definito:
|Ψ>=α|0>+β|1>
dove α e β sono numeri complessi che devono soddisfare la condizione:
|α|2+|β|2=1
per la normalizzazione a 1 della probabilità complessiva P=|α|2+|β|2.
Nota: ricordiamo che |α|2 e |β|2 rappresentano rispettivamente la probabilità che si verifichi lo stato |0> oppure |1>.

Ricordiamo innanzitutto che valendo la formula di Eulero e=cosø+isinø, in generale per un numero complesso x+iy si può scrivere:
x+iy=r(cosø+isinø)=re
dove r=(x2+y2)1/2 è il modulo e ø=arctan(y/x) è l'angolo tra r e la sua proiezione sull'asse X (pari a rcosø).
Inoltre ricordiamo che:
|x+iy|2=|re|2=r2(ee-iø)=r2
poiché |e|2=(ee-iø)=1 essendo e-iø il complesso coniugato di e.
Nota: è noto che il modulo al quadrato di un numero complesso è dato dal prodotto di quel numero per il suo coniugato.

Quindi possiamo porre nel nostro caso per i coefficienti complessi α e β:
α=r1e1   e   β=r2eiø2
dove ø1 e ø2 sono due angoli qualsiasi compresi tra 0 e .
Se inoltre poniamo r1=rcosθ e r2=rsinθ con r=1 si ha come richiesto:
|α|2+|β|2=|r1e1|2+|r2e2|2=cosθ2+sinθ2=1
poiché |e1|2=|e2|2=1 come visto sopra.

Quindi per lo stato di un qubit vale la seguente relazione:
|Ψ>=α|0>+β|1>=cosθ(e1)|0>+sinθ(e2)|1>
definita in funzione degli angoli θ, ø1 e ø2 di cui daremo di seguito una rappresentazione geometrica.

Si osservi però che moltiplicando lo stato |Ψ> per e-iø1 si ottiene un nuovo stato |Ψ'>=e-iø1|Ψ>:
|Ψ'>=e-iø1|Ψ>=e-iø1(α|0>+β|1>)=cosθ|0>+sinθ(e)|1>
dove ø=ø2-ø1.
Tuttavia la probabilità degli stati |0> e |1> resta invariata infatti:
|e-iø1α|2=(e-iø1α)(e-iø1α)*=(e-iø1e1)(αα*)=|α|2
e lo stesso vale per |e-iø1β|2=|β|2.
Nota: qui il simbolo (*) indica il valore coniugato del numero complesso.

Perciò possiamo omettere il termine e-iø1 dallo stato |Ψ'> poiché non ha effetti osservabili sperimentalmente e possiamo riscrivere:
|Ψ'> => |Ψ>=cosθ|0>+sinθ(e)|1>.

Infine per evidenziare una rappresentazione geometrica definiamo lo stato |Ψ> in funzione delle variabili x, iy e z ponendo:
cosθ=z
sinθ(e)=sinθcosø+isinθsinø=x+iy
o in modo equivalente
x=sinθcosø
y=sinθsinø
z=cosθ.

Ciò significa che se x, y e z vengono interpretate come coordinate, esse rappresentano le coordinate polari di una sfera di raggio unitario* |Ψ|=1:


Perciò lo stato |Ψ> in funzione delle coordinate x, iy e z diventa:
|Ψ>=cosθ|0>+sinθ(e)|1>=z|0>+(x+iy)|1>
quindi le coordinate di |Ψ> al quadrato, cioè z2 e |(x+iy)|2, rappresentano rispettivamente la probabilità che si verifichi lo stato |0> oppure |1>.
Nota: si ricordi che in generale |(x+iy)|2=(x+iy)(x-iy)=x2+y2.

Si noti però che quando θ=0 risulta |Ψ>=|0> mentre se θ=π/2 si ha** |Ψ>=|1> quindi per una descrizione completa della sfera possiamo porre:
|Ψ>=cos(θ/2)|0>+sin(θ/2)(e)|1>
dove 0≤θ≤π e 0≤ø<2π.
Questa rappresentazione geometrica*** dello spazio degli stati puri di un sistema quantistico a 2 stati è detta sfera di Bloch (vedi Wikipedia).

(*) Risulta |Ψ|2=<Ψ|Ψ>=(<0|α*+<1|β*)|(α|0>+β|1>)=α*α+β*β=1 essendo <0|0>=1, <0|1>=0, <1|0>=0 e <1|1>=1 per l'ortogonalità di |0> e |1>.
(**) Se poniamo θ=π/2 allora |Ψ>=e|1> che è equivalente a |Ψ>=|1> essendo |e|2 =1 (cioè la probabilità dello stato |1> non cambia).
(***)  Correttamente risulta per le probabilità dei due stati:
|cos(θ/2)|2+|sin(θ/2)(e)|2=cos2(θ/2)+sin2(θ/2)=1 essendo |e|2 =1.  

martedì 23 marzo 2021

Perché un modello esteso dell'elettrone?

È noto che nel Modello Standard le particelle elementari vengono considerate a tutti gli effetti come puntiformi, tuttavia ciò porta a valori infiniti per alcune quantità che le caratterizzano, legate alle mutue interazioni tra particelle e campi.
Nota: con l'aggettivo puntiforme si intende una particella elementare priva di qualsiasi struttura interna.

Vediamo infatti come si definisce l'energia di una particella carica di massa a riposo m nella teoria classica (relativistica), considerando l'energia del campo elettrostatico da essa generato oltre alla sua energia di massa (vedi Wikipedia):
mc2=m0c2+(1/2) ε0E2dV     (1.1)
dove m0 è la massa nuda della particella priva di campo elettrico* mentre E=F/e=e/4πε0R2 è il campo elettrico a distanza R dalla particella, F è la forza di Coulomb ed ε0 è la permittività elettrica del vuoto.
Nota: in tutti i post useremo, anche se non dichiarate, le unità di misura del sistema metrico internazionale SI.

Se, ad esempio, integriamo tra il raggio r ipotetico di un elettrone e il volume V=(4/3)πR3 che lo circonda all'infinito si ha:
(1/2) ε0E24πR2dR=(1/2) (e2/4πε0R2)dR     (1.2)
posto dV=4πR2dR ed essendo E=e/4πε0R2.
Quindi calcolando l'integrale tra il raggio r ed infinito si ottiene:
-(e2/8πε0R)|r=e2/8πε0r     (1.3)
per cui l'energia complessiva dell'elettrone con il suo campo è (secondo la eq.1.1):
mc2=m0c2+e2/8πε0r     (1.4)
ciò significa che se l'elettrone è puntiforme (cioè r -> 0) allora la sua energia mc2 tende come anticipato ad infinito!

Nelle teorie di campo quantistiche l'approccio è più complesso di quanto esposto qui, tuttavia si devono comunque usare procedure matematiche di rinormalizzazione per eliminare le divergenze che insorgono nei calcoli, come ad esempio quello che determina l'anomalia magnetica dell'elettrone.

Nei prossimi post mostreremo come sia possibile definire, secondo una proposta dell'autore, un modello esteso dell'elettrone dove tutte le quantità che lo definiscono sono finite.
 
Dovremo però tenere conto, nello sviluppo del modello e.m. esteso,  che le attuali misure sperimentali indicano una dimensione della carica elettrica non superiore a circa 10-19 metri, che è la migliore risoluzione degli odierni acceleratori di particelle (tale risoluzione è dell'ordine della lunghezza d'onda λ delle particelle-sonda)**. 
Nota: come vedremo in un Blog dedicato la carica elettrica del modello esteso è assunta come puntiforme mentre è la massa ad essere distribuita in modo esteso sulla superficie del modello.

(*) La massa nuda m0 è un parametro libero della teoria che non è possibile misurare direttamente: non possiamo in effetti separare una particella carica dal campo elettrico che essa stessa genera.
(**) Dato che le particelle circolano negli acceleratori a velocità v prossime a c si ha E=hc2/λv≈hc/λ da cui λhc/E e per E=14 TeV (energia massima oggi raggiungibile) si ha λ10-19 m (si ricordi che 1 eV1,6x10-19 Joule).
[Ricordiamo che per una particella di massa m si ha E=mc2 e p=mv da cui p=Ev/c2 ed essendo p=h/λ segue E=hc2/λv]

ATTENZIONE
Per il seguito di questo post vedi il Blog: Electron Extended Model dove verrà proposto dall'autore un modello dell'elettrone non puntiforme.

INDICE DEI POST

giovedì 4 giugno 2020

I Teoremi di Gödel, l'IA e... un'ipotesi di lavoro! (seconda parte)

Nel post precedente (a cui rimandiamo) abbiamo introdotto i Teoremi di incompletezza di Gödel con l'obiettivo di mostrare poi (cioè in questo post) come essi ci pongano davanti ad una disgiunzione: o la mente umana è equivalente ad una macchina di Turing per quanto complessa oppure siamo in presenza di un fenomeno completamente nuovo, mai studiato prima.
Nota: vedi anche l'articolo "La disgiunzione di Gödel" di F. Beccuti.

Introduciamo quindi quella che è stata definita Macchina di Turing: in pratica questo termine indica uno qualsiasi degli attuali computer poiché essi sono realizzazioni fisiche di questa macchina ideale e universale in grado di eseguire qualsiasi algoritmo si possa formalizzare.

Come è noto si è dimostrata la perfetta equivalenza tra ogni sistema formale S e la macchina ideale di Turing: cioè è possibile programmare un computer che produca tutti e soli i teoremi di un dato sistema S e, viceversa, qualsiasi programmazione di un computer che produce formule, può essere rappresentata da un sistema formale S che derivi gli stessi risultati.

Quindi la scommessa dell'intelligenza artificiale è proprio quella di supporre che l'insieme delle capacità cognitive del nostro cervello, in particolare il processo del pensiero razionale, possa essere completamente riprodotto ed espresso da un programma evoluto per computer.

L'obiezione più nota a questo programma di ricerca è quella del filosofo Lucas nel celebre articolo "Menti, Macchine e Gödel" (del 1961):
"Data qualsiasi macchina che sia coerente e capace di fare semplice aritmetica, c'è una formula che essa è incapace di produrre come vera - cioè la formula è indimostrabile nel sistema - tuttavia noi la possiamo vedere come vera. Perciò nessuna macchina può essere un modello completo o adeguato della mente, le menti sono essenzialmente differenti dalle macchine"*.

Questa tesi segue proprio dall'argomento di incompletezza di Gödel, in particolare dal primo teorema (vedi il precedente post), ed è confermata dal Teorema di indefinibilità di Tarski (del 1936) che afferma che non è possibile definire la nozione di verità all'interno di un sistema formale.
Nota: si può definire la nozione di verità solo facendo una meta-analisi al di fuori del sistema, ad esempio usando la logica del secondo ordine.

Quindi sembrerebbe stabilita la tesi di Lucas secondo cui le nostre capacità cognitive, in particolare quelle che determinano il pensiero razionale, sono di certo superiori a quelle di una qualsiasi macchina o computer.

Tuttavia dobbiamo ricordare che il teorema di Gödel fa in effetti una affermazione che è del tutto condizionale:
"Se S è coerente allora G non è dimostrabile".
Ma la nostra mente è veramente in grado di riconoscere se un qualunque sistema formale è coerente dato che questa proprietà non può essere provata all'interno di un qualsiasi sistema?
Nota: se S non è coerente si può dimostrare G (ma anche non-G) quindi la mente potrebbe essere un sistema incoerente e dimostrare che G è vera.

Inoltre ciò dovrebbe valere per qualsiasi sitema formale (come ad esempio sistemi più complessi che includono gli assiomi dell'infinito), perciò non è detto che la mente umana riesca sempre a riconoscere che un sistema è coerente.
Nota: la mente umana potrebbe essere un sistema coerente che non può dimostrare G (e quindi è incompleta) ma che non sa di essere coerente.

Lo stesso Gödel, che non era proprio un meccanicista, affermò nella Gibbs Lecture (del 1951), che potrebbe essere che "la mente umana (nel regno della matematica pura) [...] sia dunque equivalente ad una macchina finita che è incapace di comprendere interamente il suo funzionamento".

In definitiva, chi si occupa di intelligenza artificiale o di processi cognitivi e apprendimento, è costretto a fare una ben definita scelta o ipotesi di lavoro:
a) la mente umana non è riducibile ad una macchina di Turing che computa, quindi dobbiamo studiare le sue capacità cognitive in modo del tutto nuovo, poiché non possiamo trattarla come se fosse un oggetto computazionale**;
oppure
b) il nostro cervello funziona come un computer per quanto evoluto, tuttavia se la nostra mente è coerente, siamo costretti ad accettare che ci siano dei problemi irresolubili, come ad esempio dimostrare la sua coerenza***.
Nota: per approfondire l'interessante tema mente-cervello vedi l'ottimo articolo di Paul e Patricia Churchland "Il problema mente-cervello".

(*) Per completare il sistema S potremmo aggiungere G come assioma, si otterrebbe però un sistema S' in cui c'è una nuova formula G' indecidibile e così via, senza risolvere il problema.
(**) Qui il punto è proprio quello di voler attribuire alla mente un carattere diverso da quello computazionale (e non tanto la sua eventuale somiglianza ad un computer che è solo un modello interpretativo).
(***) Se la mente segue le leggi della fisica può senz'altro essere simulata computazionalmente; in questo contesto cervello e mente sono elementi complementari: la mente (software) è una funzione del cervello (hardware).

(Per chiarimenti su questo post vedi l'ottimo video di Francesco Berto)

martedì 2 giugno 2020

I Teoremi di Gödel, l'IA e... un'ipotesi di lavoro! (prima parte)

In questo e nel prossimo post vogliamo mostrare come i due Teoremi di incompletezza di Gödel (del 1931), sebbene non vietino in alcun modo che l'intelligenza artificiale si possa realizzare (nel senso di seguito specificato), ci impongono tuttavia di operare una scelta, o meglio un'ipotesi di lavoro.

Qui con il termine Intelligenza Artificiale (IA) intendiamo un suo aspetto peculiare, secondo cui un sistema meccanico che computa potrebbe pensare in modo umano; in effetti se si suppone che la mente umana non è altro che una macchina computazionale, la tesi dell'IA ne discende direttamente.

Quindi l'IA suppone che pensare è computare e in particolare si pone l'obiettivo di realizzare una macchina che possa pensare umanamente, in modo cioè che "il processo che porta il sistema intelligente a risolvere un problema ricalchi quello umano" (vedi Wkipedia).

Tuttavia prima di introdurre i teoremi di incompletezza, dobbiamo definire cosa si intende con sistema formale (vedi Wkipedia):
"In logica matematica la nozione di sistema formale è utilizzata per fornire una definizione rigorosa del concetto di dimostrazione"; in pratica un sistema formale è un insieme di regole per costruire dimostrazioni.
Nota: si suppone che il sistema sia corretto, cioè se gli assiomi sono veri i teoremi che si deducono con le regole di inferenza sono anch'essi veri.

In breve il problema che Gödel riesce ad esprimere in modo formale nei suoi teoremi è quello dell'autoreferenza (vedi Wikipedia) che si presenta quando una proposizione fa una affermazione su se stessa in modo circolare; un problema già noto agli antichi greci come il Paradosso del mentitore.

Si consideri quindi un sistema formale S, evoluto almeno quanto quello piuttosto semplice dell'aritmetica di Peano; Gödel riesce a formalizzare all'interno del sistema S la seguente frase G che afferma (di se stessa):
(G): G non è dimostrabile in S.
Nota: grazie alla fattorizzazione in numeri primi è possibile assegnare ad una qualsiasi frase formale un numero univoco detto numero di Gödel.

Ora se si suppone che S sia un sistema formale corretto e quindi prova solo cose vere, allora G non è dimostrabile, dunque G è vera: ma allora esiste una verità G che il sistema S non può dimostrare!
Nota: se G fosse dimostrabile allora G (che dice di non essere dimostrabile) sarebbe falsa e quindi S non sarebbe corretto perché dimostra una falsità.

Inoltre se G è vera la sua negazione non-G è falsa (per definizione di negazione), ma allora il sistema S (che prova solo cose vere) non può provare nemmeno non-G: dunque l'enunciato G è indecidibile* in S!

-> Enunciamo quindi il primo teorema di Gödel (vedi Wikipedia):
In ogni teoria matematica S sufficientemente espressiva da contenere l'aritmetica, esiste una formula G tale che, se S è coerente**, allora né G né la sua negazione non-G sono dimostrabili in S.
Nota: con coerente si intende che S non è contraddittorio, d'altra parte se il sistema è corretto è anche coerente (non dimostrando falsità).

Si ricordi che se un sistema è incoerente si può dimostrare una certa proposizione P e la sua negazione non-P ma se così fosse qualsiasi proposizione potrebbe essere dimostrata vera (vedi Wikipedia): sarebbe quindi opportuno riuscire a dimostrare in modo certo la coerenza di S.

Tuttavia Gödel riuscì a mostrare formalmente che il seguente enunciato:
"Se S è coerente allora ciò implica G" 
si può dimostrare in S. Ma allora S non può dimostrare la sua coerenza altrimenti G sarebbe dimostrabile, e ciò è escluso dal primo teorema.

-> Ecco quindi il secondo teorema di Gödel (vedi Wikipedia): 
Sia S una teoria matematica sufficientemente espressiva da contenere l'aritmetica: se S è coerente, non è possibile provare la coerenza di S all'interno di S.
Nota: la coerenza dell'aritmetica fu poi dimostrata nel 1936 in ambito metamatematico da Gerhard Gentzen grazie agli ordinali transfiniti.

Nel prossimo post mostreremo come le argomentazioni espresse nei teoremi di Gödel non siano conclusive sulla possibile realizzazione dell'IA come sopra specificato, ma ci impongano una scelta ben precisa nell'approccio alla comprensione delle nostre capacità cognitive e quindi della nostra mente.

(*) Il risultato è notevole: si dimostra l'indecibilità di una formula G nel sistema S alla quale è tra l'altro collegata la coerenza di S (vedi oltre).
(**) In realtà Gödel richiese la w-coerenza di S che è più forte della sola coerenza, ma poi Rosser dimostrò che non era necessaria.

(Per chiarimenti su questo post vedi l'ottimo video di Francesco Berto)

lunedì 23 marzo 2020

Stati misti, intrecciati e...

Come anticipato nel post "Stati puri, miscele e sovrapposizioni!", ora analizziamo un sistema composto da due elettroni e verifichiamo se si tratta di uno stato di spin puro o misto grazie alla matrice densità prima definita*. 

Consideriamo ad esempio un sistema composto da due elettroni preparati separatamente nei seguenti stati di spin (dove u e d sta per up e down):
|Ψ>=ψu|u>+ψd|d>   e   |Φ>=φu|u>+φd|d>.
Lo stato prodotto che descrive il sistema combinato è:
|ΨΦ>=(ψu|u>+ψd|d>)⊗(φu|u>+φd|d>)
quindi sviluppando il prodotto tensoriale indicato con si ottiene:
|ΨΦ>=ψuφu|uu>+ψuφd|ud>+ψdφu|du>+ψdφd|dd>.
con le condizioni di normalizzazione:
ψuψu+ψdψd=1   e   φuφudφd=1.
Nota: ψu è il complesso coniugato di ψu e lo stesso vale per gli altri valori.

Tuttavia si osservi che in generale un sistema composto da due elettroni è descritto dal seguente stato di spin:
|Ψ>=ψuu|uu>+ψud|ud>du|du>dd|dd>
che non è sempre rappresentabile da uno stato prodotto (vedi sopra) e per il quale vale la condizione di normalizzazione:
ψuuψuu+ψudψudduψduddψdd=1.
Nota: questo stato combinato è detto stato entangled (o intrecciato) proprio perché non può essere fattorizzato in due stati separati.

Ad esempio consideriamo una coppia di elettroni, preparata con spin opposti, il cui stato combinato non fattorizzabile è:
|Ψ>=(1/2)1/2|ud>+(1/2)1/2|du>
dove la somma degli stati |ud> e |du> rappresenta due coppie di elettroni con spin opposti in sovrapposizione quantistica, mentre il fattore (1/2)1/2 indica che la misura di uno dei due stati è equiprobabile poiché:
ψudψudduψdu=1/2.
Nota: possiamo ad esempio pensare al caso descritto nell'esperimento EPR (per chiarimenti vedi il post "Un esperimento chiave: EPR").

Calcoliamo quindi la matrice densità, già introdotta nel post "Stati puri, miscele e sovrapposizioni!", che è così definita:
ρ=|Ψ><Ψ|=(1/2)(|ud>+|du>)(<ud|+<du|)
dalla quale svolgendo il prodotto si ottiene:
ρ=(1/2)(|ud><ud|+|ud><du|+|du><ud|+|du><du|).

Premesso che indicheremo i vettori colonna come vettori riga trasposti, scegliamo due vettori di base: |u>=(1,0)T e |d>=(0,1)T (dove T indica la matrice trasposta)** e sviluppiamo i prodotti tensoriali:
|ud>=(1,0)T⊗(0,1)T=(0,1,0,0)T   ,   |du>=(0,1)T⊗(1,0)T=(0,0,1,0)T
 <ud|=(1,0)⊗(0,1)=(0,1,0,0)   ,   <du|=(0,1)⊗(1,0)=(0,0,1,0).

Quindi, svolgendo i prodotti sopra definiti, si ottiene la matrice [4x4]:
Infatti come già visto nel precedente post, gli elementi di ρ sono i prodotti delle ampiezze di probabilità per i coniugati; in particolare nel nostro caso risulta:
ψudψududψduduψudduψdu=1/2 

mentre gli altri elementi di ρ sono tutti nulli (per come è stato definito lo stato |Ψ>=ψud|ud>+ψdu|du> con ψuddu=(1/2)1/2).

A questo punto possiamo verificare facilmente la relazione ρ=ρ2 (basta moltiplicare la matrice ρ per se stessa); ciò significa che siamo in presenza di uno stato puro quindi la conoscenza del sistema combinato è completa***.
Nota: il sistema è stato preparato in uno stato definito di spin perciò è puro, inoltre ciò implica una forte correlazione tra gli spin delle due particelle (poiché se un elettrone è misurato up l'altro è down e viceversa).

Tuttavia la matrice densità ρ riguarda tutto il sistema combinato mentre noi vorremmo descrivere lo stato di ogni singolo elettrone (chiamiamoli A e B).

A questo scopo introduciamo la matrice densità ridotta che permette di studiare uno dei due sottosistemi (supponiamo A) ed è così definita:

ρA=∑<i|ρ|i>=TrBρ
rispetto ad una base di vettori |i> del sistema B.
Nota: TrB è l'operatore traccia parziale sulla base di B; in modo equivalente si ha ρB=TrAρ. Inoltre se |Ψ> è uno stato prodotto risulta ρ=ρAρB.

Perciò nel caso considerato possiamo calcolare la matrice ridotta dello stato di spin dell'elettrone A (oppure di quello B) e risulta:
ρA=1/2(|u><u|+|d><d|)=1/2(1,0)T(1,0)+1/2(0,1)T(0,1)=(1/2)I
dove con I abbiamo indicato la matrice identità; da ciò si deduce subito che ρAρA2 cioè siamo in presenza di uno stato composto(!)
Nota: I è una matrice diagonale con tutti gli elementi pari a 1 perciò I2=I.

Ciò significa che gli stati dell'elettrone A (oppure di quello B) non sono in sovrapposizione quantistica, l'incertezza sullo spin è in realtà dovuta alla non completa conoscenza dello stato del sottosistema-elettrone e la probabilità statistica che lo spin sia up oppure down è pari a 1/2.
Nota: a differenza della meccanica classica però, nemmeno in linea di principio si può definire lo stato del sistema A (o B) prima della misura.

È interessante osservare che il famoso Paradosso del gatto di Schrödinger può essere trattato come lo stato entangled che abbiamo ora considerato; ciò significa che anche in questo caso non si ha sovrapposizione di due stati distinti (gatto vivo e gatto morto) poiché il sottosistema "gatto" si trova in uno stato misto di tipo statistico e non è in sovrapposizione quantistica.

(*) Nel precedente post abbiamo definito, per uno stato puro, la matrice densità ρ=|Ψ><Ψ| per la quale risulta ρ2=|Ψ><Ψ|Ψ><Ψ|=ρ; invece per uno stato misto si pone ρ=∑pi|Ψi><Ψi| dove pi è la probabilità che il sistema si trovi nello stato i-esimo e in questo caso risulta ρ≠ρ2.
(**) Si osservi che i vettori di base scelti soddisfano correttamente le condizioni di ortonormalità: <u|u>=<d|d>=1 e <u|d>=<d|u>=0.
(***) Le teorie a variabili nascoste affermano invece che la conoscenza quantistica del sistema composto non è completa proprio perché lo stato dei singoli sottositemi non è definito con certezza.