Compilatore

Disambiguazione – Se stai cercando l'omonima professione editoriale, vedi Curatore editoriale.

Schema che illustra il funzionamento di un compilatore ideale.

Un compilatore, in informatica, è un programma che traduce una serie di istruzioni scritte in un determinato linguaggio di programmazione (codice sorgente) in istruzioni di un altro linguaggio (codice oggetto). Questo processo di traduzione si chiama compilazione.

L'attività inversa, passare dal codice oggetto al codice sorgente è chiamata decompilazione ed è effettuata per mezzo di un decompilatore.

Se tutti i compilatori aderiscono esattamente alla specifica del linguaggio, lo stesso programma potrà essere compilato senza modifiche da ciascun compilatore, producendo risultati semanticamente uguali, ovvero programmi che producono lo stesso risultato se sottoposti agli stessi dati di ingresso. Nella realtà, molti compilatori implementano il linguaggio in modo incompleto, o aggiungono estensioni proprietarie, creando in effetti dei dialetti di ciascun linguaggio. Per i linguaggi che adottano uno standard nella decorazione dei simboli, il codice oggetto generato da compilatori differenti può essere collegato assieme in un unico eseguibile.

Cenni storici[modifica | modifica wikitesto]

Negli anni 50 sono stati sviluppati diversi compilatori sperimentali (vedi ad esempio, i primi lavori di Grace Hopper sul linguaggio A-0), ma nel 1957 il team Fortran presso l'IBM, guidato da John Backus, fu accreditato come primo inventore di un compilatore completo. Il COBOL fu uno dei primi linguaggi nel 1960 ad essere compilato su più architetture.^[1]

L'idea della compilazione prese velocemente piede e molti dei princìpi di design dei compilatori vennero sviluppati negli anni '60.

Un compilatore è esso stesso un programma scritto in un qualche linguaggio. I primi compilatori venivano scritti in Assembly. Il primo compilatore auto-compilato, capace cioè di compilare il suo stesso codice, fu creato per il linguaggio Lisp da Hart e Levis presso il MIT nel 1962.^[2]

L'uso di linguaggi ad alto livello per scrivere i compilatori ebbe una spinta nei primi anni '70, quando i compilatori Pascal e C furono scritti negli stessi linguaggi. Creare un compilatore autocompilante introduce un problema di bootstrapping, il primo compilatore di quel linguaggio deve essere per forza scritto in un altro linguaggio o compilato facendo girare il compilatore come un interprete (come fecero Hart e Levin con il loro compilatore Lisp).

Schema di funzionamento[modifica | modifica wikitesto]

Fasi tipiche della compilazione.

Il compilatore prende in ingresso un programma, il codice sorgente, su cui esegue una serie di operazioni in modo da ottenere, in assenza di errori, il codice oggetto. In generale i compilatori sono in grado di riconoscere alcune classi di errori presenti nel programma, e in alcuni casi di suggerire in che modo correggerli.

I compilatori attuali dividono l'operazione di compilazione in due stadi principali il front end e il back end. Nello stadio di front end il compilatore traduce il sorgente in un linguaggio intermedio (di solito interno al compilatore); nello stadio di back end avviene la generazione del codice oggetto.

Stadio di front end[modifica | modifica wikitesto]

Questo stadio si suddivide in più fasi:

Analisi lessicale Attraverso un analizzatore lessicale, spesso chiamato scanner o lexer, il compilatore divide il codice sorgente in tanti pezzetti chiamati token. I token sono gli elementi minimi (non ulteriormente divisibili) di un linguaggio, ad esempio parole chiave (for, while), nomi di variabili (pippo), operatori (+, -, «).
Analisi sintattica L'analisi sintattica prende in ingresso la sequenza di token generata nella fase precedente ed esegue il controllo sintattico. Il controllo sintattico è effettuato attraverso una grammatica. Il risultato di questa fase è un albero di sintassi.
Analisi semantica L'analisi semantica si occupa di controllare il significato delle istruzioni presenti nel codice in ingresso. Controlli tipici di questa fase sono il type checking, ovvero il controllo di tipo, controllare che gli identificatori siano stati dichiarati prima di essere usati e così via. Come supporto a questa fase viene creata una tabella dei simboli (symbol table) che contiene informazioni su tutti gli elementi simbolici incontrati quali nome, scope, tipo (se presente) etc. Il risultato di questa fase è l'albero sintattico astratto (AST).
Generazione del codice intermedio: Dall'albero di sintassi viene generato il codice intermedio.

Stadio di back end[modifica | modifica wikitesto]

Anche lo stadio di back end si divide in più fasi:

Ottimizzazione del codice intermedio.
Generazione del codice target: in questa fase viene generato il codice nella forma del linguaggio target. Spesso il linguaggio target è un linguaggio macchina.

Schema riassuntivo[modifica | modifica wikitesto]

Flusso	Attività
Codice sorgente	Editing
$\Downarrow$
Analizzatore lessicale	Analisi lessicale
$\Downarrow$
Token
$\Downarrow$
Analizzatore sintattico	Analisi sintattica
$\Downarrow$
Albero di sintassi
$\Downarrow$
Analizzatore semantico	Analisi semantica
$\Downarrow$
Albero di sintassi astratta
$\Downarrow$
Generatore di codice intermedio
$\Downarrow$
codice intermedio
$\Downarrow$
Ottimizzatore codice intermedio
$\Downarrow$
codice intermedio
$\Downarrow$
Generatore codice target
$\Downarrow$
codice target