La struttura delle proteine: un software di intelligenza artificiale aiuta a studiarla

Le proteine sono elementi fondamentali di qualsiasi organismo. Esse svolgono numerosissime funzioni, spaziano infatti da svolgere ruoli puramente strutturali a essere ormoni, neurotrasmettitori, enzimi che mediano reazioni intracellulari e altro ancora. Esse sono costituite da unità fondamentali chiamate amminoacidi (20 quelli utilizzati dall’essere umano) che, messi uno vicino all’altro in infinite combinazioni, costruiscono la proteina. Le informazioni per la produzione di queste molecole sono contenute nel nostro DNA, che rappresenta appunto un codice con le «istruzioni di montaggio». L’importanza delle proteine viene facilmente compresa se si pensa a una mutazione genetica che porta a delle malformazioni, oppure a un danno genetico in una sola cellula che può dare origine a un cancro dall’esito fatale.

Siamo riusciti a decodificare le informazioni contenute nel DNA. Al giorno d’oggi è piuttosto facile e ha un costo relativamente basso: si prende il DNA di una persona e si ottengono lunghissime stringhe di amminoacidi che servono per formare una certa proteina. Quindi dovremmo essere in grado di capire perfettamente cosa sta dicendo un certo gene. Vero? E invece no. Il problema è ben più complesso, perché una volta che la proteina viene assemblata come sequenza di amminoacidi, all’interno della cellula essa assume una forma tridimensionale che è fondamentale per la sua corretta funzionalità. All’interno delle cellule c’è un sistema apposito che si occupa di riconoscere ed eliminare le proteine mal-ripiegate (inoltre, problemi di struttura tridimensionale portano a patologie come l’Alzheimer o le malattie prioniche).

Per questo motivo, pur avendo decodificato il contenuto del DNA, la scienza non è ancora bene in grado di dare un significato al contenuto. È come saper leggere, ma avere un testo in lingua straniera di cui non riusciamo a comprendere il contenuto, ma solo a riprodurre i suoni. Infatti, delle 200 milioni di proteine scoperte nelle diverse forme di vita sulla Terra, soltanto 170 mila sono state identificate come struttura tridimensionale. Tradizionalmente, si usano metodiche come la cristallografia a raggi X, tecniche molto lunghe (possono durare mesi o anni) e non sempre efficaci.

Dal 1994, il programma CASP (Critical Assessment of protein Structure Prediction) si occupa proprio di cercare e testare i metodi innovativi che permettono di predire la struttura tridimensionale delle proteine dal semplice codice amminoacidico. Ogni 2 anni, i gruppi di ricerca partecipano all’evento della CASP e si cimentano con la predizione di circa 100 strutture proteiche. Gli organizzatori confrontano poi le previsioni con i risultati di laboratorio e danno uno score da 0 a 100: uno score sopra il 90 è pari ai metodi sperimentali.

Quest’anno, un nuovo software di intelligenza artificiale è riuscito a battere tutti gli altri e a cambiare completamente le carte in gioco. AlphaFold è stata sviluppata dalla società DeepMind ed era già stata presentata nel 2018, ma quest’anno è nettamente migliorata: ha avuto uno score complessivo di 92,4. Ha inoltre eccelso nel predire proteine di membrana che sono notoriamente difficili da risolvere. La DeepMind, come tutte le altre società che partecipano a CASP ha acconsentito a divulgare dettagli tecnici sufficienti a poter ricreare il software: ciò significa che altri gruppi di ricerca potranno usufruirne. AlphaFold è persino riuscita a risolvere la struttura tridimensionale di una proteina di membrana molto particolare, studiata da ben 10 anni tramite cristallografia senza mai arrivare a una soluzione. Il software sarà estremamente utile nel creare modelli di proteine di patogeni nuovi; inoltre aiuterà grandemente la ricerca sui farmaci perché renderà molto più rapido lo studio di nuove molecole. «What the DeepMind team has managed to achieve is fantastic and will change the future of structural biology and protein research» ha dichiarato Janet Thornton, direttrice emerita del European Bioinformatics Institute.