Analisi di dati cristallografici e costruzione di modelli predittivi
In Cristallografia la determinazione del sistema cristallino di un composto rappresenta il primo passo da eseguire in un processo di soluzione strutturale. Nel caso di composti policristallini, questo step può rappresentare un collo di bottiglia nel workflow degli addetti ai lavori e spesso richiede un intervento manuale che presuppone notevole esperienza. Il presente lavoro propone un approccio data-driven basato su Machine Learning (ML) per la classificazione dei sistemi cristallini alternativo a quello tradizionale. I dati utilizzati sono i pattern di diffrazione X da polveri cristalline (XRPD) calcolati a partire dai file CIF (Crystallographic Information File) presenti nel database POW_COD e relativi a composti organici, inorganici e metallorganici, sviluppato dall’Istituto di Cristallografia del Centro Nazionale delle Ricerche (CNR) di Bari. Si `e proceduto con una prima analisi e Data Reduction al fine di generare un dataset surrogato che racchiudesse le informazioni rilevanti dello spettro. Il classificatore finale proposto si basa sul modello Random Forest e raggiunge un’accuratezza di circa il 60% sia sui dati di test calcolati che su alcuni dati reali. Matrici di confusione, valori di Precision, Recall, F1-Score e Curve ROC sono riportati nei risultati. Seppur sia un valore totale migliorabile, quattro classi su sette risultato altamente discriminate a conferma della validita` della metodologia proposta.