Lo stato dell’arte della Data Science secondo Kaggle

Qualche giorno fa è stato pubblicato il report “State of Machine Learning and Data Science 2021” promosso da Kaggle. Il report è ormai una tradizione che si rinnova da cinque anni e che aiuta sempre di più a comprendere, dati alla mano naturalmente, il presente e il futuro del mondo “data science” e di tutti coloro che con ruoli e competenze diverse ci lavorano.

Kaggle è senza dubbio la community di riferimento di tutti i tipi di data expert del mondo. Proprio per questo vale la pena considerare questo report una sintesi importante e forse una delle più significative rispetto alle tante classifiche che spesso si lasciano scrivere sui quotidiani. Il report nasce da una survey a cui hanno risposto 25.973 persone tra data scientist, machine learning engineers e altri tipi di esperti di dati. I risultati di sintesi presentati fanno riferimento però a tutte le persone che hanno come job title quello di “data scientist”: stiamo parlando del 14% di tutte le persone che hanno risposto al questionario.

Nel solito approccio “competitivo” di Kaggle, la piattaforma ha messo a disposizione tutti i raw data del questionario, incoraggiando gli interessati a costruirci sopra delle analisi ed una narrazione. Il miglior notebook verrà premiato con 30.000$.

Diamo ora una sguardo a qualche risultato.

Posso fare la data scientist se sono donna?

Fonte: State of Machine Learning and Data Science 2021 – Kaggle

L’82,2 % di data scientist sono uomini.

Potremmo a questo proposito aprire molte discussioni sul divario di genere, sulla difficoltà di attrarre profili femminili rispetto a quelle che vengono identificate come materie STEM, sull’importanza del contributo di tutti e tutte alle grandi sfide che – anche la data science – è chiamata a risolvere. Il problema più grave però è un altro: la data science ha bisogno di donne affinché vengano prodotti dei risultati di valore (per intenderci non sono risultati “di valore” quelli che produceva un tool HR di Amazon, poi abbandonato dall’azienda, che aiutava i dipartimenti HR con l’intelligenza artificiale. Si è scoperto infatti che discriminava i profili femminili).

Chiunque lavori nell’ambito dell’intelligenza artificiale e/o del machine learning conosce i pericoli dei bias algoritmici e condivide (si spera) l’urgenza di investire nelle tematiche dell’explainability, della transparency e della trustworthiness dell’AI (se ne sta occupando molto anche l’Europa, con tante iniziative, tra cui il progetto TRUST-AI). Per riuscire in questa sfida servono sicuramente molte competenze, ma senza alcun dubbio servono donne.

Come attrarle? Domanda dalla risposta non facile.

Uno primo spunto da cui partire e non di certo l’unico: migliorare i job post, ovvero scrivere meglio gli annunci di lavoro per posizioni come data scientist, spiegando che non è solo un lavoro per smanettoni (forse non lo è mai stato), ma è un lavoro per donne e uomini intelligenti, che pensano, che usano le loro competenze tecniche ed emotive per creare algoritmi efficaci, veritieri, giusti. Qualche mese fa la prof.ssa Rita Cucchiara, grandissima esperta di Intelligenza Artificiale, mi raccontava che le persone più importanti al mondo che si occupano di etica e intelligenza artificiale sono donne, come se i temi etici fossero snobbati dagli uomini.

Il secondo spunto è un po’ più tecnico: pretendere dataset migliori, cominciando ad affinare le fasi di data discovery, di data curation e di data preparation. La fretta di implementare l’ultimo algoritmo di AI senza essersi preoccupati della qualità e della giusta rappresentatività dei dati di partenza potrebbe giocare brutti scherzi.

Qual è l’età media dei data scientist?

La maggior parte dei data scientist intervistati dal report hanno un’età compresa tra i 22 e i 34 anni. La professione, così come la conosciamo oggi, è una professione nata con le nuove generazioni di professionisti. Molti strumenti di data science e di data engineering infatti sono piuttosto recenti e in continua evoluzione. Questo carattere “giovane” della professione dovrebbe rappresentare uno stimolo molto forte per chi si appresta a cominciare una carriera in quest’area.

Quali sono i Paesi “data science – friendly“?

I paesi più importanti del mondo dove fare data science sono Stati Uniti e India. Moltissimi articoli sostengono che, almeno negli USA, i data scientist vengano pagati anche molto molto bene. Sugli stipendi anche il report Kaggle dedica qualche slide. è importante tenere a mente che i dati degli stipendi vanno sempre contestualizzati e valutati in parallelo ad altri fattori (costo della vita, sistema fiscale, velocità di carriera, etc). Probabilmente, laddove c’è una cultura del dato maggiore vi è anche un’attenzione economica maggiore nei confronti dei professionisti di dati.

Piccola nota: Italia non prevenuta. Ciò non significa non esistono eccellenti data scientist italiani: probabilmente gli italiani scontano la poca capacità di fare community e partecipare a progetti come quelli di Kaggle (uno dei massimi esperti italiani di Kaggle è senza dubbio Alberto Danese che su YouTube ha parlato spesso di questa piattaforma, essendo lui un Kaggle Grandmaster).

Quale titolo di studio occorre per fare il data scientist?

Rispetto al livello di studio degli intervistati le risposte sono le seguenti:

Fonte: State of Machine Learning and Data Science 2021 – Kaggle

Il titolo di studio che va per la maggior è la laurea magistrale. Probabilmente essa rappresenta il titolo migliore per affrontare una professione molto affascinante, ma anche molto complessa. Significativa la percentuale di data scientist con un PhD, che rappresenta sicuramente un titolo straordinario per chi si occupa di AI e machine learning, data la loro rapida e frenetica evoluzione. Quel che è importante però, è che le aziende che scrivono “PhD is a plus” nelle loro job description facciano corrispondere un trattamento economico adeguato a questi professionisti di alto livello.

Dove formarsi in ambito data science oltre all’università?

Fonte: State of Machine Learning and Data Science 2021 – Kaggle

La piattaforma top per formarsi e tenersi aggiornati in ambito data science è Coursera, seguita dai corsi offerti da Kaggle e Udemy. DataCamp si guadagna il quinto posto ma l’augurio è quello di crescere e risalire alcune posizioni nella classifica. Sul tema formazione nell’articolo “Embrace these in order to succeed now & in the future” viene fatto un elenco di principi guida per avere successo nel mondo del lavoro e non solo.

Uno di questi principi dice: “Shifts from knowledge worker to learning worker – The most important skill for future employees is to know how to learn. The ability to learn new things and apply them to new situations will be crucial to success. Instead of relying on what they learned in school, future employees will always be learning.”  ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌ ‌

Quanto grandi sono i team di data scientist?

Il report poi prosegue con alcuni dati sugli stipendi (negli USA), prima di mostrare il numero medio di persone che compongono un team di data scientist. Oltre la metà dei data scientist intervistati lavora in un team fino a 5 persone, ma un data scientist su cinque lavora ormai in team molto grandi, con almeno 20 colleghi. Il tema dei team di data scientist è molto interessante, perché ha a che fare con il modo con cui si organizza il lavoro e in ultima istanza con il modo con cui il dato genera valore per un’organizzazione. L’articolo Models of Data Science teams: Chess vs Checkers di Marco Santoni, Data Product Manager di Flowe, è davvero molto stimolante.

Fonte: State of Machine Learning and Data Science 2021 – Kaggle

Ambienti di sviluppo: quali sono i preferiti?

L’ambiente di sviluppo preferito dai data scientist è Jupyter Notebook, seguito da Visual Studio Code e da JupyterLab.

Fonte: State of Machine Learning and Data Science 2021 – Kaggle

Quali sono gli algoritmi più utilizzati in ambito data science?

Sul podio troviamo la regressione lineare o logistica, i decision trees o random forest e gli algoritmi di gradient boosting. Il podio non si discosta molto rispetto ai risultati dell’anno precedente. Si segnala un incremento dell’utilizzo delle Reti Neurali Convoluzionali (CNN).

Il framework di machine learning in assoluto più utilizzato è Scikit-learn. Segue TensorFlow e Xgboost.

Fonte: State of Machine Learning and Data Science 2021 – Kaggle

Quali sono le piattaforme cloud più utilizzate?

Svetta sul podio Amazon Web Service (AWS), seguita dalla Google Cloud Platform (GCP). Al terzo posto troviamo Microsoft Azure. Il trend si conferma essenzialmente stabile rispetto agli anni precedenti. Se però ci spostiamo sugli strumenti offerti da questi tool, al primo posto troviamo nuovamente AWS con Amazon SageMaker, seguito da Databricks e da Azure Machine Learning Studio.

Fonte: State of Machine Learning and Data Science 2021 – Kaggle

Conclusioni

Il report è molto interessante perché abbraccia molti aspetti del lavoro di un data scientist. L’autorevolezza di Kaggle fa sì che questi risultati rispecchino in maniera sufficientemente precisa la realtà, essendo stati ottenuti a partire dalle risposte di professionisti che ogni giorno lavorano con i dati nelle loro organizzazioni. Che tu sia un giovane neolaureato alla ricerca di qualche stimolo per cominciare la tua carriera nel mondo dei dati o che tu sia un tech leader, un manager o comunque una persona che si occupa di dati con un certo grado di esperienza, queste slide rappresentano una fotografia importante del mondo dati nel mondo.

Leggere questi dati, completarli, tenerli monitorati, incrociarli alle proprie evidenze e soprattutto condividerli con altre persone e discuterne, rende questi risultati davvero utili a tutti. Kaggle è una piattaforma di successo perché costituita da una community solida e in continua espansione. Il mondo della data science, sia a livello mondiale sia a livello di singola organizzazione, ha bisogno di community: persone esperte ma ancor prima appassionate che si scambiano costantemente stimoli e idee rispetto ad un mondo dal potenziale enorme.


Il report completo è disponibile qui. Al suo interno sono presenti tutti i risultati riportati qui e molti altri. I dati grezzi delle 25973 risposte alle 42 domande sono disponibili qui. Tutti i dettagli della competizione con in palio 30.000$ vengono riportati in questa specifica sezione.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *