Attualità
11/08/2017

Statistiche al tempo della crisi

, ,

La scienza si trova oggi nel cuore di diverse tempeste. Fra queste, la scoperta della non riproducibilità di molti risultati scientifici è forse la più nota. Volendo stabilire una cronologia di questa scoperta, si può forse prendere in considerazione l’ottobre del 2013, quando il settimanale britannico The Economist dedica la copertina alla scienza che sbaglia.1 Il settimanale riferiva però la sua analisi soprattutto a un articolo apparso nel 2005, dal titolo «Perché la maggior parte dei risultati scientifici è sbagliata», di John Ioannidis.2 Mentre Ioannidis ci parla della crisi in campo medico (test clinici e pre-clinici), Brian Nosek – intervistato anche lui da The Economist – ci parla della crisi nel campo della psicologia, chiamando in ballo tutta una serie di studi del comportamento, fra i quali quelli sulla priming research.3 Per dare un esempio, questi studi cercano di determinare se l’orientamento di un consumatore all’acquisto di un prodotto possano essere influenzati da immagini di potenziali partner o stili di vita desiderabili. La priming research è importante per le applicazioni al marketing, e la sua non riproducibilità è stata accolta con grande costernazione dal premio Nobel Daniel Kahneman, che su questi studi aveva basato uno dei suoi libri più letti.4-6 La crisi di riproducibilità ha poi attirato l’attenzione della satira quando uno studio, apparentemente impeccabile dal lato metodologico, dimostrava dalle colonne di un giornale scientifico che la percezione extra-sensoriale esiste.7,8
Le cause di questa crisi sono, però, molteplici, anche se il cattivo uso della statistica è stato immediatamente segnalato come una causa evidente – potremmo dire materiale,2 come discusso sotto.
Le cause profonde della crisi sono, invece, da ricercare altrove,9 specialmente nel passaggio della scienza da un regime di little science, regolato da piccole comunità di ricercatori legati da norme di comportamento condivise, all’impersonalità della big science dei nostri giorni, dove una vasta comunità di ricercatori produce circa 2 milioni di articoli all’anno in circa 30.000 giornali diversi. Nonostante l’impressionante cambio di scala, la scienza tenta ancora in larga misura di affidarsi ai meccanismi di controllo di qualità della little science e, quando ne tenta l’automatizzazione, come nell’uso delle misure di citazione e di impatto, crea un perverso sistema di incentivi – quali il noto publish or perish, l’imperativo di pubblicare a ogni costo.
Anticipazioni della crisi si possono trovare nel pensiero di Derek de Solla Price,10 il padre della scientometrics, e in modo molto preciso negli scritti dello storico della filosofia Jerome R. Ravetz.11,12 In tempi più recenti, gli aspetti distopici della scienza vista come consegnata alla logica del mercato e da essa dominata sono illustrati in modo esauriente dallo storico del pensiero economico Philip Mirowski.13
Un’analisi senza passioni della crisi, come quella tentata in Benessia et al,9 è oggi resa difficile da quella che viene percepita come una guerra fra la nuova amministrazione statunitense del presidente Donald Trump e la scienza.14,15 In questo clima di marce per la scienza16 e di battaglie combattute su organismi geneticamente modificati, vaccini e clima, parlare di una scienza profondamente malata si rivela impopolare, nonostante il quotidiano bollettino di scienza comprata o ritrattata, oppure semplicemente incapace di resistere alla pressione di interessi commerciali.17-20
La crisi della scienza ha ormai largamente oltrepassato i confini dell’Accademia, saldandosi con quella della post-verità (post-truth diventa addirittura la parola dell’anno 2016 per l’Oxford dictionary) e della sconfitta del pensiero esperto, evidenziata secondo molti dalla Brexit e dall’elezione di Donald Trump. Svariate letture sono state proposte per spiegare che, per esempio, siamo predisposti ad ascoltare i fatti più in consonanza con il nostro sistema di valori e a ignorare quelli che li mettono in discussione,21 mentre sorprendentemente la perdita di fiducia negli esperti non viene messa in relazione con la crisi della scienza. La schematicità dei dibattiti sulla post-truth sembra alludere a un’epoca trascorsa di verità e fatti incorruttibili, dimenticando che i fatti, specie se attinenti alla società, non sono mai separabili da regimi e conflitti di valori.22 Fuori dal coro, voci isolate suggeriscono che tale malessere possa solo essere curato da una scienza che cambia innanzitutto se stessa,23,24 riprendendo una tradizione di attivismo scientifico degli anni Settanta, quali per esempio la British Society for Social Responsibility in Science25 o la cosiddetta scienza delle casalinghe sull’esempio di Love Canal,26 una vicenda di inquinamento delle acque e corruzione delle autorità che si ripete ai giorni nostri con preoccupante regolarità, come dimostrato dal caso di Flint, Michigan.27 Lentamente, anche le istituzioni scientifiche iniziano a manifestare segnali di aver compreso che non è Trump l’interlocutore degli scienziati, ma le persone che lo hanno votato e per le quali la scienza deve mostrarsi capace di fare qualcosa.28

Un mea culpa statistico?

Come menzionato, il cattivo uso e l’abuso del p-test hanno raggiunto tali livelli di allarme da spingere l’American Statistical Society (ASA) a emanare un comunicato ufficiale.29 Per chi volesse approfondire questo aspetto, segnaliamo, oltre ai lavori di Ioannidis,2,8 quelli di Colquhoun30 e di Gigerenzer e Marewski.31 Diamo qui alcuni elementi del problema, consapevoli di non poter accontentare un lettore accademico.
È consuetudine per investigatori di ogni disciplina fare uso del p-test per decidere se un certo risultato osservato è significativo o frutto del caso. Per esempio, il problema potrebbe essere quello di confrontare due diversi campioni, uno composto di individui che hanno ricevuto un trattamento e uno di individui che non lo hanno ricevuto. Se il test viene superato al livello del 5% (livello = 0,05) si suol dire che esiste solo una probabilità del 5% che il risultato ottenuto sia effetto del caso e non del trattamento. Poiché 5% è anche uguale a 1/20, questo viene comunemente tradotto: un effetto è stato determinato e il rischio che questa affermazione sia falsa non supera una possibilità su venti. Questo non è in realtà vero e il ricercatore che crede di «essersi beffato di se stesso» con una probabilità di 1/20 lo sta facendo in realtà con una probabilità molto maggiore, che può facilmente eccedere una possibilità su tre. Questo è dovuto a una varietà di fattori, in primis la dimensione del campione. La realtà è che il numero 0,05, detto anche «frazione di falsi positivi», da solo non è sufficiente a decidere della bontà dell’analisi, per la quale occorre anche conoscere la frazione di falsi negativi e la probabilità di avere un effetto così come conosciuta prima dell’esperimento. Per il lettore paziente, Colquhoun30 offre un’analisi estremamente chiara. Segnaliamo anche un video di The Economist che visualizza bene il problema.32
Ciò detto, di sicuro molti non saranno d’accordo con questa spiegazione. Come notato da un’esasperata giornalista scientifica: «Nemmeno i tecnici riescono a spiegare facilmente il p-test».33
Spiegato, quindi, in modo sommario cos’è il p-test e come possa essere usato in modo inappropriato, rimane da spiegare come la cattiva pratica possa essere rimasta in uso tanto a lungo, addirittura per diverse decadi precedenti al comunicato dell’ASA. C’è anche da spiegare come lo stesso comunicato, disponibile on-line,29 sia arricchito da ben venti note di dissenso o di distinguo scritte da altrettanti importanti figure del mondo della statistica. Sorge il dubbio che la comunità statistica sia più interessata alle sue dispute interne, valga fra tutta quella fra bayesiani e frequentisti, invece che alle accuse rivolte alla statistica dalle altre discipline; New Scientist parla di «statistiche ingannevoli» e di «fabbrica statistica di salsicce».34 Per il giornale Nature, il p-test rappresenta la punta dell’iceberg, e liberare la scienza da statistiche scadenti è una priorità urgente.35
Di certo c’è molto di frettoloso in queste accuse. Se c’è stato, come ipotizzato da Ravetz,11 un decadimento delle pratiche scientifiche, del saper fare, non si vede perché questo decadimento debba essersi fermato alla statistica. Essa soffre per la sua visibilità: i risultati si scrivono e si presentano con la statistica. Una diminuzione di craft skill nei laboratori dove si manipolano reagenti e cellule è, invece, altrettanto probabile.
Come tutte le discipline, la statistica ha i suoi scheletri nell’armadio: il rapporto fra la nascita della statistica e l’antisemitismo è ben descritto da Ian Hacking,36 come pure quello fra la statistica e l’eugenetica che coinvolse padri della statistica quali Francis Galton e Karl Pearson.36 Quest’ultimo era talmente convinto delle tesi eugenetiche da sostenere l’inutilità della spesa sociale, perché i poveri son tali in ragione dei loro cattivi geni, e questi non possono essere migliorati né con una nutrizione più adeguata né con l’educazione.37 Ronald Fisher, l’altro grande padre della statistica, si trovò a difendere la tesi che il cancro precede il fumo, invece di seguirlo, anche perché finanziato dall’industria del tabacco e lui stesso fumatore.38
La statistica si trova al centro dei cambiamenti tumultuosi che l’innovazione ci impone. Il cosiddetto imperativo tecnologico, l’idea che lo sviluppo di nuove tecnologie sia inarrestabile e debba essere accolto per il bene comune, sta portando le nostre società verso terre incognite. L’irruzione dei pirati informatici nelle elezioni statunitensi non è che un segnale fra molti. L’uso perverso degli algoritmi non è più soltanto una preoccupazione del pensiero filosofico, ma irrompe nel dibattito pubblico, dove si parla ora di algoritmi di distruzione di massa.39 Una parte crescente della nostra vita è influenzata da algoritmi, dalla salute alle attività bancarie, al lavoro della polizia e delle Corti, e persino ora per la progressione nelle carriere accademiche.40

Che fare?

In una lettera ideale a giovani laureati in statistica41 abbiamo notato che i ricercatori hanno due scelte: corteggiare il potere in difesa dello status quo42 e della propria posizione oppure contribuire di persona a un profondo processo di riforma,43 rigettando sia una visione religiosa della scienza44 che la mette al di sopra delle altre forme di sapere, sia la presunzione del cosiddetto modello del deficit di conoscenze,45 secondo il quale il problema della modernità è la scarsa conoscenza della scienza da parte del pubblico. Se la scienza non è più una macchina che sforna fatti inconfutabili, ma un processo sociale dove fatti e valori perdono la loro indipendenza, allora una statistica umanista diventa essenziale. Curiosamente, proprio nel tentativo di mostrate la non indipendenza tra fatti e valori, il filosofo46 usò come esempio il p-test, discutendo come la scelta del livello di significanza non sia automatica, ma dipenda dalla serietà delle conseguenze dell’ipotesi: più serie le conseguenze, più stringente il test.
I ricercatori in statistica possono facilitare il processo di democratizzazione dell’expertise, portando contributi su scelte di metodo e di contenuto. Possono, inoltre, contrastare l’esistente asimmetria nell’uso dell’evidenza, che permette agli interessi dei più forti di prevalere proprio in ragione di una maggiore disponibilità di risorse scientifiche.47

Quando la scienza dà i numeri

Richard Feynman, nel suo famoso discorso ai giovani laureati del Californian Institute of Technology (Caltech), definì come «scienza cargo cult» una cattiva pratica che riproduce la scienza nei suoi aspetti formali, ma che di fatto si limita a mascherare le proprie opinioni e desideri sotto una parvenza di metodo scientifico. Feynman si riferiva qui a un curioso rito praticato da alcuni abitanti di isole del pacifico, che mettono in scena rappresentazioni rituali dell’atterraggio di aerei cargo, usando capanne di legno come torri di controllo e canne di bambù come antenne. Lo scopo della cerimonia era sollecitare il ritorno degli aerei che durante la Seconda guerra mondiale atterravano per fare rifornimento e riempivano l’isola dei desiderati beni di consumo americani.
Gli statistici possono prestare il loro operato per combattere i numeri cargo cult – come quando si calcola l’aumento di reati dovuti al cambiamento climatico nel 210048 e le probabilità costruite dal nulla come nel caso dei terremoti49 – anche quando questo implica scontentare una delle fazioni in lotta nelle molte controversie scientifiche. La statistica può mostrare come sia facile far apparire o scomparire un problema semplicemente cambiando il tipo di misura, come nel caso di contaminazione ambientale di Flint, già menzionato, dove un uso erroneo dei codici di avviamento postale per delimitare un’area geografica rischiava di mascherare l’esistenza di un problema di avvelenamento da piombo delle comunità coinvolte.50

Statistica e democrazia

La relazione stretta fra stato e statistica, già menzionata in relazione alla nascita dello stato moderno,36 può – e forse deve – essere anche vista come una relazione fra statistica e democrazia. Suggeriamo questa via, senza arrivare alla posizione estrema di credere che una migliore conoscenza delle statistiche ufficiali da parte degli elettori risolverebbe i problemi politici di un Paese.51 La relazione fra democrazia e statistica è molto evidente nell’importante campo del controllo del voto elettorale, dove gli statistici possono porre limiti alla probabilità di irregolarità attraverso un’analisi manuale dei record cartacei, o comunque verificabili, e l’uso di appropriate metodologie.52 Un altro esempio, nel momento in cui una vasta platea lamenta l’elezione di Donald Trump nonostante i tre milioni di voti in più ottenuti da Hillary Clinton, è il problema del gerrymandering, la ridefinizione dei confini di un distretto elettorale per avvantaggiare questo o quel partito. Anche qui gli statistici possono adoperarsi per dimostrare la scarsa plausibilità della conformazione dei distretti, fornendo aiuto metodologico alle Corti che di questo debbono occuparsi.53 Un campo dove gli statistici potrebbero forse fornire il loro aiuto è la lotta alle nuove forme di sfruttamento. Nell’ambito del lavoro intellettuale gli statistici potrebbero mappare e analizzare il fenomeno del lavoro via internet, come quello di Mechanical Turk di Amazon, dove una forza lavoro preparata viene usata per paghe irrisorie e nessuna forma di protezione sociale.54
Gli statistici impegnati in queste attività non traggono la loro legittimità da un’impossibile neutralità, ma da una presa di partito chiara, supportata da metodi rigorosi e difendibili, e da una disponibilità a mettere la loro disciplina al servizio dei problemi che emergono dalla società.

Conflitti di interesse dichiarati: nessuno.

Bibliografia

  1. How Science goes wrong. The Economist 19.10.2013; p. 11.
  2. Ioannidis JPA. Why Most Published Research Findings Are False. PLoS Med 2005;2(8):696-701. doi: 10.1371/journal.pmed.0020124
  3. Shanks DR, Vadillo MA, Riedel B et al. Romance, risk, and replication: Can consumer choices and risk-taking be primed by mating motives? J Exp Psycho Gen 2015;144(6):e142-58.
  4. Kahneman D. Thinking fast and Slow. New York, Farrar, Straus and Giroux, 2013.
  5. Schimmack U, Heene M, Kesavan K. Reconstruction of a Train Wreck: How Priming Research Went off the Rails. Replication Index blog 2017. Disponibile all’indirizzo: https://replicationindex.wordpress.com/2017/02/02/reconstruction-of-a-train-wreck-how-priming-research-went-of-the-rails/comment-page-1/
  6. Open Science Collaboration. Estimating the reproducibility of psychological science. Science 2015;349(6251):aac4716. doi: 10.1126/science.aac4716
  7. Bem DJ. Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect. J Pers Soc Psychol 2011;100(3):407-25. doi: 10.1037/a0021524
  8. Engber D. Daryl Bem Proved ESP Is Real. Slate 17.05.2017. Disponibile all’indirizzo: https://redux.slate.com/cover-stories/2017/05/daryl-bem-proved-esp-is-real-showed-science-is-broken.html
  9. Benessia A, Funtowicz S, Giampietro M et al. The Rightful Place of Science: Science on the verge. Washington DC, Consortium for Science, Policy and Outcomes, 2016.
  10. De Solla Price DJ. Little science big science. New York, Columbia University Press, 1963.
  11. Ravetz JR. Scientific Knowledge and its Social Problems. New Bnmswick, Oxford University Press, 1971.
  12. Ravetz JR. The merger of knowledge with power: essays in critical science. London, Mansell, 1990.
  13. Mirowski P. Science-Mart: Privatizing American Science. London, Harvard University Press, 2011.
  14. Saltelli A, Funtowicz SO. Science wars in the age of Donald Trump. The Conversation 16.11.2016. Disponibile all’indirizzo: https://theconversation.com/science-wars-in-the-age-of-donald-trump-67594
  15. Saltelli A, Funtowicz SO. To tackle the post-truth world, science must reform itself. The Conversation 27.01.2017. Disponibile all’indirizzo: https://theconversation.com/to-tackle-the-post-truth-world-science-must-reform-itself-70455
  16. https://marchforscience.com
  17. McCook A. A new record: Major publisher retracting more than 100 studies from cancer journal over fake peer reviews. Retraction Watch 20.04.2017. Disponibile all’indirizzo: http://retractionwatch.com/2017/04/20/new-record-major-publisher-retracting-100-studies-cancer-journal-fake-peer-reviews/
  18. Saltelli A. Science in crisis: from the sugar scam to Brexit, our faith in experts is fading, The Conversation 27.09.2016. Disponibile all’indirizzo: https://theconversation.com/science-in-crisis-from-the-sugar-scam-to-brexit-our-faith-in-experts-is-fading-65016
  19. Saltelli A. Forcing consensus is bad for science and society. The Conversation 12.05.2017. https://theconversation.com/forcing-consensus-is-bad-for-science-and-society-77079
  20. Heath D. Meet the rented white coats’ who defend toxic chemicals. The Center for Public Integrity 2016. Disponibile all’indirizzo: http://www.publicintegrity.org/2016/02/08/19223/meet-rented-white-coats-who-defend-toxic-chemicals
  21. Kahan DM, Wittlin M, Peters E et al. The Tragedy of the Risk-Perception Commons: Culture Conflict, Rationality Conflict, and Climate Change. Temple University Legal Studies Research Paper No. 2011-26; Cultural Cognition Project Working Paper No. 89; Yale Law & Economics Research Paper No. 435; Yale Law School, Public Law Working Paper No. 230. Disponibile all’indirizzo: https://ssrn.com/abstract=1871503
  22. Dewey J. Science and Society. In: Dewey J. The Later Works, 1925-1953: 1931-1932. Volume 6. Carbondale, Southern Illinois University Press, 2008.
  23. Funtowicz SO, Ravetz JR. Peer Review and Quality Control. International Encyclopedia of the Social & Behavioral Sciences, 2nd edition, 2015.
  24. Ravetz JR, Funtowicz S. New Forms of Science, International Encyclopedia of the Social & Behavioral Sciences, 2nd edition, 2015.
  25. Bell A. How Radical 70s Scientists Tried to Change the World. Gizmodo gennaio 2015. Disponibile all’indirizzo: http://gizmodo.com/how-radical-70s-scientists-tried-to-change-the-world-1681987399
  26. Fjelland R. When Laypeople are Right and Experts are Wrong: Lessons from Love Canal. International Journal for Philosophy of Chemistry 2016;22(1):105-25.
  27. Flint Water Study. Disponibile all’indirizzo: http://flintwaterstudy.org/
  28. Researchers should reach beyond the science bubble. Nature 2017;542:391. Disponibile all’indirizzo: http://www.nature.com/news/researchers-should-reach-beyond-the-science-bubble-1.21514
  29. Wasserstein RL, Lazar NA. The ASÀs statement on p-values: context, process, and purpose. The American Statistician 2016;70(2):129-33. doi: 10.1080/00031305.2016.1154108
  30. Colquhoun D. An investigation of the false discovery rate and the misinterpretation of p-values. Royal Society Open Science 2014;1:140216. doi: 10.1098/rsos.140216
  31. Gigerenzer G, Marewski J N. Surrogate science: The idol of a universal method for scientific inference. Journal of Management 2015;41:421-40. doi: 10.1177/0149206314547522
  32. http://www.economist.com/blogs/graphicdetail/2013/10/daily-chart-2
  33. Aschwanden C. Not Even Scientists Can Easily Explain P-values. FiveThirtyEight 24.11.2015. Disponibile all’indirizzo: http://fivethirtyeight.com/features/not-even-scientists-can-easily-explain-p-values/
  34. van Gilder Cooke S. The unscientific method. New Scientist 16.04.2016.
  35. Leek JT, Peng RD. Statistics: P values are just the tip of the iceberg. Nature 2015;520(7549):612. doi: 10.1038/520612a
  36. Hacking I. The Taming of Chance. Cambridge, Cambridge University Press, 1990.
  37. Pearson K. The Grammar of Science. London, Walter Scott Publisher, 1892: 32.
  38. Stolley PD. When genius errs: R.A. Fisher and the lung cancer controversy. Am J Epidemiol 1991;133(5):416-25.
  39. O’Neil C. Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown Books 2016.
  40. Abraham C. An ugly summer for science: Turmoil rocks Canadian research community. Statnews 01.08.2016. Disponibile all’indirizzo: https://www.statnews.com/2016/08/01/cihr-canada-research/
  41. Saltelli A. Young statistician, you shall live in adventurous times. Significance 05.12.2016. doi: 10.1111/j.1740-9713.2016.00983.x. Disponibile all’indirizzo: www.andreasaltelli.eu/file/repository/SIGN_13_6_09_InPractice_Saltelli_YoungStat.pdf
  42. Macilwain C. The elephant in the room we can’t ignore. Nature 2016;531(7594):277.
  43. Stark PB. Science is “show me,” not “trust me”. Berkeley Initiative for Reproducibility and Transparency in the Social Sciences 2015. Disponibile all’indirizzo: http://www.bitss.org/2015/12/31/science-is-show-me-not-trust-me/
  44. Faust JS. The Problem With the March for Science. Slate marzo 2017. Disponibile all’indirizzo: http://www.slate.com/articles/health_and_science/science/2017/04/the_march_for_science_was_eerily_religious.html
  45. Wynne B. Public uptake of science: a case for institutional reflexivity. Public Undersanding of Science 1993;2(4).
  46. Rudner R. The Scientist Qua Scientist Makes Value Judgments. Philosophy of Science 1953;20(1):1-6.
  47. Saltelli A, Giampietro M. What is wrong with evidence based policy, and how can it be improved? Futures 2017, in press. doi: 10.1016/j.futures.2016.11.012
  48. Saltelli A, Stark PB, Becker W, Stano P. Climate Models as Economic Guides: Scientific Challenge or Quixotic Quest? Issues in Science and Technology 2015;31(3):79-84.
  49. Freedman DA, Stark PB. What is the chance of an earthquake? In: Mulargia R, Geller RJ (eds). Earthquake Science and Seismic Risk Reduction. NATO Science, Series IV: Earth and Environmental Sciences, volume 32. Dordrecht, Kluwer, 2003; pp. 201-16.
  50. Sadler RC. How ZIP codes nearly masked the lead problem in Flint. Phys.org 20.12.2016. Disponibile all’indirizzo: https://phys.org/news/2016-09-codes-masked-problem-flint.html
  51. Giovannini E. Scegliere il futuro. Conoscenza e politica al tempo dei Big Data. Bologna, Il Mulino, 2014.
  52. Lindeman M, Stark PB. A Gentle Introduction to Risk-limiting Audits. IEEE Security and Privacy, special issue on electronic voting, 2012. Last edited 16 march 2012.
  53. Arnold C. The mathematicians who want to save democracy. Nature 2017;546(7657):200-202.
  54. Scholz T. Digital Labor, The Internet as Playground and Factory. Oxford, Routledge 2013.
Vai all'articolo su epiprev.it Versione Google AMP