Dal valore di “p” all’analisi Bayesiana: un tallone di Achille per la ricerca in agopuntura?

È stata recentemente proposta da Pandolfi M et al. sull’European Journal of Internal Medicine una dettagliata critica della metodologia clinica legata alla ricerca, in questo caso in tema di Medicine complementari ed Agopuntura (1). Le argomentazioni che spingono gli Autori ad elogiare la statistica Bayesiana invece del cosiddetto “approccio frequentista” sono personalmente ampiamente condivisibili. Non condivido invece il fatto che l’assenza di noti meccanismi fisiopatologici determinino l’impossibilità di condurre e di interpretare risultati in campi ancora sconosciuti.
La statistica frequentista è quella che siamo soliti leggere, i risultati dei trial che vediamo vengono espressi come valore di p. I limiti legati a tale analisi sono molteplici. Il più importante è di metodo, ma non è di immediata comprensione: con la classica p noi calcoliamo la probabilità di riprodurre l’esperimento partendo dal fatto che l’ipotesi nulla (che si chiama H0) sia vera; ciò si scrive p(osservazioni|H0). Se prendiamo ad esempio due gruppi (T trattamento e P placebo) ed abbiamo che differiscono con una p di 0,05, sappiamo che ripetere l’esperimento all’infinito, accettando che i due gruppi siano uguali (e non diversi), si potrà verificare nel 5% dei casi.
La statistica Bayesiana invece parte da una considerazione diversa, più attinente alle materie mediche. Infatti calcoliamo qual è la probabilità di accettare che due trattamenti siano uguali (cioè di accettare H0) partendo dai dati osservati (p(H0|osservazioni) e non viceversa.
La comprensione della statistica Bayesiana implica tuttavia alcune considerazioni importanti (2,3). Le probabilità derivate da un calcolo cosiddetto Bayesiano prevedono non solo la misura delle stesse. Le probabilità finali dipendono infatti sia dalla prova empirica (dati misurati, osservazioni) sia dalla probabilità a priori che l’evento si possa verificare (plausibilità). Queste ultime sono sostanzialmente soggettive e molto difficili da determinare (4). In pratica, in un esperimento tra gruppi T e P, il valore finale dell’esperimento dipende anche da quanto questo fosse plausibile a priori.

Probabilità a posteriori = Fattore Bayesiano * Probabilità a Priori
Posteriori = probabilità finale di accettare l’ipotesi nulla H0
Fattore Bayesiano (FB) = evidenza mostrata dai dati derivata dalla p classica
Priori = probabilità iniziale di accettare H0 (es: 0.9 o 90% se scettici)

Tale calcolo modifica la situazione da un punto di vista assoluto ad un punto di vista relativo (2-4). Ovvero, quanto l’evidenza scientifica disponibile (il Fattore Bayesiano) modifica il mio punto di vista iniziale (probabilità a priori)?
Dalle Tabelle che gli stessi Autori suggeriscono è possibile derivare questi dati. In caso di punto di vista iniziale molto scettico (0,9 ovvero accetto H0, i due trattamenti uguali, nel 90% dei casi) un’evidenza con valore di p 0,05 sposterà il mio scetticismo solo dallo 0,9 allo 0,57 e rimarrò comunque scettico. L’evidenza, sebbene non accettabile, ha comunque modificato la percezione dal 90% al 57%! Livelli di evidenza maggiori (es. p 0,001) sposteranno la visione di uno scettico dallo 0,9 allo 0,045. In questo caso il rischio di affermare ancora che i due gruppi siano uguali diviene molto più remoto (sebbene trattandosi di probabilità sia sempre legittimo) (2, 5, 6). Gli stessi Autori riprendono un elegante modo di vedere le cose, che credo consenta di capire meglio il problema anche se le conclusioni appaiono diverse! Il valore di p può essere visto come la frequenza di falsi positivi in diagnostica (1-specificità) (1, 3). Basso valore di p = pochi risultati positivi falsi. La domanda quindi è: se un clinico è molto scettico riguardo la presenza di una patologia, ma un test diagnostico con pochi falsi positivi mostra un’alterazione (elevata evidenza), è corretto continuare a dubitare riguardo la presenza di quell’alterazione? Probabilmente no e nessuno di noi lo farebbe.
Tale concetto di percorso piuttosto che di risultato, è suggerito da un interessante articolo di Diamond e Kaul con alcuni punti a sfavore sottolineati dall’editoriale di Goodman (5,6). Gli Autori propongono un giudizio dell’evidenza in base al calcolo Bayesiano. Uno shift da una concezione a priori scettica allo 0,05 viene proposta come “oltre ogni ragionevole dubbio”. Un livello addirittura inferiore si richiede per raggiungere, secondo Diamond, una “evidenza preponderante” (5).
Il metodo Bayesiano è ovviamente molto rispondente alle necessità scientifiche. Ma il nocciolo (duro) della questione è: chi o cosa fornisce la plausibilità a priori? Di certo concetti non verificabili e descrittivi come il Qi, lo Yin e lo Yang non aiutano a rendere plausibile il verificarsi dell’esperimento mentre precedenti osservazioni di meccanismi fisiopatologici noti sì. In altre parole, se io ho verificato che c’è un meccanismo fisiologico; che questo si altera in patologia; che su questo interviene un farmaco; la probabilità a priori che un esperimento con queste basi sia realmente vero è ovviamente elevata. Per questo quando si conduce un esperimento che non riconosce una ricerca di base molto ricca (meccanismi fisiopatologici per ogni singola ipotesi), come spesso avviene nelle medicine complementari, lo scetticismo iniziale è giustificato ed i ricercatori devono ambire ad ottenere prove di evidenza molto forti. Inoltre uno studio di trattamento, anche se positivo, non implica l’accettazione automatica di sostanze o meccanismi (Yin, Yang, Qi, etc.) che non possano essere dimostrati altrimenti. E’ per questo che non può essere completamente escluso un effetto placebo, tuttavia questo effetto dovrebbe essere considerato superiore al placebo stesso, se sono disponibili tali evidenze!
Ciò è possibile se si considera quello che affermava un grande matematico italiano, Bruno De Finetti: “Se ragioniamo mediante il teorema di Bayes non dobbiamo cambiare opinione. Manteniamo la stessa opinione e l’aggiorniamo alla nuova situazione” (7).

Lilli A. From p-value to Bayesian analysis: Should we renounce the study of the “unknown”? Eur J Intern Med. 2014 Sep 25. [Epub ahead of print]

Alessio Lilli

BIBLIOGRAFIA

Pandolfi M, Carreras G. The faulty statistics of complementary alternative medicine (CAM). Eur J Intern Med 2014;25(7):607–9.
Goodman SN. Toward evidence-based medical statistics. 2: the Bayes factor. Ann Intern Med 1999;130:1005–13.
Diamond GA, Forrester JS. Clinical trials and statistical verdicts: probable grounds for appeal. Ann Intern Med 1983;98:385–94.
De Finetti B. La prévision: ses lois logiques, ses sources subjectives; 1937.
Diamond GA, Kaul S. Bayesian classification of clinical practice guidelines. Arch Intern Med 2009;169:1431–5.
Goodman SN. Building a Bayesian bridge from evidence to guidelines. Arch Intern Med 2009;169:1436–7.
De Finetti B. Filosofia Della Probabilità, Milano:Il saggiatore; 1995.