Rezultatul în analiza de regresie logistică este adesea codificat ca 0 sau 1, unde 1 indică faptul că rezultatul de interes este prezent, iar 0 indică faptul că rezultatul de interes este absent. Dacă definim p ca fiind probabilitatea ca rezultatul să fie 1, modelul de regresie logistică multiplă poate fi scris după cum urmează:
este probabilitatea așteptată ca rezultatul să fie prezent; X1 până la Xp sunt variabile independente distincte; și b0 până la bp sunt coeficienții de regresie. Modelul de regresie logistică multiplă este uneori scris diferit. În următoarea formă, rezultatul este logaritmul așteptat al șanselor ca rezultatul să fie prezent,
Observați că partea dreaptă a ecuației de mai sus arată ca ecuația de regresie liniară multiplă. Cu toate acestea, tehnica de estimare a coeficienților de regresie într-un model de regresie logistică este diferită de cea utilizată pentru a estima coeficienții de regresie într-un model de regresie liniară multiplă. În regresia logistică, coeficienții derivați din model (de exemplu, b1) indică modificarea șanselor logaritmice așteptate în raport cu o modificare de o unitate în X1, menținând constanți toți ceilalți predictori. Prin urmare, antilogul unui coeficient de regresie estimat, exp(bi), produce un odds ratio, așa cum este ilustrat în exemplul de mai jos.
Exemplu de regresie logistică – Asocierea dintre obezitate și MCV
Am analizat anterior date dintr-un studiu conceput pentru a evalua asocierea dintre obezitate (definită ca IMC > 30) și bolile cardiovasculare incidente. Datele au fost colectate de la participanți cu vârste cuprinse între 35 și 65 de ani și care nu sufereau de boli cardiovasculare (MCV) la momentul inițial. Fiecare participant a fost urmărit timp de 10 ani pentru dezvoltarea bolilor cardiovasculare. Un rezumat al datelor poate fi găsit la pagina 2 a acestui modul. Riscul relativ neajustat sau brut a fost RR = 1,78, iar raportul de probabilitate neajustat sau brut a fost OR =1,93. Am stabilit, de asemenea, că vârsta a fost un factor de confuzie și, utilizând metoda Cochran-Mantel-Haenszel, am estimat un risc relativ ajustat de RRCMH =1,44 și un odds ratio ajustat de ORCMH =1,52. Vom folosi acum analiza de regresie logistică pentru a evalua asocierea dintre obezitate și boala cardiovasculară incidentă, ajustând pentru vârstă.
Analiza de regresie logistică relevă următoarele:
Variabilă independentă |
Coeficient de regresie |
Chi-pătrat |
Valoare-P |
|
---|---|---|---|---|
Intercept |
-2.367 |
307.38 |
0.0001 |
|
Obezitate |
0,658 |
9,87 |
0,87 |
0.0017 |
Modelul de regresie logistică simplă pune în relație obezitatea cu șansele logaritmice de apariție a bolilor cardiovasculare incidente:
Obezitatea este o variabilă indicator în model, codificată după cum urmează: 1=obeză și 0=nu este obeză. Probabilitatea logaritmică a MCV incidente este de 0,658 ori mai mare la persoanele obeze comparativ cu cele care nu sunt obeze. Dacă luăm antilogul al coeficientului de regresie, exp(0,658) = 1,93, obținem odds ratio brut sau neajustat. Șansele de a dezvolta boli cardiovasculare sunt de 1,93 ori mai mari în rândul persoanelor obeze în comparație cu persoanele care nu sunt obeze. Asocierea dintre obezitate și MCV incidente este semnificativă din punct de vedere statistic (p=0,0017). Observați că statisticile de testare pentru a evalua semnificația parametrilor de regresie în cadrul analizei de regresie logistică se bazează pe statistici chi-pătrat, spre deosebire de statisticile t, cum a fost cazul analizei de regresie liniară. Acest lucru se datorează faptului că pentru estimarea parametrilor de regresie se utilizează o tehnică de estimare diferită, numită estimare de maximă verosimilitate, pentru a estima parametrii de regresie (a se vedea Hosmer și Lemeshow3 pentru detalii tehnice).
Multe pachete de calcul statistic generează, de asemenea, rapoarte de probabilitate, precum și intervale de încredere de 95% pentru rapoartele de probabilitate, ca parte a procedurii de analiză a regresiei logistice. În acest exemplu, estimarea raportului de probabilitate este de 1,93, iar intervalul de încredere de 95% este (1,281, 2,913).
Când am examinat asocierea dintre obezitate și MCV, am stabilit anterior că vârsta era un factor de confuzie. următorul model de regresie logistică multiplă estimează asocierea dintre obezitate și MCV incidente, ajustând pentru vârstă. În model luăm din nou în considerare două grupe de vârstă (mai puțin de 50 de ani și 50 de ani și peste). Pentru analiză, grupul de vârstă este codificat după cum urmează: 1=50 de ani și peste și 0=mai puțin de 50 de ani.
Dacă luăm antilogul coeficientului de regresie asociat obezității, exp(0,415) = 1,52, obținem raportul de probabilitate ajustat în funcție de vârstă. Șansele de apariție a bolilor cardiovasculare sunt de 1,52 ori mai mari în rândul persoanelor obeze în comparație cu persoanele care nu sunt obeze, ajustând pentru vârstă. În secțiunea 9.2 am utilizat metoda Cochran-Mantel-Haenszel pentru a genera un odds ratio ajustat în funcție de vârstă și am constatat următoarele:
Aceasta ilustrează modul în care analiza de regresie logistică multiplă poate fi utilizată pentru a ține cont de confuzie. Modelele pot fi extinse pentru a ține cont de mai multe variabile de confuzie simultan. Analiza de regresie logistică multiplă poate fi utilizată, de asemenea, pentru a evalua confuzia și modificarea efectului, iar abordările sunt identice cu cele utilizate în analiza de regresie liniară multiplă. Analiza de regresie logistică multiplă poate fi, de asemenea, utilizată pentru a examina impactul mai multor factori de risc (spre deosebire de concentrarea asupra unui singur factor de risc) asupra unui rezultat dihotomic.
Exemplu – Factori de risc asociați cu greutatea scăzută la naștere a sugarului
Să presupunem că anchetatorii sunt preocupați și de rezultatele adverse ale sarcinii, inclusiv diabetul gestațional, preeclampsia (adică hipertensiunea indusă de sarcină) și travaliul prematur. Reamintim că studiul a implicat 832 de femei însărcinate care furnizează date demografice și clinice. În eșantionul studiat, 22 (2,7%) femei dezvoltă preeclampsie, 35 (4,2%) dezvoltă diabet gestațional și 40 (4,8%) dezvoltă travaliu înainte de termen. Să presupunem că dorim să evaluăm dacă există diferențe în fiecare dintre aceste rezultate adverse ale sarcinii în funcție de rasă/etnie, ajustate în funcție de vârsta maternă. Au fost efectuate trei analize separate de regresie logistică care să relaționeze fiecare rezultat, considerat separat, cu cele 3 variabile fictive sau indicatoare care reflectă rasa mamei și vârsta mamei, în ani. Rezultatele sunt prezentate mai jos.
Rezultat: Pre-eclampsie |
Coeficient de regresie |
Chi-pătrat |
Valoare-P |
Odds Ratio (95% CI) |
|
---|---|---|---|---|---|
Intercept |
-3.066 |
4.518 |
0.0335 |
– |
|
Rasă neagră |
2,191 |
12,640 |
0,0004 |
8.948 (2.673, 29.949) |
|
Rasă hispanică |
-0.1053 |
0.0325 |
0.8570 |
0.900 (0.286, 2.829) |
|
Altă rasă |
0.0586 |
0.0021 |
0.0021 |
0.9046 |
1,060 (0,104, 3,698) |
Vârsta mamei (ani) |
-0,0252 |
0.3574 |
0,5500 |
0,975 (0,898, 1,059) |
Singura diferență statistic semnificativă în ceea ce privește preeclampsia este între mamele de culoare și cele albe.
Mamele de culoare au o probabilitate de aproape 9 ori mai mare de a dezvolta preeclampsie decât mamele albe, ajustată pentru vârsta maternă. Intervalul de încredere de 95% pentru raportul de șanse comparând femeile de culoare cu cele albe care dezvoltă preeclampsie este foarte larg (2,673 până la 29,949). Acest lucru se datorează faptului că există un număr mic de evenimente de rezultat (doar 22 de femei dezvoltă preeclampsie în eșantionul total) și un număr mic de femei de rasă neagră în cadrul studiului. Astfel, această asociere trebuie interpretată cu prudență.
În timp ce raportul de probabilitate este semnificativ din punct de vedere statistic, intervalul de încredere sugerează că magnitudinea efectului ar putea fi de la o creștere de 2,6 ori până la o creștere de 29,9 ori. Este necesar un studiu mai mare pentru a genera o estimare mai precisă a efectului.
Diabet gestațional |
Coeficient de regresie |
Chi-square |
P-value |
Odds Ratio (95% CI) |
---|---|---|---|---|
Intercept |
-5.823 |
22,968 |
0,0001 |
– |
Rasa neagră |
1,621 |
6.660 |
0,0099 |
5,056 (1,477, 17,312) |
Rasă hispanică |
0,581 |
1.766 |
0,1839 |
1,787 (0,759, 4,207) |
Altă rasă |
1,348 |
5.917 |
0.0150 |
3.848 (1.299, 11.395) |
Vârsta mamei (ani) |
0.071 |
4.314 |
0,0378 |
1,073 (1,004, 1,147) |
În ceea ce privește diabetul gestațional, există diferențe semnificative din punct de vedere statistic între mamele de culoare și cele albe (p=0,0099) și între mamele care se identifică ca fiind de altă rasă în comparație cu cele albe (p=0,0150), ajustate pentru vârsta mamei. Vârsta mamei este, de asemenea, semnificativă din punct de vedere statistic (p=0,0378), femeile mai în vârstă având o probabilitate mai mare de a dezvolta diabet gestațional, ajustată în funcție de rasă/etnie.
Rezultat: Naștere prematură |
Coeficient de regresie |
Chi-square |
Valoare-P |
Odds Ratio (95% CI) |
---|---|---|---|---|
Intercept |
-1.443 |
1.602 |
0.2056 |
– |
Rasa neagră |
-0,082 |
0,015 |
0.9039 |
0,921 (0,244, 3,483) |
Rasă hispanică |
-1,564 |
9.497 |
0,0021 |
0,209 (0,077, 0,566) |
Altă rasă |
0.548 |
1.124 |
0.2890 |
1.730 (0.628,4.767) |
Vârsta mamei (ani.) |
00,037 |
1,198 |
0,2737 |
0,963 (0,901, 1,030) |
În ceea ce privește travaliul înainte de termen, singura diferență semnificativă statistic este între mamele hispanice și cele albe (p=0,0021). Mamele hispanice au cu 80% mai puține șanse de a dezvolta travaliu înainte de termen decât mamele albe (odds ratio = 0,209), ajustat pentru vârsta mamei.
Metodele multivariabile sunt complexe din punct de vedere computațional și, în general, necesită utilizarea unui pachet de calcul statistic. Metodele multivariabile pot fi utilizate pentru a evalua și ajusta pentru confuzie, pentru a determina dacă există o modificare a efectului sau pentru a evalua simultan relațiile dintre mai mulți factori de expunere sau de risc asupra unui rezultat. Analizele multivariabile sunt complexe și trebuie întotdeauna planificate pentru a reflecta relațiile plauzibile din punct de vedere biologic. Deși este relativ ușor să se ia în considerare o variabilă suplimentară într-un model de regresie liniară multiplă sau de regresie logistică multiplă, ar trebui incluse doar variabilele care sunt semnificative din punct de vedere clinic.
Este important să ne amintim că modelele multivariabile pot ajusta sau ține cont doar de diferențele dintre variabilele de confuzie care au fost măsurate în cadrul studiului. În plus, modelele multivariabile ar trebui să fie utilizate pentru a ține cont de factori de confuzie numai atunci când există o anumită suprapunere în distribuția factorului de confuzie fiecare dintre grupurile de factori de risc.
Analizele stratificate sunt foarte informative, dar dacă eșantioanele din anumite straturi sunt prea mici, analizele pot fi lipsite de precizie. În planificarea studiilor, investigatorii trebuie să acorde o atenție deosebită potențialilor modificatori de efect. Dacă există suspiciunea că o asociere între o expunere sau un factor de risc este diferită în grupuri specifice, atunci studiul trebuie să fie conceput astfel încât să asigure un număr suficient de participanți în fiecare dintre aceste grupuri. Trebuie utilizate formule de mărime a eșantioanelor pentru a determina numărul de subiecți necesar în fiecare strat pentru a asigura o precizie sau o putere adecvată în analiză.
înapoi sus | pagina anterioară | pagina următoare
.