Phi (coeficiente de correlación y asociación)

El coeficiente phi de Pearson es una medida de correlación entre dos variables dicotómicas o binarias que coincide con el coeficiente de correlación de Pearson y por tanto se calcula a través de la fórmula de este último cuando las modalidades de las variables se han codificado con los valores de 0 y 1. Puede calcularse también directamente, como medida de asociación,  a partir de la tabla de contingencia 2x2 asociada a las dos variables a través de dos fórmulas diferentes:

  • por un lado, a través del coeficiente de correlación de Matthew, que utiliza como datos las frecuencias simples y marginales de la tabla de la contingencia; codificando las frecuencias de la tabla de frecuencia de esta forma:
Tabla de contingencia


Totales

a
b
a+b

c
d
c+d
Totales
a+c
b+d
a+b+c+d

$$\phi=\cfrac{ac-bd}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}$$

  • por otro lado, tomando como dato el estadístico chi-cuadrado asociado a la tabla de contingencia:

$$\phi=\sqrt{\cfrac{\chi^2}{n}}$$

Tanto calculado a través del coeficiente de correlación de Pearson como a través del coeficiente de correlación de Matthew, el coeficiente phi toma valores en el intervalo [-1,1], interpretándose de acuerdo a un coeficiente de correlación común. Más concretamente, cuando se calcula como coeficiente de correlación de Pearson, la interpretación dependerá de la forma en que se han asignado los valores 0 y 1 a las dos modalidades de cada variable.  Cuando se calcula como coeficiente de correlación de Matthew un valor cercano a 1 indica asociación intensa entre los pares de modalidades a y d; un valor cercano a -1, una asociación intensa entre los pares de modalidades b y c; y un valor cercano a 0 indica disociación o falta de asociación entre ambas variables.

Calculado como medida de asociación estadística derivada del estadístico chi-cuadrado, el coeficiente toma valores entre 0 y 1, indicando un valor cercano a 0 una asociación nula o débil entre ambas variables; y un valor cercano a 1 una asociación intensa, sin que se pueda afirmar nada en relación a la dirección de la asociación sin análisis complementarios. 

El coeficiente phi suele utilizarse también como medida de asociación estadística para tablas no binarias, esto es, con dimensiones superiores a 2x2. Sin embargo, en estos casos phi nunca alcanza el valor de 1, como ocurre en las tablas binarias. Como solución a este inconveniente, puede calcularse el valor máximo de phi cuadrado para estas tablas de dimensión superior que es:

$$\phi^2_{max}=min(r-1,c-1)$$

donde \(r\) es el número de fila y \(c\) es el número de columnas de la tabla. A continuación, para normalizar, es decir, para limitar el coeficiente phi al intervalo  [0,1] en estas tablas, es suficiente dividir el valor de phi cuadrado entre dicho valor máximo. Cuando se aplica esta corrección, el coeficiente resultante es la V de Cramér. Cuando la tabla de contingencia de dimensión superior es cuadrada o k x k, el valor máximo del coeficiente phi cuadrado es \(min(r-1,c-1)=k-1=\sqrt{(r-1)(c-1)}\); dividiendo phi entre dicho valor máximo, resulta el coeficiente de asociación T de Tschuprow, que solo alcanzará el valor 1 cuando la tabla es cuadrada, como hemos dicho. 

Puede interesarte también



Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Phi (coeficiente de correlación y asociación)" (en línea)   Enlace al artículo
Última actualización: 19/01/2025

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta
Sigue aprendiendo en Audible

Apoya nuestro contenido registrándote en Audible, sigue aprendiendo gratis a través de este link!


Cálculo de la moda estadística para datos agrupados en intervalos

En el documento adjunto, se explica el cálculo aproximado de la moda estadística para una distribución de datos agrupada en intervalos. Puede visualizar y descargar el documento aquí, en formato PDF....

Distribución mesocúrtica, distribución platicúrtica y distribución leptocúrtica

El análisis y medida de la curtosis permite distinguir entre distribuciones mesocúrticas, leptocúrticas y platicúrticas. Una distribución mesocúrtica es una distribución que posee un nivel de curtosis medio (meso), esto es, similar al de una distribución normal, que posee un nivel de curtosis f...

Límites aparentes de clase

En una distribución de datos agrupados en intervalos generalmente se recomienda que los intervalos se muestren con límites nominales contiguos, de forma que el límite superior de un intervalo de clase coincide  con el límite inferior del intervalo siguiente, con la convención de que los da...

Censo estadístico

Un censo estadístico es la contabilización, recuento y análisis exhaustivo de todas las unidades que conforman una población o universo en un territorio y momento determinado. Hace referencia tanto al conjunto de operaciones necesarias para dicho recuento, como al propio resultado final de dichas op...