Phi (coeficiente de correlación y asociación)

El coeficiente phi de Pearson es una medida de correlación entre dos variables dicotómicas o binarias que coincide con el coeficiente de correlación de Pearson y por tanto se calcula a través de la fórmula de este último cuando las modalidades de las variables se han codificado con los valores de 0 y 1. Puede calcularse también directamente, como medida de asociación,  a partir de la tabla de contingencia 2x2 asociada a las dos variables a través de dos fórmulas diferentes:

  • por un lado, a través del coeficiente de correlación de Matthew, que utiliza como datos las frecuencias simples y marginales de la tabla de la contingencia; codificando las frecuencias de la tabla de frecuencia de esta forma:
Tabla de contingencia


Totales

a
b
a+b

c
d
c+d
Totales
a+c
b+d
a+b+c+d

$$\phi=\cfrac{ac-bd}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}$$

  • por otro lado, tomando como dato el estadístico chi-cuadrado asociado a la tabla de contingencia:

$$\phi=\sqrt{\cfrac{\chi^2}{n}}$$

Tanto calculado a través del coeficiente de correlación de Pearson como a través del coeficiente de correlación de Matthew, el coeficiente phi toma valores en el intervalo [-1,1], interpretándose de acuerdo a un coeficiente de correlación común. Más concretamente, cuando se calcula como coeficiente de correlación de Pearson, la interpretación dependerá de la forma en que se han asignado los valores 0 y 1 a las dos modalidades de cada variable.  Cuando se calcula como coeficiente de correlación de Matthew un valor cercano a 1 indica asociación intensa entre los pares de modalidades a y d; un valor cercano a -1, una asociación intensa entre los pares de modalidades b y c; y un valor cercano a 0 indica disociación o falta de asociación entre ambas variables.

Calculado como medida de asociación estadística derivada del estadístico chi-cuadrado, el coeficiente toma valores entre 0 y 1, indicando un valor cercano a 0 una asociación nula o débil entre ambas variables; y un valor cercano a 1 una asociación intensa, sin que se pueda afirmar nada en relación a la dirección de la asociación sin análisis complementarios. 

El coeficiente phi suele utilizarse también como medida de asociación estadística para tablas no binarias, esto es, con dimensiones superiores a 2x2. Sin embargo, en estos casos phi nunca alcanza el valor de 1, como ocurre en las tablas binarias. Como solución a este inconveniente, puede calcularse el valor máximo de phi cuadrado para estas tablas de dimensión superior que es:

$$\phi^2_{max}=min(r-1,c-1)$$

donde \(r\) es el número de fila y \(c\) es el número de columnas de la tabla. A continuación, para normalizar, es decir, para limitar el coeficiente phi al intervalo  [0,1] en estas tablas, es suficiente dividir el valor de phi cuadrado entre dicho valor máximo. Cuando se aplica esta corrección, el coeficiente resultante es la V de Cramér. Cuando la tabla de contingencia de dimensión superior es cuadrada o k x k, el valor máximo del coeficiente phi cuadrado es \(min(r-1,c-1)=k-1=\sqrt{(r-1)(c-1)}\); dividiendo phi entre dicho valor máximo, resulta el coeficiente de asociación T de Tschuprow, que solo alcanzará el valor 1 cuando la tabla es cuadrada, como hemos dicho. 

Puede interesarte también



Como citar: Sarasola, Josemari (2024) en ikusmira.org
"Phi (coeficiente de correlación y asociación)" (en línea)   Enlace al artículo
Última actualización: 06/05/2025

¿Tienes preguntas sobre este artículo?

Envíanos tu pregunta e intentaremos responderte lo antes posible.

Nombre
Email
Tu pregunta
Sigue aprendiendo en Audible

Apoya nuestro contenido registrándote en Audible, sigue aprendiendo gratis a través de este link!


Variable estadística unidimensional

Una variable estadística unidimensional es una variable estadística que recoge o mide únicamente una característica de una serie de elementos; por ejemplo, el peso en un grupo de niños o el nivel de estudios en un conjunto de personas. En el caso de una variable unidimensional cuantitativa, su anál...

Probabilidad empírica (probabilidad experimental, probabilidad frecuencial)

La probabilidad frecuencial, probabilidad empírica o probabilidad experimental es la probabilidad de ocurrencia de un suceso entendida y calculada como la frecuencia relativa o porcentaje de aparición de dicho suceso en una secuencia de datos tomados de la realidad. Por ejemplo, si se lanza una mone...

Distribución muestral de un estimador

La distribución muestral de un estimador, también llamada distribución de muestreo o distribución en el muestreo de un estimador o estadístico, es la distribución de probabilidad de los valores que puede tomar un estimador concreto en el caso de que se tome una muestra aleatoria.  Cuando se to...

Coeficiente de variación

El coeficiente de variación o desviación típica porcentual se calcula dividiendo la desviación típica entre la media aritmética simple: $$CV=\frac{s_x}{\overline{x}}$$ Se trata de una medida de dispersión relativa; es decir, se utiliza para comparar dispersiones de diferentes conjuntos de datos. C...