Poblaciones, muestras y variables.

En toda investigación científica y, en general, en la toma de decisiones de cualquier actividad humana, se requiere tener información. Así, en demografía interesa conocer la edad al momento de contraer matrimonio, el número de hijos, la longevidad, etc. Del mismo modo, en economía interesa conocer el ingreso de las personas, su situación ocupacional, su nivel socioeconómico; si se trata de empresas, interesan los capitales, ganancias, etc. En salud, es importante tener información sobre desnutrición infantil, incidencia de determinadas enfermedades, número de prestaciones hospitalarias, entre muchas otras variables.

En los ejemplos anteriores la información consiste en el conocimiento detallado de las características de ciertos elementos. Por ejemplo nos puede interesar saber :
La edad de una persona al momento de contraer matrimonio.
El número de hijos de una familia.
El capital de una empresa.
La presencia de defectos en un envase de vidrio.

En el primer caso, los elementos son personas individuales; en el segundo se trata de familias; y en los casos restantes, son empresas y envases de vidrio. Las características que nos interesa medir o determinar en cada elemento, varían de uno a otro. Nos referiremos a ellas en lo sucesivo con el nombre de variables. De esta forma, edad, número de hijos, capital y presencia de defectos, son ejemplos de variables. La edad es variable en el sentido que cambia de una persona a otra. Sin embargo, una vez seleccionada la persona cuya edad queremos determinar, su edad es un número fijo. Supongamos, por ejemplo, que Ana Rojas pertenece a cierta población y tiene 17 años. Diremos entonces que el valor de la variable edad (expresada en años) para el elemento Ana Rojas es 17. Análogamente, un envase de vidrio puede tener defectos o no y, por tanto, la presencia de defectos es también una variable. Los valores posibles de esta variable son, en este caso, SI y NO.

Cuando queremos estudiar una variable es importante tener claro cuáles son aquellos elementos, de los que queremos saber su valor. Al conjunto de estos elementos lo denominaremos población y al número de elementos de este conjunto lo llamaremos tamaño de la población, y lo denotaremos por N. El uso de la palabra población tiene aquí un significado técnico. En efecto, los elementos de la población no son necesariamente personas. Así, en los ejemplos precedentes, aparecen poblaciones de personas, familias, empresas y envases de vidrios. No es difícil pensar en otras situaciones donde las poblaciones estén constituidas por huevos, automóviles o componentes electrónicos.

Es conveniente clasificar las variables de acuerdo al conjunto de valores posibles que ellas puedan tener.Los valores de las variables edad, capital, número de hijos, se expresan en forma numérica. En cambio, presencia de defectos, sabor, posición política no pueden expresarse así, salvo de manera artificial. Podemos distinguir, entonces, dos tipos de variables :
- Variables numéricas.
- Variables no numéricas.
Las variables numéricas se llaman también cuantitativas y, las no numéricas; se denominan, alternativamente, cualitativas, categóricas o nominales.
La variable edad y la variable número de hijos son numéricas. Sin embargo, el número de hijos sólo puede ser : 0, 1, 2, ..., vale decir, un entero no negativo. No tiene sentido hablar de valor intermedios como 1,3 hijos. Por el contrario, si bien la edad se expresa en años cumplidos, esto lo podemos refinar usando meses, días, horas, minutos, segundos, etc. O sea entre dos valores cualesquiera de la variable edad, por cercanos que sean, existe siempre un valor intermedio. Esto sugiere la siguiente definición general :

Si una variable numérica tiene un conjunto finito de valores posibles, careciendo de sentido los valores intermedios, ella se denomina variable discreta. Si, dados dos valores cualesquiera de la variable, siempre existe un valor intermedio, decimos que ella es una variable continua.

Retomemos ahora el punto principal: se desea información sobre los valores de ciertas variables de interés en cada uno de los elementos de la población. Por ejemplo, la estructura exacta de las edades en la población chilena, sólo puede conocerse determinando la edad de cada uno de los habitantes de Chile. La determinación de los valores de una o más variables de interés, en cada uno de los elementos de una población, es una actividad que llamaremos censo.

La realización de un censo es una actividad compleja y costosa. En el caso de los envases, deberíamos examinar cada uno de ellos (y pueden ser millones). Aún cuando esto se pudiera hacer, el costo de una revisión exhaustiva sería tan alto que encarecería excesivamente el envase. La palabra censo aparece vinculada normalmente con los "censos nacionales de población". Estos se efectúan, por razones económicas, sólo cada diez años. En el intertanto es necesario contar con información sobre la situación del momento. Las decisiones no pueden basarse sólo en el resultado del último censo, ni pueden esperar a que se realice el próximo.

Además de las dificultades ya señaladas, los censos sólo miden variables de tipo general. Por ejemplo, poco aportan los resultados del último censo que se haya realizado, a la predicción del comportamiento de los votantes en una próxima elección. La discusión anterior indica que, muy raramente, es posible recolectar información completa. Tenemos que contentarnos, entonces, con información incompleta o parcial, lo que significa que los valores de las variables que nos interesan, se miden sólo en algunos elementos de la población. Se puede preguntar la edad sólo a algunas personas, determinar el capital de sólo algunas empresas, revisar sólo algunos envases, etc. Cuando compramos fruta es posible, con buena suerte, que podamos probar algunas de ellas. Es ilusorio pensar que podríamos probar toda la fruta antes de comprarla. Las personas a las cuales se les pregunta la edad, las empresas cuyo capital se determina, los envases que se revisan, o las frutas que se prueban, constituyen ejemplos de que denominaremos muestra. La definición formal de este concepto es particularmente sencilla :

Una muestra es un subconjunto de la población. El tamaño de la muestra es el número de elementos que ella contiene.


"La Estadística" G. Del Pino-O.Ferreiro - P.Fernández
Universidad Católica de Chile - Teleduc.

Correlación.

La correlación es un método estadístico que permite determinar la presencia o ausencia de asociación entre dos variables sometidas a investigación. Por ejemplo se puede medir el grado de asociación entre el rendimiento académico y el nivel socioeconómico de una muestra de unidades de observación. La correlación se describe por medio de índices estadísticos denominados coeficientes de correlación, que pueden sugerir si el cambio de una variable se asocia con el cambio de la otra variable.

El índice más utilizado para medir la relación entre dos variables es el coeficiente de correlación lineal de Pearson. Este coeficiente (r) es un índice que mide la magnitud de la relación lineal entre 2 variables cuantitativas, así como el sentido, positivo o negativo, de dicha relación.
Indica en qué grado 2 variables x e y fluctúan simultáneamente, es decir, cuanto aumenta x al aumentar y (correlación positiva), o cuanto aumenta x al disminuir y (correlación negativa).

La regresión como una técnica estadística, una de ellas la regresión lineal simple, analiza la relación de dos o más variables contínuas, es decir, variables bivariantes.
Tenemos ecuaciones que pueden representar las diferentes clases de regresión, por ejemplo la recta de regresión lineal y = mx + n.

Las teorías de la correlación y la regresión se deben al médico inglés Francis Galton (1822-1917).
Galton fue el primero en asignar un número a un conjunto de variables, y de esta forma obtener una medida del grado de relación existente entre ellas.
Al inglés Karl Pearson (1857-1936) se deben aportes en Estadística como el coeficiente de correlación lineal (r) que es un número que varía entre -1 y +1, indicando el grado de relación existente entre dos variables cuantitativas.