lunes, 26 de mayo de 2008

comentario

el diagrama de caja consiste en describir caracteristicas importantes de un conjunto de datos como el alejamiento de una simetria y la identificacion de valores que se encuentran extremadamente de la distribucion de datos

viernes, 23 de mayo de 2008

box plot

ESTADÍSTICA DESCRIPTIVA


DIAGRAMA DE CAJAS Y BIGOTES (Box and Whisker Plot)

Presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, el alejamiento de la simetría, y la identificación de valores extremos (puntos atípicos), es decir, de valores que se alejan de una manera poco usual del resto de los datos.

Presenta los tres cuartiles, (y los valores mínimos y máximos) alineados sobre una caja vertical u horizontalmente.

Procedimiento

Para el diagrama de cajas y bigotes se requiere

Calcular la mediana y los otros dos cuartiles, con los cuales se formará la caja, que tiene la mediana como eje central, y como lados los dos cuartiles. Estos cuartiles reciben también los nombres de " bisagras". La altura (anchura) de la caja no interesa.


La distancia H definida como la distancia entre el cuartil superior y el cuartil inferior, es decir, corresponde al rango intecuartílico Þ H = Q3 - Q1 = RIC.


El paso correspondiente a 1.5 veces la distancia Þ Paso = 1.5 H


Cercas Internas, ubicadas a un paso de las bisagras o de los respectivos cuartiles. Así, las Cercas Internas Inferior (CIi) y Superior (CIs) estarán dadas por:

CIi = Q1 - Paso
CIs = Q3 + Paso

Si la cerca interna inferior da menor que el valor mínimo de la muestra, ésta se hace igual al valor mínimo; igualmente, si la cerca interna superior da mayor que el valor máximo, ésta se hace igual a dicho valor.


Cercas Externas, ubicadas a un paso de las cercas internas. Así, las Cercas Externas Inferior (CEi) y Superior (CEs) estarán dadas por:

CEi = CIi - Paso
CEs = CIs + Paso


Se denominan "valores adyacentes" los ubicados entre las cercas internas y los bordes de las cajas. Por simplicidad no se grafican.


"Valores extremos" son los ubicados entre las dos cercas, y merecen especial atención, ya que pueden ser valores atípicos, que, en algunos casos, no pertenecen realmente a la distribución general de donde provienen los datos.


"Valores lejanos" o , ubicados por fuera de las cercas externas, correspondientes a valores extremos, que requieren un mayor análisis que los valores atípicos.


Considere los siguientes datos, correspondientes a



De este conjunto de datos tenemos que:

Me = 90.45
Q1 = 88.25
Q3 = 92.2

Rango intercuartílico = RIC = 92.2-88.25 = 3.95 Þ Paso = 5.925
Cercas interna inferior = 88.25 - 5.925 = 82.325
Cerca interna superior = 92.20 + 5.925 = 98.125
Cerca externa inferior = 82.325 - 5.925 = 76.40
Cerca externa superior = 98.125 + 5.925 = 104.05






Como se observa hay dos valores que merecen especial atención: 98.8 y 100.3 que están entre las cercas interna y externa superior.






Presentación Presentación Objetivos Objetivos Metodología Metodología Programa detallado Programa detallado Evaluación Evaluación Bibliografía Bibliografía Notas Notas Introducción Introducción Presentación gráfica de la información Presentación gráfica de la información Medidas resumen Medidas resumen Diagrama de cajas y bigotes Diagrama de cajas y bigotes Gráficos de series de tiempo Gráficos de series de tiempo Gráficos de dispersión y medidas relacionadas Gráficos de dispersión y medidas relacionadas Diagramas de sectores y de barras Diagramas de sectores y de barras Problemas Problemas Introducción Introducción Principales estadísticos Principales estadísticos Distribuciones límites Distribuciones límites Distribuciones muestrales Distribuciones muestrales Teorema Central del Límite Teorema Central del Límite Distribución de la proporción Distribución de la proporción Distribución de la diferencia entre proporciones Distribución de la diferencia entre proporciones Distribución chi cuadrado Distribución chi cuadrado Distribución t Distribución t Distribución F Distribución F Distribución de la diferencia entre dos medias Distribución de la diferencia entre dos medias Resumen Resumen Problemas Problemas Introducción Introducción Propiedades de los estimadores Propiedades de los estimadores Métodos de estimación Métodos de estimación Problemas Problemas Introducción Introducción Para la media Para la media Para la diferencia de dos medias Para la diferencia de dos medias Para una proporción Para una proporción Para la diferencia de dos proporciones Para la diferencia de dos proporciones Para la varianza de una distribución normal Para la varianza de una distribución normal Para la relación de varianzas de dos distribuciones normales Para la relación de varianzas de dos distribuciones normales Para observaciones apareadas Para observaciones apareadas Resumen Resumen Problemas Problemas Por qué tomar sólo una muestra cuando la población es finita? Por qué tomar sólo una muestra cuando la población es finita? La especificación de la población y la característica de interes La especificación de la población y la característica de interes Muestreo probabilístico Muestreo probabilístico Sesgo y sus fuentes Sesgo y sus fuentes Usando una tabla de números aleatorios Usando una tabla de números aleatorios Muestreo aleatorio simple Muestreo aleatorio simple Muestreo para determinar una proporción Muestreo para determinar una proporción Muestreo aleatorio estratificado Muestreo aleatorio estratificado Asignación de tamaños de muestras Asignación de tamaños de muestras Muestreo estratificado para determinar una proporción Muestreo estratificado para determinar una proporción Otros métodos de muestreo Otros métodos de muestreo Planeación de un estudio muestral Planeación de un estudio muestral Resumen Resumen Problemas Problemas Introducción Introducción Definiciones Definiciones Curva característica operativa y función de potencia de una prueba Curva característica operativa y función de potencia de una prueba Las mejores pruebas Las mejores pruebas Para la media Para la media Para diferencia de medias Para diferencia de medias Para observaciones apareadas Para observaciones apareadas Para la varianza Para la varianza Para relación de varianzas Para relación de varianzas Sobre proporciones y diferencia de proporciones Sobre proporciones y diferencia de proporciones Pruebas de bondad de ajuste Pruebas de bondad de ajuste Resumen Resumen Problemas Problemas Definición Definición Aspectos especiales Aspectos especiales Ventanas Ventanas Datos para los análisis (variables) y su definición Datos para los análisis (variables) y su definición Menús principales Menús principales Barras de herramientas Barras de herramientas Procedimiento general de análisis Procedimiento general de análisis Uso de gráficos (menú Plot) Uso de gráficos (menú Plot) Análisis usando el menú Describe Análisis usando el menú Describe Algunos resultados Algunos resultados Distribución normal Distribución normal Distribución t Distribución t Distribución chi cuadrado Distribución chi cuadrado Disribución F Disribución F Distribución binomial Distribución binomial Distribución de Poisson Distribución de Poisson Statgraphics Statgraphics Tablas estadísticas Tablas estadísticas Aproximación al TCL Aproximación al TCL Descarga documetos Descarga documetos

comentario

el area bajo la curva es unadistribucion onde podemos encontrar porcentajes y datos para darnos resultados de un fenomeno en el cual lo estemos decifrando.

DISTRIBUCION DE PORCENTAJES BAJO LA CURVA (GRÁFICA)



Características de la distribución de probabilidad normal

inicio

arriba

La distribución de probabilidad normal y su curva tiene las siguientes características:

1. La curva normal tiene forma de campana. La media, la moda y la mediana de la distribución son iguales y se localizan en el centro de la distribución.


Distribución Normal
2. La distribución de probabilidad normal es simétrica alrededor de su media. Por lo tanto, la mitad del área bajo la curva está antes del punto central y la otra mitad después. El área total bajo la curva es igual a 1.

3. La curva normal se aproxima de manera asintótica al eje horizontal conforme se aleja de la media en cualquier dirección. Esto significa que la curva se acerca al eje horizontal conforme se aleja de la media, pero nunca lo llega a tocar.



La familia de la distribución de probabilidad normal

inicio

arriba

La forma de la campana de Gauss depende de los parámetros m y s . La media indica la posición de la campana, de modo que para diferentes valores de la gráfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de s, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.

Como se deduce, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su desviación estándar. En la siguiente gráfica puedes ver como cambia la curva normal al variar la desviación estándar y como se mueve sobre el eje horizontal al variar la media:

La Familia de la Distribución NormalCURVA 1: MEDIA DESV. ESTANDAR
CURVA 2: MEDIA DESV. ESTANDAR

La distribución normal estándar

inicio

arriba

Para facilitar los cálculos se decidió tabular la normal para diferentes probabilidades con variables que siguen la distribución normal. Pero, puesto que sería imposible tener una tabla para cada posible distribución normal, se elaboró solo una tabla, la tabla de la distribución normal estándar, que es la distribución con media igual a cero y desviación estándar igual a uno.

De esta manera solo se tiene que transformar o estandarizar una distribución normal específica, se reviza la tabla, y se conoce la probabilidad. Para estandarizar los valores de una variable, se utiliza la siguiente fórmula:

z = x – m
s

Gracias a esta fórmula podemos transformar cualquier distribución normal a la distribución normal estándar.



Áreas bajo la curva normal

inicio

arriba

Una característica que tiene cualquier distribución normal es que el área bajo la curva, que representa la probabilidad de que la variable aleatoria tome ciertos valores, se distribuye siempre en la misma proporción.

En la tabla de la distribución normal estándar, están registradas las áreas bajo la curva normal que se encuentran a la derecha de los valores Z positivos, de esta forma solo se necesita transformar la distribución normal de interés en una distribución normal estándar mediante la fórmula, y el área a la derecha del valor z será el mismo que el área a la derecha de x.

Ejemplo

Los coeficientes intelectuales de 600 aspirantes de cierta universidad se distribuyen aproximadamente de forma normal con una media de 115 y una desviación estándar de 12. Si se selecciona un aspirante al azar, encuentre la probabilidad de que:

a) Tenga un coeficiente mayor de 120.

b) Tenga un coeficiente menor de 100.

c) Tenga un coeficiente menor de 122.

d) Tenga un coeficiente entre 115 y 125.

e) Tenga un coeficiente entre 90 y 105.

Solución.

a) Hay una distribución normal con media 115 y desviación estándar de 12 y queremos saber cual es la probabilidad de que x sea mayor de 120, es decir, cuanto mide el área a la derecha del 120.

Lo primero es transformar esta distribución normal en una distribución normal estándar (con media cero y desviación estándar 1), para lo cual hay que cambiar el valor de x por un valor Z con la fórmula.

z = x – m = 120 – 115 = 0.41
s 12

La distribución ya transformada queda así:



Se busca el valor del área a la derecha del valor Z en la tabla de áreas bajo la curva normal, la unidad y la primer decimal se buscan en la primer columna, y la segunda decimal en el primer renglón, donde se cruzan renglón y columna es el valor del área a la derecha del valor z. En este ejemplo:

COMENTARIO:

los valores estandarizados son practicamente encontrados en la tabla de valores lo cual lol representa la z y que ladistribucion desempeña un papel importante.

valor estandarizado

Una distribución normal que tiene media igual a 0 y desvición estándar igual a 1 se denomina distribución normal estándar.
Valor z: la distancia entre un valor seleccionado, designado como X, y la población media μ, dividida entre la desviación estándar de la población σ,

AREA BAJO LA CURVA

ÁREA BAJO LA CURVA
El concepto de área lo hemos manejado ampliamente en cursos básicos, de hecho para las figuras geométricas como el rectángulo el cálculo de su área se define como el producto de su base por su altura, del mismo modo para calcular el área de un triángulo multiplicamos su base por su altura y al resultado lo dividimos entre dos. Para calcular el área de cualquier polígono (regular e irregular) solo debemos triangular (construir triángulos en su área), calcular el área de cada uno de ellos y sumarlas...
En todas las situaciones anteriores el proceso para el cálculo del área es relativamente simple, sin embargo cuando tenemos una figura como la siguiente en la cual uno o varios de sus lados que limitan la región en la cual queremos calcular el área son curvas, no tenemos un proceso claro.


La gráfica corresponde a la función
Por lo tanto debemos proponer intuitivamente un proceso similar a la triangulación (explicada en el primer párrafo de este artículo), es decir, vamos a "rectangular" el área... Este método consiste en trazar varios rectángulos que aproximen el área de la región deseada, esto lo podemos ver en las siguientes gráfica...
En ambas gráficas podemos ver que el área calculada va a tener pequeños márgenes de error, en la primera (rectángulos amarillos) vemos que estamos calculando un área mayor mientras que en la segunda (rectángulos verdes) calculamos un área menor...
En ambas situaciones podemos identificar que la base de todos los rectángulos es de 0.25 unidades mientras que la altura es fácil de obtener usando un simple evaluación de funciones:
De esta manera podemos proponer la siguiente tabla para el área aproximada de los rectángulos verdes y de los rectángulos amarillos.


Los resultados anteriores nos van conduciendo cada vez más a poder determinar con precisión el valor del área, el Cálculo nos brinda el concepto del límite, el cual nos puede ser de mucha ayuda para poder determinar con total exactitud el área bajo la curva...
El proceso que hemos seguido es calcular las áreas de todos y cada uno de los rectángulos trazados por tanto podemos afirmar que una buena aproximación del área bajo la curva está dada por la expresión
Donde Ar es la suma de todas las áreas de los rectángulos, "delta x" es la base del rectángulo y f(xn) es la altura.
El área bajo la curva será exacta cuanto el número de rectángulos "n" sea infinito y por tanto el área bajo la curva estará dada por la expresión: