Cómo utilizar Aplicar para crear tabulares Resúmenes en R

October 30

Utiliza tapply () para crear resúmenes tabulares de datos en R. Con tapply (), usted puede crear fácilmente resúmenes de los subgrupos en los datos. Esta función tiene tres argumentos:

  • X: Un vector
  • INDEX: Un factor o lista de factores
  • DIVERSIÓN: Una función

Por ejemplo, calcular la longitud sépalo media en el iris del conjunto de datos:

> Tapply (iris $ Sepal.Length, iris $ Especies, media)
setosa versicolor virginica
5.006 5.936 6.588

Con este breve línea de código, que hagas algunas cosas de gran alcance. Usted le dice a R a tomar la columna de la Sepal.Length, dividirlo según la especie, y luego calcular la media para cada grupo.

Esta es una expresión importante para escribir código en R, y por lo general se conoce con el nombre de Split, en Aplicar y, Combine (SAC). En este caso, dividir un vector en grupos, aplicar una función a cada grupo, y luego combinar los resultados en un vector.

Por supuesto, el uso de la función con (), usted puede escribir su línea de código en una forma un poco más legible:

> Con (iris, tapply (Sepal.Length, Especies, significa))
setosa versicolor virginica
5.006 5.936 6.588

Utilizando tapply (), también puede crear tablas más complejas para resumir sus datos. Esto se hace mediante el uso de una lista como su argumento INDEX.

Cómo utilizar tapply () para crear tablas de dimensiones superiores

Por ejemplo, tratar de resumir los mtcars marco de datos, una trama de datos integrada con datos sobre motores para automóviles y rendimiento. Al igual que con cualquier objeto, puede utilizar str () para inspeccionar su estructura:

> str (mtcars)

La variable am es un vector numérico que indica si el motor tiene un (0) o manual (1) caja de cambios automática. Debido a que este isnâ € ™ t muy descriptivo, empezar por la creación de un nuevo objeto, los coches, que es una copia de mtcars, y cambiar la columna de la mañana a ser un factor:

> coches <- dentro (mtcars,
+ Am <- Factor (am, los niveles = 0: 1, etiquetas = c ("Automatic", "Manual"))
+)

Ahora usa tapply () para encontrar las millas promedio por galón (mpg) para cada tipo de caja de cambios:

> Con (coches, tapply (mpg, AM, significan))
Manual Automático
17.14737 24.39231

Sí, es € ™ re correcta. Esto es todavía sólo una tabla unidimensional. Ahora, trata de hacer una tabla de dos dimensiones con el tipo de caja de cambios (am) y número de velocidades (engranajes):

> Con (automóviles, tapply (mpg, lista (engranajes, am), media))
Manual Automático
3 16.10667 NA
4 21.05000 26.275
5 NA 21.380

Utiliza tapply () para crear resúmenes tabulares de datos. Esto es un poco similar a la función de tabla (). Sin embargo, la tabla () puede crear sólo las tablas de contingencia (es decir, tablas de cuentas), mientras que con tapply () se puede especificar cualquier función que la función de agregación. En otras palabras, con tapply (), se puede calcular el recuento, medios, o cualquier otro valor.

Si desea resumir las estadísticas en un solo vector, tapply () es muy útil y rápido de usar.

Modo de empleo agregado ()

Otra de las funciones de I que hace algo muy similar es agregada ():

> Con (automóviles, agregada (mpg, lista (engranajes = marcha, am = am), media))
engranajes am x
1 3 16.10667 automática
2 4 automática 21.05000
3 4 Manual 26.27500
4 5 Manual 21.38000

A continuación, se toma agregada () a nuevas alturas con la interfaz de fórmula.