Cómo ampliar la funcionalidad Texto Stringr en R

November 21

Si usted ha trabajado en absoluto con las funciones de manipulación de texto de R, es probable que se preguntan por qué todas estas funciones tienen nombres tan inmemorables y sintaxis aparentemente diverso. Si es así, usted no está solo.

De hecho, Hadley Wickham escribió un paquete disponible de CRAN que simplifica y estandariza el trabajo con texto en R. Este paquete se llama stringr, y se puede instalar mediante el uso de la consola de R o seleccionando Herramientas → instalar paquetes en RStudio.

Aunque usted tiene que instalar un paquete de una sola vez, usted tiene que cargarlo en el espacio de trabajo utilizando la función cada vez que se inicia una nueva sesión de R y planea utilizar las funciones en ese paquete de biblioteca ().

install.packages ("stringr")
biblioteca (stringr)

Estas son algunas de las ventajas de utilizar stringr en lugar de las funciones R estándar:

  • Los nombres de funciones y argumentos son coherentes y más descriptivo. Por ejemplo, todas las funciones stringr tienen nombres que comienzan con funciones str_ (como str_detect () y str_replace ()).
  • stringr tiene una manera más coherente de tratar los casos con datos faltantes o valores vacíos.
  • stringr tiene una forma más consistente de asegurar que los datos de entrada y de salida son del mismo tipo.

El equivalente stringr para grep () es str_detect (), y el equivalente para gsub () es str_replace_all ().

Como punto de partida para explorar stringr, es posible que algunas de estas funciones útiles:

  • str_detect (): detecta la presencia o ausencia de un patrón en una cadena
  • str_extract (): Extrae la primera pieza de una cadena que coincide con un patrón
  • str_length (): Devuelve la longitud de una cadena (en caracteres)
  • str_locate (): localiza la posición de la primera ocurrencia de un patrón en una cadena
  • str_match (): Extrae el primer grupo emparejado de una cadena
  • str_replace (): Sustituye a la primera aparición de un patrón emparejado en una cadena
  • str_split (): Divide una cadena en un número variable de piezas
  • str_sub (): Extrae subseries de un vector de caracteres
  • str_trim (): Recorta el espacio en blanco desde el principio y final de la cadena
  • str_wrap (): cuerdas Wraps en párrafos bien formateados