Tidy data
Los datos ordenados o 'tidy data' son los que se obtienen a partir de un proceso llamado 'data tidying' u ordenamiento de datos.[1] Es uno de los procesos de limpieza importantes durante procesamiento de grandes datos o 'big data' y es un paso reconocido en la ciencia de datos. Los conjuntos de datos ordenados tienen una estructura que facilita el trabajo; son sencillos de manipular, modelar y visualizar. Conjuntos de datos 'tidy' están ordenados de tal manera que cada variable es una columna y cada observación (o caso) es una fila.[1][2]
Los datos ordenados proporcionan estándares y conceptos para los datos que limpian, y con el dato ordenado allí es ninguna necesidad de empezar de arañazo y reinventar métodos nuevos para los datos que limpian.
Características[editar]
Jeff Leek en su libro The Elements of Data Analytic resume las características de los datos ordenados con los siguientes puntos:[3]
- Cada variable que mides tiene que ser en una columna.
- Cada observación diferente de esa variable tiene que ser en una fila diferente.
- Debe haber una tabla distinta para cada "clase" de variable.
- Si tienes múltiples tablas, debe existir una columna en cada tabla que permita enlazarlas.
Referencias[editar]
- ↑ a b Wickham, Hadley (1 de enero de 2014). «Tidy Data». Journal of Statistical Software 59 (10). doi:10.18637/JSS.V059.I10. Consultado el 9 de diciembre de 2018.
- ↑ «Tidy data». Journal of Statistical Software VV (II).
- ↑ Jeff Leek, The Elements of Data Analytic Style, Leanpub, 2015-03-02