Comandos de Análisis de Datos
Arbutus contiene una amplia variedad de comandos, específicamente diseñados para análisis y manipulación de datos. Un resumen de los principales comandos incluye:
Comandos de Salida de Datos
- REPORT provee reportes básicos, con formateo automático
- EXPORT crea datos en los formatos más populares basados en PC
Comandos de Manipulación de Datos
- EXTRACT crea un subconjunto de una tabla, no diferente de SELECT WHERE
- SUMMARIZE crea subtotales por valor clave, no diferente de GROUP BY
- INDEX Reorganiza logicamente los datos, en base a una o más claves
- SORT crea una copia reorganizada de los datos, en base a una o más claves
- RELATION permite conectar múltiples archivos en un estilo “esquema estrella”
- JOIN combina dos archivos diferentes en base a clave(s) comunes
- MERGE combina dos archivos con idénticas estructuras, en base a clave(s) comunes
- SAMPLE crea un subconjunto estadístico de una tabla
Comandos de Análisis de Datos
- CLASSIFY es uno de los comandos analíticos más poderosos del conjunto de comandos Arbutus. El mismo permite agrupar y totalizar una tabla sobre un campo clave, aún cuando la tabla no esté físicamente organizada en ese orden. Lo hace sin organizar previamente la tabla, manteniendo los totales independientes del archivo. El resultado es que la mayoría de las operaciones de Ordenamiento/Sumarización pueden ser reemplazadas por un simple Classify.
- CROSSTABULATE amplía CLASSIFY a dos porciones dimensionales, sin ordenamiento
- COUNT determina la cantidad de filas que coinciden con algún criterio
- TOTAL acumula columna(s) numéricas que coinciden con algún criterio
- STATISTICS provee una vista general de columna(s) numéricas
- STRATIFY determina la distribución de valores para columna(s) numéricas
- AGE provee información de distribución en base a fechas
- BENFORD provee un análisis estadístico especializado de los datos
- SEQUENCE confirma que una tabla esté organizada en el orden en que se espera que esté
- GAPS identifica cualquier brecha en secuencias que se espera que estén completas
- DUPLICATES identifica cualquier duplicado en secuencias en la que se espera que los valores sean únicos
- VERIFY verifica corrupción en datos físicos en los archivos fuente