|
|
Si decide no programar funciones de limpieza
de datos o contratar un consultor para hacer el trabajo, puede
inhibirse también de la compra de una herramienta específica
para esa tarea. El software de gestión del data warehouse
puede ser suficiente para limpiar y validar según sus propósitos.
Muchos proyectos de data warehouse usan productos
como Warehouse Manager de Prism Solutions o Passport de Carleton,
para una gama de tareas de gestión de data warehouse, que
incluyen:
Estos productos cuestan desde $ 75,000 a más
de $ 200,000, dependiendo del tamaño y la complejidad del
proyecto y pueden también limpiar, transformar y validar.
Ejemplo 5:
La Universidad Emory (Atlanta) hace
la limpieza de toda la data para su depósito de 6 Gb con
programas en Cobol generados por Prism Warehouse Manager. Además
de tener problemas típicos, tales como formatos múltiples
de fecha, la data con frecuencia contiene campos no inicializados
que retienen valores arbitrarios. Dos miembros del personal utilizan
como 4 horas de un día de trabajo en las tareas de limpieza
de datos.
Emory ha considerado usar herramientas
de limpieza de datos especializados, pero la escuela está
eliminando la data sucia hasta ahora, lo suficientemente bien,
que no ve el valor adicional en otros productos comerciales para
justificar la compra.
Sin embargo, tienen una buena oportunidad
de que las herramientas mencionadas anteriormente de Prism y Carleton
no limpien todo lo que se necesite. Ellos pueden encontrar anomalías
comunes que pueden manejarse mediante simples tablas de búsqueda
de información (por ejemplo, reconocer que Avenida y Av.
representan la misma información), pero podrían
no salir exitosos con irregularidades más importantes e
impredecibles, porque estas herramientas no están diseñadas
para hacer tipos de limpieza de gran intensidad.
Si los datos que requieren limpieza consisten
predominantemente de nombres (incluyendo nombres de compañía)
y direcciones, las compañías tales como Harte-Hanks
Communications e Innovative Systems proveen no solamente herramientas
de software, sino que actualizan periódicamente los archivos
de datos para ayudar a combinar las variantes de los nombres de
las compañías, detectar códigos postales
que no corresponden a las direcciones proporcionadas y encontrar
anomalías similares.
Estas herramientas pueden ser apropiadas en
otros campos (aparte de nombres y direcciones) que sean conocidos
para ser corregidos (por ejemplo, cantidades de dólar devaluados
que han sido validados por las cuentas) o contengan información
independiente que no será usada como una llave o índice
(por ejemplo, las anotaciones de contacto de los vendedores).
Las soluciones orientadas al nombre y la dirección
pueden costar en cualquier parte desde $ 30,000 a más de
$ 200,000, dependiendo del tamaño del data warehouse en
cuestión. Además se necesita, una herramienta de
extraer/ transformar/cargar (Extract, Transform, Load - ETL),
tales como el Warehouse Manager o Passport.
Lamentablemente, en el país no existen empresas que se especialicen en estas actividades. Sólo corporaciones internacionales como las de Arthur Andersen han efectuado limpieza de datos en nuestro medio en bancos privados y muy pocos organismos públicos.
b) Limpieza de datos intensa
Para trabajos de limpieza intensos, se deben
considerar herramientas que se han desarrollado para esas tareas.
Existen dos grandes competidores: Enterprise/Integrator de Apertus
Technologies y la herramienta Integrity Data Reengineering de
Vality.
La empresa Enterprise/Integrator toma un enfoque
top-down, en la que usted propone las reglas para limpiar los
datos. Esta es una estrategia directa, donde usted impone sus
conocimientos sobre su negocio en los datos.
Por ejemplo:
¿Desea usted tratar una serie de concesiones de Martha's Fried Chicken como un cliente único con direcciones múltiples?
Para los propósitos del data warehouse, ¿tiene sentido sustituir una dirección central única para las diferentes direcciones de las concesiones?
O, ¿le gustaría tratar
las ubicaciones de las concesiones como clientes completamente
diferentes?
Esta decisión determina cómo
se agrega o consolida estos registros y si se trata las diferentes
direcciones de Martha's Fried Chicken como excepciones.
La empresa Enterprise/Integrator ofrece no
solamente limpieza de datos, sino también extracción,
transformación, carga de datos, repetición, sincronización
y administración de la metadata. Es bastante caro (de $130,000
a $250,000), pero se puede ahorrar dinero si elimina la necesidad
de otras herramientas de gestión de data warehouse.
La desventaja principal del enfoque top-down
de Enterprise/Integrator es que usted tiene que conocer, o ser
capaz de deducir las reglas del negocio y de la limpieza de datos.
Apertus provee ejemplos para trabajar con muchas
estructuras comerciales y excepciones comunes. Aún así,
crear reglas es consumo de tiempo y esté seguro de encontrar
algunas excepciones no esperadas. Estos pueden manejarse manualmente
mediante un sistema de excepto - manipulación, pero es
un proceso que consume tiempo.
La herramienta Integrity Data Reengineering
de Vality tiene un enfoque bottom-up. Analiza los datos caracter
por caracter y automáticamente emergen los modelos y las
reglas del negocio. Integrity proporciona un diseño de
la data para ayudar a normalizar, condicionar y consolidar los
datos. Este enfoque tiende a dejar pocas excepciones para manejarse
manualmente y el proceso tiende a consumir menos tiempo.
Al igual que Enterprise/Integrator, Integrity
puede tomar en cuenta las relaciones comerciales que no son obvias
a partir de los datos, tales como fusiones y adquisiciones que
han tenido lugar desde que fueron creados los datos. Pero con
cualquier herramienta, estas reglas deben imponerse con un modelo
top-down.
Integrity incide exclusivamente sobre la limpieza
de los datos, comenzando desde los archivos básicos. No
extrae los datos desde bases de datos operacionales, carga los
datos en la base de datos del depósito, duplica y sincroniza
los datos o administra la metadata.
Por ello, además de costar $ 250,000,
Integrity podría requerir también una herramienta
como Warehouse Manager o Passport. Sin embargo, pueden ser suficientes
los utilitarios disponibles con la base de datos para una simple
extracción/carga.