|
|
a) Sistemas Operacionales
Los datos administrados por los sistemas de
aplicación operacionales son la fuente principal de datos
para el data warehouse.
Las bases de datos operacionales se organizan como archivos indexados (UFAS, VSAM), bases de datos de redes/jerárquicas (I-D-S/II, IMS, IDMS) o sistemas de base de datos relacionales (DB2, Oracle, Informix, etc.). Según las encuestas, aproximadamente del 70% a 80% de las bases de datos de las empresas se organizan usando DBMSs no relacional.
b) Extracción, Transformación
y Carga de los Datos
Se requieren herramientas de gestión
de datos para extraer datos desde bases de datos y/o archivos
operacionales, luego es necesario manipular o transformar los
datos antes de cargar los resultados en el data warehouse.
Tomar los datos desde varias bases de datos
operacionales y transformarlos en datos requeridos para el depósito,
se refiere a la transformación o a la integración
de datos. Las bases de datos operacionales, diseñadas para
el soporte de varias aplicaciones de producción, frecuentemente
difieren en el formato.
Los mismos elementos de datos, si son usados
por aplicaciones diferentes o administrados por diferentes software
DBMS, pueden definirse al usar nombres de elementos inconsistentes,
que tienen formatos inconsistentes y/o ser codificados de manera
diferente. Todas estas inconsistencias deben resolverse antes
que los elementos de datos sean almacenados en el data warehouse.
c) Metadata
Otro paso necesario es crear la metadata. La
metadata (es decir, datos acerca de datos) describe los contenidos
del data warehouse. La metadata consiste de definiciones de los
elementos de datos en el depósito, sistema(s) del (os)
elemento(s) fuente. Como la data, se integra y transforma antes
de ser almacenada en información similar.
d) Acceso de usuario final
Los usuarios accesan al data warehouse por
medio de herramientas de productividad basadas en GUI (Graphical
User Interface - Interfase gráfica de usuario). Pueden
proveerse a los usuarios del data warehouse muchos de estos tipos
de herramientas.
Estos pueden incluir software de consultas,
generadores de reportes, procesamiento analítico en línea,
herramientas data/visual mining, etc., dependiendo de los tipos
de usuarios y sus requerimientos particulares. Sin embargo, una
sola herramienta no satisface todos los requerimientos, por lo
que es necesaria la integración de una serie de herramientas.
e) Plataforma del data warehouse
La plataforma para el data warehouse es casi
siempre un servidor de base de datos relacional. Cuando se manipulan
volúmenes muy grandes de datos puede requerirse una configuración
en bloque de servidores UNIX con multiprocesador simétrico
(SMP) o un servidor con procesador paralelo masivo (MPP) especializado.
Los extractos de la data integrada/transformada
se cargan en el data warehouse. Uno de los más populares
RDBMSs disponibles para data warehousing sobre la plataforma UNIX
(SMP y MPP) generalmente es Teradata. La elección de la
plataforma es crítica. El depósito crecerá
y hay que comprender los requerimientos después de 3 o
5 años.
Muchas de las organizaciones quieran o no escogen
una plataforma por diversas razones: el Sistema X es nuestro sistema
elegido o el Sistema Y está ya disponible sobre un sistema
UNIX que nosotros ya tenemos. Uno de los errores más grandes
que las organizaciones cometen al seleccionar la plataforma, es
que ellos presumen que el sistema (hardware y/o DBMS) escalará
con los datos.
El sistema de depósito ejecuta las consultas
que se pasa a los datos por el software de acceso a los datos
del usuario. Aunque un usuario visualiza las consultas desde el
punto de vista de un GUI, las consultas típicamente se
formulan como pedidos SQL, porque SQL es un lenguaje universal
y el estándar de hecho para el acceso a datos.
f) Datos Externos
Dependiendo de la aplicación, el alcance
del data warehouse puede extenderse por la capacidad de accesar
a la data externa. Por ejemplo, los datos accesibles por medio
de servicios de computadora en línea (tales como CompuServe
y America On Line) y/o vía Internet, pueden estar disponibles
a los usuarios del data warehouse.
Construir un data warehouse es una tarea grande.
No es recomendable emprender el desarrollo del data warehouse
de la empresa como un proyecto cualquiera. Más bien, se
recomienda que los requerimientos de una serie de fases se desarrollen
e implementen en modelos consecutivos que permitan un proceso
de implementación más gradual e iterativo.
No existe ninguna organización que haya
triunfado en el desarrollo del data warehouse de la empresa, en
un sólo paso. Muchas, sin embargo, lo han logrado luego
de un desarrollo paso a paso. Los pasos previos evolucionan conjuntamente
con la materia que está siendo agregada.
Los datos en el data warehouse no son volátiles
y es un repositorio de datos de sólo lectura (en general).
Sin embargo, pueden añadirse nuevos elementos sobre una
base regular para que el contenido siga la evolución de
los datos en la base de datos fuente, tanto en los contenidos
como en el tiempo.
Uno de los desafíos de mantener un data
warehouse, es idear métodos para identificar datos nuevos
o modificados en las bases de datos operacionales. Algunas maneras
para identificar estos datos incluyen insertar fecha/tiempo en
los registros de base de datos y entonces crear copias de registros
actualizados y copiar información de los registros de transacción
y/o base de datos diarias.
Estos elementos de datos nuevos y/o modificados son extraídos, integrados, transformados y agregados al data warehouse en pasos periódicos programados. Como se añaden las nuevas ocurrencias de datos, los datos antiguos son eliminados. Por ejemplo, si los detalles de un sujeto particular se mantienen por 5 años, como se agregó la última semana, la semana anterior es eliminada.