Caros leitores, hoje vamos iniciar uma serie de posts sobre a arquitetura de um Data Warehouse (DW). Veremos o que é o Data Warehouse e quais as funções de cada um dos seus componentes para então partirmos para o processo de modelagem e criação de um Data Warehouse .

Um Data Warehouse é uma coleção de dados orientados a assuntos, integrados, variáveis com o tempo e não voláteis para suporte ao processo gerencial de decisão (Inmon, 1997). O DW fornece acesso a dados corporativos ou organizacionais e além de serem dados consistentes, podem ser separados e combinados usando-se qualquer medição possível no negócio (Kimball,1998). Um DW não consiste apenas em dados, mas em um conjunto de ferramentas para consultar, analisar e apresentar informações, é um local onde se publica dados confiáveis sendo a qualidade desses um impulso à reengenharia de negócios (Kimball,1998).

Notem que na definição de DW que citei anteriormente aparecem os nomes dos dois maiores líderes da indústria de DW atual, Bill Inmon e Ralph Kimball. Inmon e Kimball, como são conhecidos, possuem diferentes visões de como se deve construir um DW e ambas são muito bem aceitas. Atualmente existem várias propostas de arquiteturas de Data Warehouses mas aqui veremos apenas as abordagens Inmon e Kimball. Inmon e Kimball concordam em muitos pontos em relação ao DW, porém eles divergem na maneira de como o DW deve ser construído. Basicamente Immon defende a abordagem Top-Down, onde o DW deve ser construído do mais geral para o mais específico. Já Kimball acredita que a melhor forma de se construir um DW é utilizando uma abordagem Bottom-Up, onde deve criar ao DW a partir de partes menores. Posteriormente entraremos mais em detalhe sobre cada abordagem.

A seguir temos uma figura que ilustra uma arquitetura mais genérica de um Data Warehouse e logo abaixo, uma explicação de cada um dos componentes e como eles interagem entre si:

DWGen

Arquitetura Genérica de um DW

 

  • OLTP: Acrônimo de Online Transaction Processing, que pode ser traduzido como Processamento de Transações em Tempo Real, são sistemas que se encarregam de registrar todas as transações contidas em uma determinada operação organizacional (WIKIPÉDIA). Eles são os sistemas que irão fornecer os dados fonte para o DW, em outras palavras, são os dados gerados das transações dos sistemas OLTP que são incluídos no DW. Um exemplo de sistemas OLTP são os famosos sistemas ERP’s.
  • ETL: Acrônimo de Extract-Transform-Load, que pode ser traduzido como Extração-Transformação-Carga, é uma fase de extrema importância no processo de criação e manutenção de um DW onde os dados são Extraídos das fontes de dados OLTP, passam por uma serie de Transformações para padronizar o formato dos dados em seguida são Carregados para o DW.
  • Data Warehouse: Um Data Warehouse é uma coleção de dados orientados a assuntos, integrados, variáveis com o tempo e não voláteis para suporte ao processo gerencial de decisão (Inmon, 1997).
  • Data Marts: Um sub-conjunto de dados de um DW  e geralmente são dados referentes a um assunto em especial (ex: Vendas, Estoque, Controladoria) ou diferentes níveis de sumarização (ex: Vendas Anual, Vendas Mensal, Vendas 5 anos), que focalizam uma ou mais áreas específicas. Seus dados são obtidos do DW, desnormalizados e indexados para suportar intensa pesquisa (Wikipédia) .
  • Olap: Acrônimo de On-line Analytical Processing, que pode ser traduzido como Processamento analítico em tempo real, é a capacidade para manipular e analisar um grande volume de dados sob múltiplas perspectivas. As aplicações OLAP são usadas pelos gestores em qualquer nível da organização para lhes permitir análises comparativas que facilitem a sua tomada de decisões diárias. (Wikipédia)
  • Metadados: Uma espécie de dicionário de dados, que agrega dados sobre outros dados.

Quando se chega em uma empresa que pretende implantar um projeto de BI, o que nós encontramos na maioria das vezes são vários sistemas alimentado diversas bases de dados distintas. Quando digo base de dados, nem sempre quero dizer bancos de dados relacionais, muitas vezes os clientes armazenam dados vitais para sua empresa em planilhas e até mesmo arquivos texto, é serio, arquivos texto. Bom as aplicações OLTP ficam a todo momento atualizando essas bases de dados com informações inerente as transações da empresa e são essas informação que devemos levar para dentro do DW, um local onde os dados estarão bem estruturados e organizados por assunto.

O processo de trazer para os DW os dados das aplicações OLTP é conhecido como ETL, como vimos anteriormente, essa fase é de extrema importância para o sucesso do DW. É nessa fase por exemplo que removemos certas irregularidades, como por exemplo um campo bool onde em alguns lugares se grava V/F, em outros S/N e em outros até 0/1. O processo de ETL unifica todas essas informações jogando para dentro do DW dados consistentes e padronizados.

Nesse modelo de arquitetura os Data Marts são alimentados por dados do DW para atender a um setor específico da organização, ou seja, agrupa-se dados de um assunto específico e os disponibilizam em um outro local para atender a determinadas demandas.

Um vez que os dados estão todos estruturados, precisamos de ferramentas especializadas na leitura desses dados, pois no DW os dados ficam dispostos de uma maneira diferente que visa a alta performance de leitura e gravação. Essas ferrramentas são as aplicações OLAP, que se conectam ao DW provendo multiplas visões dos dados facilitando e muito a interpretação destes.

Em decorrência da grande estrutura de organização e confiabilidade dos dados do DW, varias outras técnicas e metodologias acabam desfrutando do seu poder, uma serie de análises, relatórios e descobertas podem ser feitas com  esses dados que podem ajudar e muito nos negócios da empresa.

Por enquanto é isso pessoal, no próximo post vou falar mais sobre o Inmon e sua visão da arquitetura do DW.

Até…