Comparación de una consulta típica de análisis de negocios usando dos estructuras diferentes de bases de datos
Abstract
El crecimiento tanto de los tamaños de los almacenes de datos como de su utilización por empresas y organismos para analizar la información ha dado lugar al desarrollo de diversas tecnologías que se plantean como alternativas a las bases de datos relacionales para estructurar y almacenar los datos: Esto se debe a que éstas no proporcionan tiempos de respuesta adecuados en consultas no planeadas o predecibles como las que se presentan en el análisis de negocios o la minería de datos. Las bases relacionales se crearon para el proceso de transacciones, donde se incluyen en el modelo índices para los usos planeados de los datos. La ausencia de ciertos índices puede resultar en la lectura de toda una o varias tablas (table scans), lo que impacta en los tiempos de respuesta. Además de ciertas alternativas que surgieron al mismo tiempo que los modelos relacionales, se han adoptado otras estructuras para almacenar y usar los datos. En este trabajo se describe una situación de negocios simulada, usando tanto un modelo relacional como el modelo DBB, un modelo basado principalmente en pares llave-valor: algunos datos se guardan en campos fijos, mientras que a otros valores se les asigna una etiqueta que indica el significado del dato. Se obtienen subconjuntos de registros que satisfacen ciertos criterios de selección y se efectúan operaciones lógicas entre ellos. Una librería ofrece a los clientes que adquieren un libro la lista de todos los libros que compraron otros clientes que también compraron el libro en cuestión. Se describen las estructuras usadas y el proceso con el que se generaron los datos – simulados – usados para las comparaciones. Puesto que se redujeron los tiempos de respuesta y el espacio ocupado por los datos, se concluye que el DBB puede ofrecer una mejor solución para algunas bodegas de datos. _______________ COMPARISON OF A TYPICAL BUSINESS ANALYTICS QUERY USING TWO DIFFERENT DATABASE STRUCTURES. ABSTRACT: The growth both of the size of data warehouses and their use to analyze the information they contain has given rise to the development of different technologies that constitute alternatives to the relational databases to organize and store the data, since the latter sometimes do not deliver adequate response times in un-planned o unpredictable queries, such as occur in business analytics or data mining. Relational databases were conceived for transaction processing, where the necessary indices are included according to the planned use of the data. The absence of such indices often results in the need to perform table scans of entire tables, and as these grow in size, the associated input-output activities cause response times to be longer than expected. Besides some alternatives that arose almost simultaneously with relational models, new structures are being used to store and use the data. Additionally, different hardware and software combinations have become alternatives for very large data repositories. DBB is a model based essentially on key-value pairs: some data values are stored in fixed fields, but others are identified by a tag. To obtain a subset of records that satisfy certain conditions, these are formulated as logical operations between key-value pairs, which are included for that purpose in generalized inverted indexes. The paper describes a comparison of response times and total disk space resulting from a business analytics situation implemented both as a relational model as well as using the DBB model. A bookstore offers customers who purchase a particular book the list of all books bought by other clients who also bought that book. The process used to generate simulated data is described. Since both response times and disk space were reduced using DBB, it seems that there are potential uses of this model.