Un sistema de gestión de palabras claves por contexto para un acervo de datos
Abstract
El creciente volumen de datos que se usan en análisis de negocios y minería de datos ha ocasionado que se formularan y usaran tecnologías diferentes a las basadas exclusivamente en bases de datos relcionales. El uso de índices invertidos generalizados constituye un elemento fundamental de muchos productos que se ofrecen y desarrollan en la actualidad. El paquete que se describe proporciona precisamente una variación de tales índices. Sirve para indizar un conjunto cualquiera de elementos, tales como registros, pero no se circunscribe a hacerlo para una sola tabla, como es el caso en una base de datos. Como una versión anterior del paquete no proporcionaba la eficiencia suficiente, especialmente en cuanto al número de operaciones de entrada-salida, pero también en cuanto al volumen de datos a almacenar en disco, se crearon e implementaron nuevos modos de gestionar las listas invertidas. En especial, en lugar de usar listas parciales y árboles B, se incluyeron nuevos modos de armar y almacenar los arreglos, y en especial, utilizar bitmaps – cadenas de bits – para las listas invertidas. Un ejemplo del uso del paquete por una aplicación se incluyó para aclarar los conceptos. Se describen los algoritmos para efectuar operaciones entre subconjuntos de números de registros resultantes de consultas formuladas con anterioridad. _______________ A SYSTEM TO MANAGE KEYWORDS BY CONTEXT FOR A DATA COLLECTION. ABSTRACT:
The increase in size of data collections used for business analytics and data mining has caused technologies which are not based exclusively on relational databases to be developed and used. The use of generalized inverted indices is one of the main elements of many products offered. The software product described here offers a variant of such indexes. It serves to index any set of elements such as records, but is not confined to a single table, as is the case in a database. Since a previous version of the same product was not efficient enough, especially concerning input-output operations and the volume of data to be stored, new ways to store and manage inverted lists were created and implemented. Particularly, instead of using partial lists and B trees, new methods including the use of bitmpas were introduced to build and store the arrays corresponding to the inverted lists. An example of an application that uses the software product was included to shed lights on the different concepts. Some of the algorithms used to perform the operations between subsets of the record numbers resulting from queries are described.