Unidad 2.5: Sistemas de gestión documental

 

Las bases de datos son una de las tecnologías para la organización de la información más eficientes y poderosas de que disponemos en la actualidad. De hecho, las bases de datos están en el núcleo de los sistemas y de los servicios de información que poseen mayor significación tanto desde un punto de vista económico como social.

 

En primer lugar vamos  a distinguir entre:   

 

Base de datos: una colección de datos relativos a un dominio del conocimiento, agrupados en unidades lógicas denominadas registros y que pueden ser manipulados por un programa informático.Como:

·         Eric, BD educación y c. sociales:  https://www.eric.ed.gov

·         All Movie, BD sobre cinematografía: http//allmovie.com

·         Compludoc, art revista  https://europa.sim.ucm.es/compludoc

 

Sistema de gestión de bases de datos: un programa informático que permite la creación, mantenimiento y explotación de bases de datos. Como:

·         Access, sistema gestión de base de datos relacionales de la empresa Microsoft https://www.microsoft.com

·         Inmagic DB/Text Works, sistema de gestión de base de datos documentales de la empresa DOC6 https://www.doc6.es

·         Knosys, sistema de gestión de bases de datos documentales de la empresa Micronet https://www.knosys.net/

·         WinISIS, sistema de gestión de bases de datos documentales de la Unesco y de distribución libre a instituciones sin ánimo de lucro https://portal.unesco.org/es

 

Desde el punto de vista de la estructura de una base de datos, se pueden considerar las siguientes definiciones:

 

Definición de Base de datos: Una base de datos es un sistema de información que mantiene registros sobre las características o sobre las actividades de alguna parte del mundo real.

 

Definición de entidad: Las cosas del mundo real sobre las cuales mantiene registros una base de datos se denominan entidades. Las entidades pueden consistir en objetos físicos, como libros, en seres animados, como personas, o en conceptos abstractos, como ideas y teorías científicas

 

Relación entre bases de dato y entidades: De acuerdo con las definiciones establecidas en los cuadros 1 y 2, ahora podemos decir que una base de datos es un conjunto de registros que describen entidades del mundo real

 

Entidades y atributos: Por la definición anterior podemos decir que, si las entidades pueden ser descritas o representadas, ello implica que las entidades deben poseer algunas propiedades reconocibles, que denominamos atributos.

 

Atributos y campos: Para representar entidades del mundo real en registros es necesario representar sus atributos. Los atributos de una entidad en un registro se denominan campos.

 

En resumen:

Una base de datos = Un conjunto de registros

Un registro = Un conjunto de campos

Un campo = Un conjunto de bytes

Relación BDD / Mundo real:

Cuando en la BD hablamos de registros, en el mundo real hablamos de entidades.

Cuando en la BD hablamos de campos, en el mundo real hablamos de atributos.

 

Por tanto, conviene igualmente entender las diferencias entre los siguientes conceptos:

Entidad: Las bases de datos contienen información sobre cosas del mundo real, es decir, tanto del mundo material como del mundo conceptual. A esas cosas del mundo real sobre las que una base de datos almacena información se las denomina entidades y pueden ser cosas materiales (libros, personas, etc.) o cosas intangibles (ideas, conceptos, etc.).

 

Atributo: Los parámetros o rasgos que caracterizan a una entidad, como por ejemplo los atributos de un libro pueden ser: el nombre del autor, el título del libro, la fecha de publicación, etc.

Los conceptos Entidad y Atributo, que son los que nos conviene utilizar cuando pensamos en cosas del mundo real, pasan a ser Registros y Entidades cuando pensamos en términos de bases de datos:

 

Registros: Los registros son representaciones de entidades. Al mismo tiempo, son la unidad principal de información que se utiliza en las bases de datos. Cada registro se refiere a una entidad en una relación 1:1, es decir, una entidad, un registro. Por ejemplo, un libro (entidad), un registro. El registro se corresponde con el concepto de ficha que se utiliza en los ficheros manuales con los que todos estamos familiarizados.

 

Campos: Los campos son las partes en que se articula un registro. Cada campo corresponde a un atributo de la entidad. Los campos, por tanto, son zonas de información que ayudan a estructurar los datos relativos a la entidad. En una base de datos bibliográfica, por ejemplo, los registros se estructuran, típicamente, en campos como: título, autor, fuente, etc.

 

Aunque los registros y los campos son la parte más evidente de una base de datos, la estructura de esta no se completa sin un tercer elemento: los índices. Sin ellos las bases de datos no podrían proporcionar sus más características prestaciones: la eficiencia en la recuperación de información.

Un índice es una estructura de información que relaciona una entidad o ítem (un documento, un registro, un artículo de una enciclopedia, la página de un libro, etc.) con su localización o dirección.

La finalidad de los índices es proporcionar un medio para encontrar cosas (información, entidades, ítems) sin tener que realizar exploraciones o recorridos secuenciales. Los índices pueden ser directos o invertidos.

 

Los sistemas de gestión de bases de datos

Podemos encontrar en el mercado dos grandes clases de sistemas de gestión de bases de datos:

 

Sistemas de propósito general, basados en el modelo relacional. Suelen denominarse sistemas de gestión de bases de datos, SGBD, en siglas

 

Sistemas de gestión documental, basados en el modelo textual. Suelen denominarse sistemas de gestión documental, SGD, en siglas

 

 

Las principales diferencias entre SGBD y SGD se pueden apreciar en sus diferentes características: 

Los Sistemas de gestión de bases de datos (SGBD), es decir, los sistemas basados en el modelo relacional, están orientados hacia la gestión de datos comerciales, administrativos, contables y, en general, de cualquier tipo, pero siempre muy estructurados.

Sus características principales, por tanto, son:

·         Están bien preparados para datos numéricos o para cadenas de caracteres cortas.

·         Están mal o nada preparados para información textual de tipo discursivo, como la que puede encontrarse en un típico artículo de revista, un informe de estrategia, un ensayo, etc.

·         Presentan y manipulan la información en forma de tablas homogéneas con filas siempre formadas por el mismo número de columnas.

·         Sólo indizan la primera cadena de caracteres de cada campo.

·         Utilizan campos de extensión predeterminada con límites muy bajos desde el punto de vista de la información textual, en concreto, 250 caracteres es el límite típico.

·         Finalmente, utilizan un índice directo. Los índices directos son sintéticos y redundantes a la vez. Son índices sintéticos porque solamente representan la primera cadena de cada campo y, sin embargo, cada palabra o cadena de caracteres tiene una entrada, aunque sea una palabra repetida.

 

Por su parte, los sistemas de gestión documental (SGD), es decir, los sistemas basados en el modelo textual, están orientados a manejar informaciones textuales no necesariamente bien estructuradas. Son auténticos sistemas de recuperación de información (information retrieval), mientras que los SGBD son sistemas de recuperación de datos.

Las características principales de los SGD (sistemas de gestión documental) son las siguientes: 

·         Están preparadas para utilizar y para explotar la información textual de tipo discursivo, como la que puede encontrarse en artículos de revista, libros, informes, tesis doctorales, ensayos, etc.

·         Pueden indizar el contenido de todo el campo e incluso proporcionan la posibilidad de indizar palabra a palabra o por descriptores, aunque estén formados por más de una palabra.

·         Disponen de ayudas de edición.

·         Los campos son de extensión variable. No suelen requerir definición de extensión de los registros y ficheros.

·         Disponen de módulos especiales de clasificación y listas de descriptores.

·         Pueden utilizar controles terminológicos y lenguajes documentales como listas de términos autorizados o tesauros.

·         Utilizan índices analíticos. En los índices analíticos figuran todas y cada una de las palabras o términos significativos de la base de datos, además, si una palabra o término aparece más de una vez, tal información queda registrada en la base de datos sin necesidad de abrir más de una entrada en el índice-

 

Como consecuencia del conjunto de características señaladas, podemos concluir que el modelo relacional no es el más adecuado para solucionar problemas documentales típicos ni, por tanto, para representar y recuperar la clase de información que gestionan centros de documentación, bibliotecas o archivos.