Teoría general y fases de la indización

TEORÍA GENERAL Y FASES DE LA INDIZACIÓN

1. Teoría general de la indización

1.1. Concepto de indización

El Diccionario de la Real Academia Española la incluyó por primera vez en 1984, con dos significados:
1. hacer índices
2. registrar ordenadamente datos e informaciones para elaborar su índice.
En documentación, indizar es la operación que consiste en representar el contenido de un documento mediante un conjunto de términos que especifican los temas que trata, con el fin de ayudar a su posterior recuperación.
Consta de tres elementos:
1. El trabajo de indización consiste en representar el contenido de un documento.
2. La representación se hace mediante un conjunto de términos; con varias formas de asignar esos términos.
3. Los términos de indización deben permitir recuperar después el documento.

1.2. La representación del contenido del documento

Exige un trabajo previo de comprensión del contenido del documento.
El indizador, independientemente del sistema de indización que emplee, debe captar, con la mayor precisión posible, el tema o temas de que trata el documento. Pero se va a encontrar con el problema de la imprecisión de la lengua.

1.3. Problemática de la representación del contenido

Teóricamente la representación del contenido de un documento no debería plantear problemas, ya que, los lenguajes especializados disponen de un vocabulario especializado.
La Terminología, ha demostrado que el hombre no usa un único nombre para designar la idea de una realidad. Este problema se ha representado, de forma gráfica mediante un diagrama triangular.
El diagrama triangular, no es una creación propia de las ciencias de la documentación. Proceden de la lingüística, se remontan al modelo de triángulo de Ogden y Richards y han sido adoptados por otras disciplinas.
En Indización, este esquema fue apuntado, por Soergel, y desarrollado y analizado por Fugmann.
– la realidad es la existencia real, efectiva y objetiva de una cosa. Puede ser concreta o abstracta.
– el concepto (idea) es la unidad de pensamiento constituida por aquellas características que se atribuyen a un objeto. Puede ser designado por varios términos (sinónimos). El concepto es un elemento del pensamiento.
Existen dos tipos de conceptos:
1.- conceptos individuales, representan a un solo objeto
2.- conceptos generales, representan a un conjunto de objetos que comparten determinadas características.
El concepto individual es único, mientras que el general no lo es.
– el término, es la designación, formada por un mínimo de una palabra, de un concepto en el lenguaje especializado. Puede designar varios conceptos (polisemias y homonimias).
Se distinguen dos tipos de términos:
1. Expresiones léxicas. Son expresiones en una palabra, comúnmente admitidas, que significan un concepto o una realidad
2. Expresiones no léxicas. Expresiones formadas por más de una palabra que designan un concepto o realidad.
Los mayores problemas con que se encuentra el indizador a la hora de indizar son de dos tipos:
1.- Los que plantea la relación entre términos y conceptos: un término puede designar varios conceptos, o un concepto puede ser designado por varios términos.
2.- Los que se producen por la relación entre conceptos de significado parecido (cuasi-sinónimos)

1.4. Problemática de la relación término-concepto

Este problema fue planteado por Soergel en 1974, por la necesidad de que exista una relación univoca entre concepto y término, y de que en la práctica no se da tal relación.
En la definición de lenguaje especializado se afirma que “es un área de la lengua que aspira a una comunicación unívoca y libre de contradicciones en un área especializada”
Las dificultades que el indizador puede encontrar al establecer una correspondencia entre el concepto y el término son de tres tipos: sinonimia, polisemia y homonimia.
– Los tres problemas se ajustan:
SINONIMIA.
Cuando a un concepto le corresponden dos o más denominaciones que, se pueden intercambiar arbitrariamente.
POLISEMIA.
Es un fenómeno consistente en la reunión de varios significados en una misma palabra. Es decir un término se emplea para referirse a varios significados, pero es posible reconocer entre ellos una relación.
HOMONIMIA.
Se produce cuando varios términos son iguales en su forma externa, pero los conceptos a los que se refieren no presentan ningún tipo de similitud. Existen dos tipos de criterios para diferenciar la polisemia y la homonimia:
1. La relación en los contenidos de las palabras
2. La etimología
1º Criterio, más objetivo para distinguir entre polisemia y homonimia es el criterio etimológico. Dice que sólo hay polisemia en aquellos casos en que a los distintos contenidos corresponden significantes iguales que tienen origen idéntico.
Según el criterio etimológico la homonimia corresponden significantes iguales, pero no tienen el mismo origen etimológico.
Por ejemplo
2º Criterio: La relación semántica o la relación entre los contenidos de las palabras. Habrá polisemia cuando “a una sola forma en el plano de la expresión corresponden conceptos de significados relacionados”.
Habrá hominimia, cuando no exista relación de significado entre los conceptos. Mientras que en la polisemia hay una relación entre los conceptos, en la homonimia no hay ningún tipo de relación.
Existen dos tipos de homonimias:
1.- Los homófonos son aquellos en los que se da homonimia fónica. Una pronunciación y varios significados
2.- Los homógrafos son los homónimos con coincidencia gráfica
Tienen una grafía y varios significados. El significado se saca por un análisis sintáctico, o por el contexto.
A un sistema de indización, le afectan los homógrafos, debido a que trata con un lenguaje escrito y no hablado.

1.5. La problemática de la relación concepto-concepto

Existen conceptos de significado relacionado que no son verdaderos sinónimos. Son una categoría especial de conceptos, que algunos autores incluyen dentro de la sinonimia, y se denominan cuasi-sinónimos: se dan cuando dos conceptos son idénticos sólo en parte, pero no absolutamente. Cuando existen pequeñas diferencias en el significado.
La diferencia con los sinónimos es que mientras estos se pueden usar indistintamente, los cuasi-sinónimos sólo se pueden intercambiar, en determinados sistemas conceptuales.

1.6. Las formas de representación del contenido del documento

En la definición de indización se afirmaba que es la “operación que consiste en representar el contenido de un documento mediante un conjunto de términos que especifican los temas que trata con el fin de ayudar a su posterior recuperación”.
Esta definición hace referencia a todos los sistemas que permiten representar el contenido, los sistemas de indización alfabética y los de clasificación.
Tradicionalmente clasificación e indización se han considerado como dos operaciones complementarias dentro del proceso de análisis documental.
La indización se definía como la “operación que tiene por objeto definir el contenido de un documento”.
Y la clasificación se definía como la operación de “distribuir [los documentos…] en clases o categorías”, tanto intelectual como físicamente.
Álvarez Ossorio las considera operaciones diferentes y complementarias dentro del Análisis Documental.
Se tiende a agrupar las operaciones de clasificación e indización, y se considera que:
1.- existen dos formas de indización: alfabética y sistemática. Se considera que las clasificaciones tradicionales son una forma de indización
La clasificación es sólo un tipo de indización, en la que las notaciones particulares, que son asignadas a los documentos, se emplean en lugar de los términos del lenguaje natural.
2.- Un concepto se puede representar por medio de una clasificación, unas listas de encabezamientos de materia, y un tesauro. Y, a su vez, los tres instrumentos permiten representar un mismo contenido.
Dependiendo del tipo de indización será preciso utilizar un lenguaje de indización determinado.
Un lenguaje de indización se puede definir como: “un sistema que permite representar el contenido de los documentos y de las consultas mediante la información que proporcionan las palabras no vacías contenidas en el título, en el resumen y, en el texto de los documentos”
Mientras que un Lenguaje documental es: “vocabulario artificial y controlado, compuesto por términos normalizados y sus respectivas relaciones, que se usa para representar la información contenida en un conjunto de documentos, con el fin de facilitar su almacenamiento y posterior recuperación”.
La indización mediante descriptores libres y mediante palabras clave se hace con términos del lenguaje libre. Los lenguajes libres, consisten en utilizar términos que figuran en el documento original, son palabras del lenguaje corriente.
La indización mediante descriptores exige el uso de un lenguaje controlado, de indización alfabética, y de estructura combinatoria.

1.7. La finalidad de la indización: la recuperación

El objetivo de la indización es permitir la identificación y recuperación de los documentos. Está relacionada con la forma en que éstos se han indizado.
El éxito de la recuperación depende de dos factores:
– la forma global de la indización
– las características del sistema de recuperación.

2. Fases de la indización

La mayoría de los autores tratan el tema de la indización han descompuesto el proceso de indizar en una serie de fases o etapas. Aunque todos coinciden en algunas de las fases.
Entre los autores franceses Van Slype, considera que la indización humana se realiza en cuatro etapas:
a) se revisa el contenido del documento
b) se seleccionan los conceptos
c) se traducen los conceptos en descriptores
d) se establecen enlaces sintácticos entre los descriptores
Los autores anglosajones reducen mucho más el proceso. Para Fugman existen dos fases:
a) La fase de reconocimiento y selección del contenido de los documentos
b) La fase de representación del contenido de los documentos
Lancaster es más escueto. Las fases son también dos:
a) El análisis conceptual
b) Traducción a un lenguaje de indización
La norma internacional ISO 5963-1985, considera que la indización manual está formada por tres etapas:
a) examen del documento y definición de su contenido
b) identificación y selección de las nociones principales del contenido
c) selección de los términos de indización
Partiendo de estos autores se llega a algunas conclusiones:
1) Es necesario unificar la terminología, realmente se trata de los mismos pasos.
-Las etapas “a” y “b” de Slype
-Se pueden igualar a la fase “a” de Fugmann
-A la fase “a” de Lancaster
-Y a las etapas “a” y “b” de la norma ISO
2) Es difícil establecer unas fases “rígidas” de indización, y que existen sistemas de indización y cada uno requiere un proceso diferente.
La indización con palabras-clave se desarrolla en una única fase, ya que las palabras seleccionan y se extraen directamente del texto. Al contrario, la clasificación, es el sistema de indización que exige el proceso más complejo.
3) Es conveniente establecer unas fases “flexibles” o “generales”, comunes al proceso de indizar, y unas etapas específicas para cada una de esas fases. Esas fases generales responden a dos preguntas prácticas: qué y cómo.
El indizador, cuando se enfrenta a un documento debe plantearse:
1.- ¿qué información debe extraer del documento?
2.- ¿cómo va a transmitir esa información?
De la respuesta a estas dos cuestiones derivan las principales fases de la indización:
1.- La información que va a extraer del documento es la resultante del análisis del documento.
2.- La transmisión de la información se realiza mediante la representación del contenido por las distintas técnicas de indización.
A cada una de estas fases le corresponden una serie de etapas, o acciones concretas:
– a la 1ª fase, de Análisis del documento, en todos los sistemas menos en las palabras clave, le corresponde las siguientes etapas:
– el análisis de contenido,
– la identificación de conceptos
– la selección de conceptos
En el sistema de las palabras-clave:
– La identificación de palabras
– la selección de palabras
– a la 2ª fase, de Representación del contenido, corresponden diferentes etapas, dependiendo del sistema de indización:
– etapa de extracción, al sistema de palabras-clave
– etapas de extracción/asignación y control, al sistema de descriptores libres
– etapa de traducción, a los sistemas de tesauros, encabezamientos de materia y clasificaciones
Las etapas de “identificación” y “selección” de las palabras-clave son de identificación y selección de palabras, mientras que en el resto son de análisis, identificación y selección de conceptos.

Teoría general y fases de la indización