La extracción de terminología (ET) consiste en identificar términos potenciales (TP) en un texto o colección de textos (corpus) dada, así como toda la información relevante relacionada con los conceptos o el uso de los términos, como la definición, el contexto, etc. La ET puede realizarse de forma automática mediante Herramientas de Extracción de Terminología (HETs).
No debe confundirse la ET con la identificación de terminología, que se refiere al reconocimiento de términos nuevos o existentes comparándolos con listas de términos potenciales (proporcionadas por las HETs) con una base de datos terminológica existente, para distinguir términos conocidos de los no conocidos.
La ET es una forma rápida de adquirir información sobre una disciplina determinada y el lenguaje especializado correspondiente. De cualquier forma, después de extraer los términos potenciales mediante herramientas de software, serán especialistas humanos los que deberán decidir si los resultados son apropiados o no. Realizar ETs periódicamente también es una buena forma de mantenerse al día respecto al desarrollo terminológico en un campo determinado (The Pavel Terminology Tutorial, 2006).
La ET se considera parte del trabajo terminológico, y representa una tarea importante al crear bases de datos terminológicas. Permite una identificación rápida de posibles términos que pueden ser guardados para su posterior estudio por especialistas en la lengua y una eventual integración en bases de datos. Otra ventaja de realizar ET automática con las HETs al crear base de datos terminológica es que los resultados pueden guardarse en distintos formatos que, por su parte, pueden ser importados fácilmente más tarde a otras bases de datos.