Para que el módulo de análisis calcule las coincidencias entre los segmentos con éxito, los segmentos en un texto tienen que ser identificados primero. Esto se hace segmentando el texto bien durante el proceso de análisis o durante el proceso de importación.
La segmentación de textos se realiza fundamentalmente a partir de la puntuación: los puntos, los dos puntos, los signos de interrogación y exclamación, los caracteres de tabulación y las marcas de párrafo son consideradas, de forma predeterminada, delimitadores de segmentos. Además, el usuario puede especificar excepciones a estas reglas de segmentación. Por ejemplo, las abreviaturas seguidas por un punto, pero que nunca o casi nunca aparecen al final de una frase.