API de Segmentación de Texto
Cuenta y divide el texto de la forma en que las personas realmente lo leen, utilizando segmentación correcta según Unicode. El endpoint de conteo devuelve el número de clústeres de grafemas — los caracteres reales percibidos por el usuario, por lo que un emoji de familia cuenta como 1 (no 7) y una letra acentuada como 1 — junto con palabras, oraciones, puntos de código, unidades de código UTF-16 (la longitud ingenua de cadena que sobrecuenta) y la longitud en bytes UTF-8. Esto es exactamente lo que necesitan los campos con límite de caracteres, contadores de tweets/SMS y validación para que el conteo coincida con lo que el usuario ve. El endpoint de segmentación divide el texto en segmentos de grafemas, palabras u oraciones (los segmentos de palabras se marcan como similares a palabras versus puntuación y espacios) y es consciente de la configuración regional, por lo que los límites de palabras en japonés, chino y tailandés resultan correctos. Todo se calcula localmente sin llamadas de red. Un segmentador de texto Unicode — distinto de la base de datos de puntos de código Unicode (unicode), el conjunto de herramientas de mayúsculas/minúsculas y utilidades de texto (text) y la similitud de cadenas (similarity). Sin clave upstream, sin caché.
api.oanor.com/segmenter-api