API de segmentation de texte
Comptez et divisez le texte comme les gens le lisent réellement, en utilisant une segmentation correcte selon Unicode. Le point de terminaison count renvoie le nombre de graphèmes — les véritables caractères perçus par l'utilisateur, donc un emoji de famille compte pour 1 (pas 7) et une lettre accentuée pour 1 — ainsi que les mots, les phrases, les points de code, les unités de code UTF-16 (la longueur naïve de chaîne qui sur-compte) et la longueur en octets UTF-8. C'est exactement ce dont les champs à limite de caractères, les compteurs de tweets/SMS et la validation ont besoin pour que le compte corresponde à ce que l'utilisateur voit. Le point de terminaison segment divise le texte en segments de graphèmes, de mots ou de phrases (les segments de mots sont marqués comme ressemblant à des mots par rapport à la ponctuation et aux espaces) et tient compte de la locale, de sorte que les limites de mots en japonais, chinois et thaï sont correctes. Tout est calculé localement sans appels réseau. Un segmenteur de texte Unicode — distinct de la base de données de points de code Unicode (unicode), de la boîte à outils de casse/utilitaires de texte (text) et de la similarité de chaînes (similarity). Pas de clé en amont, pas de cache.
api.oanor.com/segmenter-api