Text Segmentation API
Tel en splits tekst zoals mensen het daadwerkelijk lezen, met Unicode-correcte segmentatie. Het count-eindpunt retourneert het aantal grafeemclusters — de echte, door de gebruiker waargenomen karakters, dus een familie-emoji telt als 1 (niet 7) en een geaccentueerde letter als 1 — samen met woorden, zinnen, codepunten, UTF-16-code-eenheden (de naïeve stringlengte die te veel telt) en UTF-8-bytelengte. Dit is precies wat karakterlimietvelden, tweet/SMS-tellers en validatie nodig hebben, zodat de telling overeenkomt met wat de gebruiker ziet. Het segment-eindpunt splitst tekst in grafeem-, woord- of zinsegmenten (woordsegmenten worden gemarkeerd als woordachtig versus interpunctie en spaties) en is locatiebewust, zodat Japanse, Chinese en Thaise woordgrenzen correct worden weergegeven. Alles wordt lokaal berekend zonder netwerkaanroepen. Een Unicode-tekstsegmenter — te onderscheiden van de Unicode-codepuntdatabase (unicode), de case/tekst-hulpprogramma's toolkit (text) en stringovereenkomst (similarity). Geen upstream-sleutel, geen cache.
api.oanor.com/segmenter-api