Text Segmentation API
Zählen und teilen Sie Text so, wie Menschen ihn tatsächlich lesen, mit Unicode-korrekter Segmentierung. Der Count-Endpunkt gibt die Anzahl der Graphemcluster zurück – die echten, vom Benutzer wahrgenommenen Zeichen, sodass ein Familien-Emoji als 1 (nicht 7) und ein akzentuierter Buchstabe als 1 zählt – zusammen mit Wörtern, Sätzen, Codepunkten, UTF-16-Codeeinheiten (der naiven Stringlänge, die überzählt) und UTF-8-Byte-Länge. Dies ist genau das, was Zeichenbegrenzungsfelder, Tweet/SMS-Zähler und Validierung benötigen, damit die Zählung mit dem übereinstimmt, was der Benutzer sieht. Der Segment-Endpunkt teilt Text in Graphem-, Wort- oder Satzsegmente auf (Wortsegmente werden als wortähnlich versus Satzzeichen und Leerzeichen gekennzeichnet) und ist sprachbewusst, sodass japanische, chinesische und thailändische Wortgrenzen korrekt erkannt werden. Alles wird lokal ohne Netzwerkaufrufe berechnet. Ein Unicode-Textsegmentierer – unterschieden von der Unicode-Codepunkt-Datenbank (unicode), dem Fall-/Text-Utilities-Toolkit (text) und der String-Ähnlichkeit (similarity). Kein vorgeschalteter Schlüssel, kein Cache.
api.oanor.com/segmenter-api