API Τμηματοποίησης Κειμένου
Μετρήστε και χωρίστε το κείμενο όπως το διαβάζουν πραγματικά οι άνθρωποι, χρησιμοποιώντας τμηματοποίηση σωστή ως προς το Unicode. Το τελικό σημείο count επιστρέφει τον αριθμό των συμπλεγμάτων γραφημάτων — τους πραγματικούς, αντιληπτούς από τον χρήστη χαρακτήρες, οπότε ένα emoji οικογένειας μετράει ως 1 (όχι 7) και ένα τονισμένο γράμμα ως 1 — μαζί με λέξεις, προτάσεις, σημεία κώδικα, μονάδες UTF-16 (το αφελές μήκος συμβολοσειράς που υπερμετρά) και μήκος byte UTF-8. Αυτό ακριβώς χρειάζονται τα πεδία ορίου χαρακτήρων, οι μετρητές tweet/SMS και η επικύρωση, ώστε η μέτρηση να συμφωνεί με αυτό που βλέπει ο χρήστης. Το τελικό σημείο segment χωρίζει το κείμενο σε τμήματα γραφημάτων, λέξεων ή προτάσεων (τα τμήματα λέξεων χαρακτηρίζονται ως λέξεις έναντι σημείων στίξης και κενών) και λαμβάνει υπόψη την τοπική γλώσσα, οπότε τα όρια λέξεων στα Ιαπωνικά, Κινεζικά και Ταϊλανδικά βγαίνουν σωστά. Όλα υπολογίζονται τοπικά χωρίς κλήσεις δικτύου. Ένας τμηματοποιητής κειμένου Unicode — διακριτός από τη βάση δεδομένων σημείων κώδικα Unicode (unicode), τη σουίτα εργαλείων πεζών/κεφαλαίων και κειμένου (text) και την ομοιότητα συμβολοσειρών (similarity). Χωρίς upstream κλειδί, χωρίς cache.
api.oanor.com/segmenter-api