Πίσω

#ngram

1 API με αυτήν την ετικέτα

N-gram API

Δημιουργήστε n-γράμματα από κείμενο, με μετρήσεις συχνότητας — εξ ολοκλήρου τοπικά. Το τελικό σημείο ngrams αναλύει το κείμενο σε συνεχόμενες ακολουθίες n διακριτικών και επιστρέφει κάθε ξεχωριστό n-γραμμα με το πόσο συχνά εμφανίζεται, ταξινομημένο κατά συχνότητα: λεκτικά n-γράμματα (unigrams, bigrams, trigrams και πέραν αυτών) για ανάλυση φράσεων και συνεμφανίσεων, ή χαρακτηριστικά n-γράμματα (shingles) για ασαφή αντιστοίχιση, ανίχνευση γλώσσας και ευρετηρίαση. Το τελικό σημείο range παράγει κάθε μέγεθος από ένα ελάχιστο έως ένα μέγιστο σε μία μόνο κλήση (για παράδειγμα 1–3 γράμματα), που είναι ακριβώς αυτό που χρειάζεστε για να δημιουργήσετε διανύσματα χαρακτηριστικών. Επιλέξτε λειτουργία λέξης ή χαρακτήρα, αν θα γίνει πρώτα μετατροπή σε πεζά, και ένα όριο top-N για να κρατήσετε μόνο τα πιο συχνά. Η λεκτική τοκενοποίηση είναι Unicode-aware και διατηρεί εσωτερικές αποστρόφους και παύλες (don't, well-known) ως μεμονωμένα διακριτικά. Όλα εκτελούνται τοπικά και ντετερμινιστικά, επομένως είναι γρήγορα και ιδιωτικά. Ιδανικό για εξόρυξη κειμένου και εξαγωγή χαρακτηριστικών NLP, μοντελοποίηση γλώσσας και αυτόματη συμπλήρωση, ευρετηρίαση αναζήτησης και shingling, ανίχνευση λογοκλοπής και ομοιότητας, και ανάλυση λέξεων-κλειδιών και συνεμφανίσεων. Καθαρός τοπικός υπολογισμός — χωρίς κλειδί, χωρίς υπηρεσία τρίτου μέρους, άμεσος. Ζωντανό, τίποτα δεν αποθηκεύεται. 3 τελικά σημεία. Αυτό παράγει n-γράμματα και μετρήσεις· για περιληπτικές περιλήψεις και λέξεις-κλειδιά χρησιμοποιήστε ένα summarize API και για μέτρηση γραφημάτων/χαρακτήρων χρησιμοποιήστε ένα text-segmentation API.

api.oanor.com/ngram-api