Accueil Développement Qu'est-ce que la tokenisation? - définition de techopedia

Qu'est-ce que la tokenisation? - définition de techopedia

Table des matières:

Anonim

Définition - Que signifie la tokenisation?

La tokenisation est l'acte de décomposer une séquence de chaînes en morceaux tels que des mots, des mots-clés, des phrases, des symboles et d'autres éléments appelés jetons. Les jetons peuvent être des mots, des phrases ou même des phrases entières. Dans le processus de tokenisation, certains caractères comme les signes de ponctuation sont supprimés. Les jetons deviennent l'entrée d'un autre processus comme l'analyse et l'exploration de texte.

La tokenisation est utilisée en informatique, où elle joue un grand rôle dans le processus d'analyse lexicale.

Techopedia explique la tokenisation

La tokenisation repose principalement sur des heuristiques simples afin de séparer les jetons en suivant quelques étapes:

  • Les jetons ou les mots sont séparés par des espaces, des signes de ponctuation ou des sauts de ligne
  • Des espaces blancs ou des signes de ponctuation peuvent ou non être inclus selon le besoin
  • Tous les caractères dans des chaînes contiguës font partie du jeton. Les jetons peuvent être constitués de tous les caractères alpha, alphanumériques ou numériques uniquement.

Les jetons eux-mêmes peuvent également être des séparateurs. Par exemple, dans la plupart des langages de programmation, les identifiants peuvent être placés avec des opérateurs arithmétiques sans espaces blancs. Bien qu'il semble que cela apparaisse comme un seul mot ou jeton, la grammaire de la langue considère en fait l'opérateur mathématique (un jeton) comme un séparateur, donc même lorsque plusieurs jetons sont regroupés, ils peuvent toujours être séparés via le mathématique opérateur.

Qu'est-ce que la tokenisation? - définition de techopedia