搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏产品经理的人工智能学习库
分词 – Tokenization
分词就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作。
1.8K31发布于 2019-12-18
来自专栏NewBeeNLP
NLP中的Tokenization方法总结
划掉划掉，本来想在介绍PLM模型之前简单说下Tokenization的，写完发现已经蛮长了，那模型就下一篇见吧！ Tokenization 关于Tokenization，网上有翻译成"分词"的，但是我觉得不是很准确，容易引起误导。一直找不到合适的中文来恰当表达，所以下文采用原汁原味的英文表达。接下来，我们简单梳理下目前主流的tokenization方法，及其优缺点。 ? Here comes subword tokenization! subword tokenization不转换最常见的单词，而是将稀有单词分解成有意义的子词单元。
2.8K20发布于 2020-12-22
来自专栏DeepHub IMBA
Tokenization 指南：字节对编码，WordPiece等方法Python代码详解
这个过程由一个称为标记化 Tokenization。标记化分为2个过程 1、将输入文本划分为token 标记器首先获取文本并将其分成更小的部分，可以是单词、单词的部分或单个字符。另一个例子是单词tokenization，它可以分为词根token和后缀ization。这种方法可以保持句法和语义的相似性[6]。由于这些原因，基于子词的标记器在今天的NLP模型中非常常用。可以想象，对于像tokenization这样的较长的单词，拆分可能出现在整个单词的多个位置，例如['token'， 'iza'， tion]或['token'， 'ization]。 TransformerXL Paper [5] Tokenizers [6] Word-Based, Subword, and Character-Based Tokenizers [7] The Tokenization [13] Two minutes NLP — A Taxonomy of Tokenization Methods [14] Subword Tokenizer Comparison [15] How
1.2K10编辑于 2024-01-17
来自专栏SimpleAI
Huggingface🤗NLP笔记4：Models，Tokenizers，以及如何做Subword tokenization
//github.com/beyondguo/Learn_PyTorch/tree/master/HuggingfaceNLP ---- Models，Tokenizers，以及如何做Subword tokenization 例如对 "tokenization" 这个词，可能会被分成 "token" 和 "ization" 两部分。常见的subword tokenization方法有： BPE WordPiece Unigram SentencePiece ... 这里对BPE做一个简单的介绍，让我们对 sub-word tokenization 的原理有一个基本了解： Subword tokenization (☆☆☆) Subword tokenization transformers/master/tokenizer_summary.html ） BPE————Byte-Pair Encoding： Step1：首先，我们需要对语料进行一个预分词（pre-tokenization
2.5K10发布于 2021-10-08
来自专栏我的充电站
文献阅读：AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization
参考链接 AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization
76650发布于 2021-03-28
来自专栏数据分析与挖掘
（一）构建自己的tokenization
from sentencepiece import sentencepiece_model_pb2 as sp_pb2_model import sentencepiece as spm from tokenization """Tokenization classes for LLaMA.""" import os from shutil import copyfile from typing import Any, Dict , List, Optional, Tuple import sentencepiece as spm from transformers.tokenization_utils import AddedToken add_eos_token=add_eos_token, sp_model_kwargs=self.sp_model_kwargs, clean_up_tokenization_spaces =clean_up_tokenization_spaces, **kwargs, ) self.vocab_file = vocab_file
2.4K31编辑于 2023-07-10
来自专栏实验盒
蛋白质结构tokenization新进展：基准评估框架与优化方法的探索
近年来，计算生物学的发展推动了蛋白质结构分析的新方向，其中蛋白质结构分词（Protein Structure Tokenization, PST）作为一种新兴技术，通过将蛋白质的三维结构离散化为可计算的表示形式蛋白质结构tokenization的重要性与挑战蛋白质的三维结构不仅是其功能的决定因素，还包含丰富的局部特征信息。 Protein Structure Tokenization: Benchmarking and New Recipe. arXiv preprint arXiv:2503.00089. https:/
36910编辑于 2025-03-17
来自专栏新智元
Tokenization，再见！Meta提出大概念模型LCM，1B模型干翻70B？
华盛顿大学计算机科学与工程博士Yuchen Jin，非常认同Meta的新论文，认为新模型增强了其对「tokenization将一去不复返」这一看法的信心，而大语言模型要实现AGI则需要更像人类一样思考。
44810编辑于 2025-02-15
来自专栏喔家ArchiSelf
解读大模型（LLM）的token
Token的应用机制——tokenization 将文本划分为不同token的正式过程称为 tokenization。 4.1 tokenization 的七种类型 tokenization涉及到将文本分割成有意义的单元，以捕捉其语义和句法结构，可以采用各种tokenization技术，如字级、子字级(例如，使用字节对编码或子词级tokenization：为复杂语言和词汇划分单词。将单词拆分成更小的单元，这对于复杂的语言很重要。单词级tokenization：用于语言处理的基本文本tokenization。 4.2 tokenization 的重要性 tokenization在 LLM 的效率、灵活性和泛化能力中起着至关重要的作用。解决这些挑战通常涉及专门的tokenization方法或对现有tokenizer的适应。 tokenization是特定于模型的。
20.6K51编辑于 2023-10-08
来自专栏mathor
BPE算法详解
def get_tokens_from_vocab(vocab): tokens_frequencies = collections.defaultdict(int) vocab_tokenization [''.join(word_tokens)] = word_tokens return tokens_frequencies, vocab_tokenization def measure_token_length : print('Tokenization of the known word:') print(vocab_tokenization[word_given]) print('Tokenization : print('Tokenization of the known word:') print(vocab_tokenization[word_given]) print('Tokenization Tokenization of the known word: ['mountains</w>'] Tokenization treating the known word as unknown: ['
4K31发布于 2021-04-02
来自专栏机器之心
一定要「分词」吗？Andrej Karpathy：是时候抛弃这个历史包袱了
但在这种简单的交互方式背后，AI 模型要进行非常复杂的数据处理和运算，tokenization 就是比较常见的一种。图源：https://towardsdatascience.com/dynamic-word-tokenization-with-regex-tokenizer-801ae839d1cd Tokenization 首先，Karpathy 认为，Tokenization 引入了复杂性：通过使用 tokenization，语言模型并不是完全的端到端模型。 Karpathy 认为，要解决这些问题，我们首先要抛弃 tokenization。 Meta AI 发表的一篇新论文探讨了这个问题。这些实验结果证明了大规模无 tokenization 自回归序列建模的可行性。
39620编辑于 2023-05-22
来自专栏AI SPPECH
50. Harmony Format 解析：vLLM的统一 token 化方案
背景动机与当前热点 1.1 为什么需要统一的tokenization方案在大模型生态中，不同模型往往使用不同的tokenization方案，这给模型的互操作性、推理效率和训练成本带来了挑战。 1.2 当前热点趋势当前，大模型的tokenization技术呈现出以下热点趋势：统一tokenization：开发能够支持多种模型的统一tokenization方案高效tokenization：优化tokenization的速度和内存效率多语言支持：支持更多语言和脚本动态tokenization：根据上下文动态调整tokenization策略可扩展tokenization：支持用户自定义 token和特殊标记 1.3 Harmony Format的定位 Harmony Format是vLLM提出的一种统一tokenization方案，旨在解决不同模型间tokenization碎片化的问题方案支持所有主流模型：最终将支持所有主流大模型，实现真正的统一tokenization 与模型训练融合：Harmony Format将与模型训练深度融合，实现端到端的统一tokenization 推动模型互操作性
15610编辑于 2026-02-02
来自专栏存储公众号：王知鱼
微软：AI存储，SSD or HDD ?
AI模型训练中的数据Tokenization和Vectorization通常使用专用的自然语言处理（NLP）库和框架，如： 1. NLTK：用于文本处理和Tokenization。 2. spaCy：高效的NLP工具，支持Tokenization和Vectorization。 3. Transformers（Hugging Face）：专用于深度学习模型的Tokenization和Embedding。与大数据的ETL（提取、转换、加载）过程相比，Tokenization和Vectorization主要集中在文本数据的预处理，而ETL则涵盖了更广泛的数据类型和复杂的数据转换过程。 ETL通常涉及数据清洗、整合和存储，而Tokenization和Vectorization则是将文本转换为数字格式，以便于模型处理。
98710编辑于 2025-02-11
来自专栏机器之心
太全了！苹果上新视觉模型4M-21，搞定21种模态
训练过程中一个关键步骤是对各种模态执行离散 tokenization，无论它们是类似图像的神经网络特征图、向量、实例分割或人体姿态等结构化数据，还是可以表征为文本的数据。 tokenization：使用特定于模态的方法研究不同模态的离散 tokenization，例如全局图像嵌入、人体姿态和语义实例。 Tokenization Tokenization 主要包括将不同模态和任务转换为序列或离散 token，从而统一它们的表示空间。研究者使用不同的 tokenization 方法来离散具有不同特征的模态，如图 3 所示。
32510编辑于 2024-06-27
来自专栏AutoML(自动机器学习)
NLP系列笔记-机器翻译之Sequence-to-Sequence模型
Tokenization & Build dictionary 2. One-hot Encoding 3. Tokenization & Build dictionary token是“符号”的意思，那tokenization简单理解就是分词，比如 “我是中国人”可以分解成['我', '是', '中国人'] 假设我们需要把英语翻译成德语，那么我们首先要做的是对不同语种做tokenization（分词）。参考 NLP领域中的token和tokenization到底指的是什么？
89620发布于 2021-04-22
Transformer灵魂1问系列：为什么Transformer架构中没有看到前向传播、计算Loss?
训练一个大模型的流程是这样的： Tokenization → Embedding → 位置编码→ 前向传播 → 计算Loss → 反向传播→ 梯度裁剪/正则化 → 梯度下降 → 梯度更新 But，你在可为什么上面这些训练流程中，在Transformer架构中，除了前两个词元化（Tokenization）和 Token向量化（Embedding）还有位置编码，其它都没有看到！！！为什么呢？简单地讲，Transformer架构就做了三件事，除了前面的Tokenization、Embedding、位置编码，其它是在做 “前向传播” 这个动作。为什么这样讲？让我们把上面的8步训练流程和Transformer架构层一一对应起来： Tokenization & Embedding（词元化 & 嵌入）&位置编码作用：数据处理和输入准备。一个生动的比喻把训练Transformer模型想象成教一个学生做选择题： Tokenization & Embedding&位置编码：你把一道题目（文本）翻译成学生能理解的内部语言。
4710编辑于 2026-04-14
来自专栏GiantPandaCV
使用OpenCompass评测rwkv模型教程
File "/opt/homebrew/lib/python3.11/site-packages/transformers-4.35.0.dev0-py3.11.egg/transformers/tokenization_utils_base.py File "/opt/homebrew/lib/python3.11/site-packages/transformers-4.35.0.dev0-py3.11.egg/transformers/tokenization_utils_base.py File "/opt/homebrew/lib/python3.11/site-packages/transformers-4.35.0.dev0-py3.11.egg/transformers/tokenization_utils_base.py File "/opt/homebrew/lib/python3.11/site-packages/transformers-4.35.0.dev0-py3.11.egg/transformers/tokenization_utils_base.py File "/opt/homebrew/lib/python3.11/site-packages/transformers-4.35.0.dev0-py3.11.egg/transformers/tokenization_utils_base.py
85010编辑于 2023-12-04
来自专栏数据分析与挖掘
怎么让英文大语言模型支持中文？（三）进行指令微调
（一）构建中文tokenization 怎么让英文大语言模型支持中文？（二）继续预训练这里是最后一部分了：怎么让英文大语言模型支持中文？（三）对预训练模型进行指令微调。比如chatglm、llama、bloom等，要想使用它，得了解三个方面：输入数据的格式、tokenization、模型的使用方式。接下来我们一一来看。 = tokenization tokenized_dataset = raw_dataset.map( tokenization_func, 如果还设置了文本最大长度，则input_ids后面用pad_token_id进行填充，需要注意可能有的模型的tokenization中pad_token为None，需要自己去设置一个，可以和eos_token_id Part3tokenization tokenization也很重要，我们一般可以先探索一下，在test_tokenizer.py中： from transformers import AutoTokenizer
1.4K30编辑于 2023-07-10
来自专栏我爱计算机视觉
Vx2Text-多模态任务新进展！哥大&Facebook提出VX2TEXT模型，实现了“视频+X”到“文本”的任务
为了解决在连续输入（如视频或音频）上的tokenization的不可微性，作者使用了一个relaxation方案，可以实现端到端训练。为了解决这些限制，作者提出了一种可微的tokenization方案，能够对整个网络进行端到端的训练。首先，用、、，表示一组特异于模态的网络。 The Effect of Differentiable Tokenization 上图展示了AVSD和TVQA数据集上各种Tokenization的实验结果。可以注意到， Differentiable Tokenization通过联合端到端优化整个模型，进一步提高了这两个任务的性能。 4.3. 然后，作者引入了一种可微 tokenization的机制，将模态特定分类器的连续输出转换为语言空间，这使得整个模型可以进行端到端的训练。
53420发布于 2021-09-03
来自专栏深度学习自然语言处理
NLP基础任务 - 句法分析简介
、序列标注形态分析：Morphological analysis，指将一个词的词根（stem）和词缀（prefix & suffix）提取出来的任务分词：Word segmentation or Tokenization 而对于英文，没有所谓的“分词”，对应的任务叫做Tokenization，指将文本序列切成由token组成的序列，如Wendy's -> Wendy + 's。 Tokenization可以概括为按照特定需求，把文本切分成一个字符串序列（其元素一般称为token，或者叫词语）。根据不同的需求，tokenization有不同的分割粒度：字粒度：I have a apple -> I / h / a / v / e / a / a / p / p / l / e 词粒度：I have
85810编辑于 2022-09-22

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

分词 – Tokenization

NLP中的Tokenization方法总结

Tokenization 指南：字节对编码，WordPiece等方法Python代码详解

Huggingface🤗NLP笔记4：Models，Tokenizers，以及如何做Subword tokenization

文献阅读：AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization

（一）构建自己的tokenization

蛋白质结构tokenization新进展：基准评估框架与优化方法的探索

Tokenization，再见！Meta提出大概念模型LCM，1B模型干翻70B？

解读大模型（LLM）的token

BPE算法详解

一定要「分词」吗？Andrej Karpathy：是时候抛弃这个历史包袱了

50. Harmony Format 解析：vLLM的统一 token 化方案

微软：AI存储，SSD or HDD ?

太全了！苹果上新视觉模型4M-21，搞定21种模态

NLP系列笔记-机器翻译之Sequence-to-Sequence模型

Transformer灵魂1问系列：为什么Transformer架构中没有看到前向传播、计算Loss?

使用OpenCompass评测rwkv模型教程

怎么让英文大语言模型支持中文？（三）进行指令微调

Vx2Text-多模态任务新进展！哥大&Facebook提出VX2TEXT模型，实现了“视频+X”到“文本”的任务

NLP基础任务 - 句法分析简介

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐