首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏产品经理的人工智能学习库

    分词 – Tokenization

    分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。

    1.8K31发布于 2019-12-18
  • 来自专栏NewBeeNLP

    NLP中的Tokenization方法总结

    划掉划掉,本来想在介绍PLM模型之前简单说下Tokenization的,写完发现已经蛮长了,那模型就下一篇见吧! Tokenization 关于Tokenization,网上有翻译成"分词"的,但是我觉得不是很准确,容易引起误导。一直找不到合适的中文来恰当表达,所以下文采用原汁原味的英文表达。 接下来,我们简单梳理下目前主流的tokenization方法,及其优缺点。 ? Here comes subword tokenization! subword tokenization不转换最常见的单词,而是将稀有单词分解成有意义的子词单元。

    2.8K20发布于 2020-12-22
  • 来自专栏DeepHub IMBA

    Tokenization 指南:字节对编码,WordPiece等方法Python代码详解

    这个过程由一个称为标记化 Tokenization。 标记化分为2个过程 1、将输入文本划分为token 标记器首先获取文本并将其分成更小的部分,可以是单词、单词的部分或单个字符。 另一个例子是单词tokenization,它可以分为词根token和后缀ization。这种方法可以保持句法和语义的相似性[6]。由于这些原因,基于子词的标记器在今天的NLP模型中非常常用。 可以想象,对于像tokenization这样的较长的单词,拆分可能出现在整个单词的多个位置,例如['token', 'iza', tion]或['token', 'ization]。 TransformerXL Paper [5] Tokenizers [6] Word-Based, Subword, and Character-Based Tokenizers [7] The Tokenization [13] Two minutes NLP — A Taxonomy of Tokenization Methods [14] Subword Tokenizer Comparison [15] How

    1.2K10编辑于 2024-01-17
  • 来自专栏SimpleAI

    Huggingface🤗NLP笔记4:Models,Tokenizers,以及如何做Subword tokenization

    //github.com/beyondguo/Learn_PyTorch/tree/master/HuggingfaceNLP ---- Models,Tokenizers,以及如何做Subword tokenization 例如对 "tokenization" 这个词,可能会被分成 "token" 和 "ization" 两部分。 常见的subword tokenization方法有: BPE WordPiece Unigram SentencePiece ... 这里对BPE做一个简单的介绍,让我们对 sub-word tokenization 的原理有一个基本了解: Subword tokenization (☆☆☆) Subword tokenization transformers/master/tokenizer_summary.html ) BPE————Byte-Pair Encoding: Step1:首先,我们需要对语料进行一个预分词(pre-tokenization

    2.5K10发布于 2021-10-08
  • 来自专栏我的充电站

    文献阅读:AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization

    参考链接 AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization

    76650发布于 2021-03-28
  • 来自专栏数据分析与挖掘

    (一)构建自己的tokenization

    from sentencepiece import sentencepiece_model_pb2 as sp_pb2_model import sentencepiece as spm from tokenization """Tokenization classes for LLaMA.""" import os from shutil import copyfile from typing import Any, Dict , List, Optional, Tuple import sentencepiece as spm from transformers.tokenization_utils import AddedToken add_eos_token=add_eos_token,             sp_model_kwargs=self.sp_model_kwargs,             clean_up_tokenization_spaces =clean_up_tokenization_spaces,             **kwargs,         )         self.vocab_file = vocab_file         

    2.4K31编辑于 2023-07-10
  • 来自专栏实验盒

    蛋白质结构tokenization新进展:基准评估框架与优化方法的探索

    近年来,计算生物学的发展推动了蛋白质结构分析的新方向,其中 蛋白质结构分词(Protein Structure Tokenization, PST) 作为一种新兴技术,通过将蛋白质的三维结构离散化为可计算的表示形式 蛋白质结构tokenization的重要性与挑战 蛋白质的三维结构不仅是其功能的决定因素,还包含丰富的局部特征信息。 Protein Structure Tokenization: Benchmarking and New Recipe. arXiv preprint arXiv:2503.00089. https:/

    36910编辑于 2025-03-17
  • 来自专栏新智元

    Tokenization,再见!Meta提出大概念模型LCM,1B模型干翻70B?

    华盛顿大学计算机科学与工程博士Yuchen Jin,非常认同Meta的新论文,认为新模型增强了其对「tokenization将一去不复返」这一看法的信心,而大语言模型要实现AGI则需要更像人类一样思考。

    44810编辑于 2025-02-15
  • 来自专栏喔家ArchiSelf

    解读大模型(LLM)的token

    Token的应用机制——tokenization 将文本划分为不同token的正式过程称为 tokenization。 4.1 tokenization 的七种类型 tokenization涉及到将文本分割成有意义的单元,以捕捉其语义和句法结构,可以采用各种tokenization技术,如字级、子字级(例如,使用字节对编码或 子词级tokenization:为复杂语言和词汇划分单词。将单词拆分成更小的单元,这对于复杂的语言很重要。 单词级tokenization:用于语言处理的基本文本tokenization。 4.2 tokenization 的重要性 tokenization在 LLM 的效率、灵活性和泛化能力中起着至关重要的作用。 解决这些挑战通常涉及专门的tokenization方法或对现有tokenizer的适应。 tokenization是特定于模型的。

    20.6K51编辑于 2023-10-08
  • 来自专栏mathor

    BPE算法详解

    def get_tokens_from_vocab(vocab): tokens_frequencies = collections.defaultdict(int) vocab_tokenization [''.join(word_tokens)] = word_tokens return tokens_frequencies, vocab_tokenization def measure_token_length : print('Tokenization of the known word:') print(vocab_tokenization[word_given]) print('Tokenization : print('Tokenization of the known word:') print(vocab_tokenization[word_given]) print('Tokenization Tokenization of the known word: ['mountains</w>'] Tokenization treating the known word as unknown: ['

    4K31发布于 2021-04-02
  • 来自专栏机器之心

    一定要「分词」吗?Andrej Karpathy:是时候抛弃这个历史包袱了

    但在这种简单的交互方式背后,AI 模型要进行非常复杂的数据处理和运算,tokenization 就是比较常见的一种。 图源:https://towardsdatascience.com/dynamic-word-tokenization-with-regex-tokenizer-801ae839d1cd Tokenization 首先,Karpathy 认为,Tokenization 引入了复杂性:通过使用 tokenization,语言模型并不是完全的端到端模型。 Karpathy 认为,要解决这些问题,我们首先要抛弃 tokenization。 Meta AI 发表的一篇新论文探讨了这个问题。 这些实验结果证明了大规模无 tokenization 自回归序列建模的可行性。

    39620编辑于 2023-05-22
  • 来自专栏AI SPPECH

    50. Harmony Format 解析:vLLM的统一 token 化方案

    背景动机与当前热点 1.1 为什么需要统一的tokenization方案 在大模型生态中,不同模型往往使用不同的tokenization方案,这给模型的互操作性、推理效率和训练成本带来了挑战。 1.2 当前热点趋势 当前,大模型的tokenization技术呈现出以下热点趋势: 统一tokenization:开发能够支持多种模型的统一tokenization方案 高效tokenization: 优化tokenization的速度和内存效率 多语言支持:支持更多语言和脚本 动态tokenization:根据上下文动态调整tokenization策略 可扩展tokenization:支持用户自定义 token和特殊标记 1.3 Harmony Format的定位 Harmony Format是vLLM提出的一种统一tokenization方案,旨在解决不同模型间tokenization碎片化的问题 方案 支持所有主流模型:最终将支持所有主流大模型,实现真正的统一tokenization 与模型训练融合:Harmony Format将与模型训练深度融合,实现端到端的统一tokenization 推动模型互操作性

    15610编辑于 2026-02-02
  • 来自专栏存储公众号:王知鱼

    微软:AI存储,SSD or HDD ?

    AI模型训练中的数据Tokenization和Vectorization通常使用专用的自然语言处理(NLP)库和框架,如: 1. NLTK:用于文本处理和Tokenization。 2. spaCy:高效的NLP工具,支持Tokenization和Vectorization。 3. Transformers(Hugging Face):专用于深度学习模型的Tokenization和Embedding。 与大数据的ETL(提取、转换、加载)过程相比,Tokenization和Vectorization主要集中在文本数据的预处理,而ETL则涵盖了更广泛的数据类型和复杂的数据转换过程。 ETL通常涉及数据清洗、整合和存储,而Tokenization和Vectorization则是将文本转换为数字格式,以便于模型处理。

    98710编辑于 2025-02-11
  • 来自专栏机器之心

    太全了!苹果上新视觉模型4M-21,搞定21种模态

    训练过程中一个关键步骤是对各种模态执行离散 tokenization,无论它们是类似图像的神经网络特征图、向量、实例分割或人体姿态等结构化数据,还是可以表征为文本的数据。 tokenization:使用特定于模态的方法研究不同模态的离散 tokenization,例如全局图像嵌入、人体姿态和语义实例。 Tokenization Tokenization 主要包括将不同模态和任务转换为序列或离散 token,从而统一它们的表示空间。 研究者使用不同的 tokenization 方法来离散具有不同特征的模态,如图 3 所示。

    32510编辑于 2024-06-27
  • 来自专栏AutoML(自动机器学习)

    NLP系列笔记-机器翻译之Sequence-to-Sequence模型

    Tokenization & Build dictionary 2. One-hot Encoding 3. Tokenization & Build dictionary token是“符号”的意思,那tokenization简单理解就是分词,比如 “我是中国人”可以分解成['我', '是', '中国人'] 假设我们需要把英语翻译成德语,那么我们首先要做的是对不同语种做tokenization(分词)。 参考 NLP领域中的token和tokenization到底指的是什么?

    89620发布于 2021-04-22
  • Transformer灵魂1问系列:为什么Transformer架构中没有看到前向传播、计算Loss?

    训练一个大模型的流程是这样的: Tokenization → Embedding → 位置编码→ 前向传播 → 计算Loss → 反向传播→ 梯度裁剪/正则化 → 梯度下降 → 梯度更新 But,你在 可为什么上面这些训练流程中,在Transformer架构中,除了前两个 词元化(Tokenization)和 Token向量化(Embedding)还有位置编码,其它都没有看到!!! 为什么呢? 简单地讲,Transformer架构就做了三件事,除了前面的Tokenization、Embedding、位置编码,其它是在做 “前向传播” 这个动作。 为什么这样讲? 让我们把上面的8步训练流程和Transformer架构层一一对应起来: Tokenization & Embedding(词元化 & 嵌入)&位置编码 作用:数据处理和输入准备。 一个生动的比喻 把训练Transformer模型想象成教一个学生做选择题: Tokenization & Embedding&位置编码:你把一道题目(文本)翻译成学生能理解的内部语言。

    4710编辑于 2026-04-14
  • 来自专栏GiantPandaCV

    使用OpenCompass评测rwkv模型教程

    File "/opt/homebrew/lib/python3.11/site-packages/transformers-4.35.0.dev0-py3.11.egg/transformers/tokenization_utils_base.py File "/opt/homebrew/lib/python3.11/site-packages/transformers-4.35.0.dev0-py3.11.egg/transformers/tokenization_utils_base.py File "/opt/homebrew/lib/python3.11/site-packages/transformers-4.35.0.dev0-py3.11.egg/transformers/tokenization_utils_base.py File "/opt/homebrew/lib/python3.11/site-packages/transformers-4.35.0.dev0-py3.11.egg/transformers/tokenization_utils_base.py File "/opt/homebrew/lib/python3.11/site-packages/transformers-4.35.0.dev0-py3.11.egg/transformers/tokenization_utils_base.py

    85010编辑于 2023-12-04
  • 来自专栏数据分析与挖掘

    怎么让英文大语言模型支持中文?(三)进行指令微调

    (一)构建中文tokenization 怎么让英文大语言模型支持中文?(二)继续预训练 这里是最后一部分了:怎么让英文大语言模型支持中文?(三)对预训练模型进行指令微调。 比如chatglm、llama、bloom等,要想使用它,得了解三个方面:输入数据的格式、tokenization、模型的使用方式。接下来我们一一来看。  = tokenization             tokenized_dataset = raw_dataset.map(                 tokenization_func,                  如果还设置了文本最大长度,则input_ids后面用pad_token_id进行填充,需要注意可能有的模型的tokenization中pad_token为None,需要自己去设置一个,可以和eos_token_id Part3tokenization tokenization也很重要,我们一般可以先探索一下,在test_tokenizer.py中: from transformers import AutoTokenizer

    1.4K30编辑于 2023-07-10
  • 来自专栏我爱计算机视觉

    Vx2Text-多模态任务新进展!哥大&Facebook提出VX2TEXT模型,实现了“视频+X”到“文本”的任务

    为了解决在连续输入(如视频或音频)上的tokenization的不可微性,作者使用了一个relaxation方案,可以实现端到端训练。 为了解决这些限制,作者提出了一种可微的tokenization方案,能够对整个网络进行端到端的训练。 首先,用、、,表示一组特异于模态的网络。 The Effect of Differentiable Tokenization 上图展示了AVSD和TVQA数据集上各种Tokenization的实验结果。 可以注意到, Differentiable Tokenization通过联合端到端优化整个模型,进一步提高了这两个任务的性能。 4.3. 然后,作者引入了一种可微 tokenization的机制,将模态特定分类器的连续输出转换为语言空间,这使得整个模型可以进行端到端的训练。

    53420发布于 2021-09-03
  • 来自专栏深度学习自然语言处理

    NLP基础任务 - 句法分析简介

    、序列标注 形态分析:Morphological analysis,指将一个词的词根(stem)和词缀(prefix & suffix)提取出来的任务 分词:Word segmentation or Tokenization 而对于英文,没有所谓的“分词”,对应的任务叫做Tokenization,指将文本序列切成由token组成的序列,如Wendy's -> Wendy + 's。 Tokenization可以概括为按照特定需求,把文本切分成一个字符串序列(其元素一般称为token,或者叫词语)。 根据不同的需求,tokenization有不同的分割粒度: 字粒度:I have a apple -> I / h / a / v / e / a / a / p / p / l / e 词粒度:I have

    85810编辑于 2022-09-22
领券