搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Python进阶之路
详解为什么现在的 LLMs 大都是 Decoder-only 的架构
50800编辑于 2024-05-25
来自专栏AI前沿技术
以GPT为代表的Decoder-Only架构凭啥C位出道？
3）讨论主流厂商的大模型，采用Decoder-only架构的原因。 5，为什么Decoder-only 一枝独秀 Decoder-only的模型具有自身的天然优势： • Decoder-only 模型使用 next token prediction 任务训练，兼顾理解和生成 • In context 上下文学习为Decoder-only 架构带来更好的few-shot 性能。 Decoder-only架构加next token predicition 的方式，每个位置所能接触的信息比其他架构少，要预测下一个token难度更高，当模型足够大，数据足够多的时候，Decoder-only 本来按照计划的剧本大家在各自的领域发光发热，但发现Decoder-only模型还有很多隐藏的技能，而且在AI infra 角度极易的扩展，使得Decoder-only模型包揽的任务越来越多，慢慢就形成了以
80310编辑于 2026-01-13
来自专栏大模型应用
大模型架构算力对比：Decoder-only、Encoder-Decoder、MoE深度解析.71
整体算力复杂度：O (n₁² × d + n₂² × d + n₁ × n₂ × d)，明显高于同等参数量、同等任务长度下Decoder-only 架构。技术细节：Decoder-only 架构没有额外的冗余参数，所有参数都服务于生成任务，计算密度较高，因此在同等参数量下，其算力利用率是三者中较高的。模型架构优化：采用 Decoder-only 架构（推理友好，KV 缓存优化空间大），避免 Encoder-Decoder 架构的额外开销。分工明确，Encoder 负责理解，Decoder 负责生成，在复杂序列任务中，模型能力优于同等算力的 Decoder-only 架构。 MoE 架构的算力复杂度仅为 Decoder-only 架构的 2%，体现了稀疏激活的算力节省优势。
17243编辑于 2026-04-09
来自专栏AI智能体从入门到实践
构建AI智能体：Encoder-only与Decoder-only模型架构：基于本地小模型的实践解析
内容创作、智能客服、代码生成等场景需要模型具备持续创作能力，这时候Decoder-only架构展现出独特价值。它就像不知疲倦的创作者，能够根据简单提示生成丰富内容。 Decoder-only 模型就是这样一位成语接龙高手。核心技术为了让故事接龙成为可能，Decoder-only 模型采用了一种关键的技术：因果注意力掩码。当我们需要模型创作内容、进行对话、根据指令完成任务或续写故事时，Decoder-only (GPT) 是唯一的选择。而Decoder-only如GPT系列，通过因果注意力掩码实现自回归生成，化身为创作高手，在文本生成、对话系统和代码创作等场景表现卓越。
52632编辑于 2026-01-17
来自专栏人工智能
什么是Decoder-only架构？为什么GPT系列专注于预测下一个词？
什么是Decoder-only架构？为什么GPT系列专注于预测下一个词？一、简介Decoder-only架构是一种只包含解码器（Decoder）组件的神经网络结构，它专注于自回归地生成新文本，通过预测序列中的下一个词来逐步构建完整的输出。最著名的Decoder-only模型就是GPT系列（GenerativePre-trainedTransformer）。这就是Decoder-only架构的核心思想：专业化地做好"生成"这一件事。二、为什么需要专门的"生成"模型？结语Decoder-only架构的成功告诉我们：专注生成，也能创造奇迹。GPT系列通过专注于"预测下一个词"这一看似简单的任务，却实现了令人惊叹的语言生成能力。
33510编辑于 2026-03-06
来自专栏人工智能
解码器架构：构建智能语言模型的核心设计
在现代自然语言处理领域，Decoder-only（解码器）架构是构建语言模型的重要设计之一。这种架构尤其适合生成任务，例如对话生成、自动摘要、代码补全等。什么是 Decoder-only 架构？Decoder-only 架构是基于 Transformer 的一种深度学习模型设计，专注于生成目标序列。从技术层面来看，Decoder-only 架构的工作原理可以分为以下几个关键部分：输入嵌入：将离散的文本序列（例如 The cat is）转化为连续的向量表示。这种智能预测能力的背后逻辑正是 Decoder-only 架构的核心思想。技术实现：理论与代码分析为了让这一架构更加直观，我们通过 Python 和 PyTorch 展示一个简单的 Decoder-only 模型。
85010编辑于 2025-01-12
来自专栏DeepHub IMBA
LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例
如GPT系列，通常是decoder-only模型。 LLM (Decoder-only)：如GPT系列模型，通常采用单向Transformer解码器。这意味着在生成文本时，每个新词只能基于前面的词生成。在论文中对encoder-only和decoder-only模型的特点进行了讨论，特别是在解释为什么将decoder-only的大型语言模型（LLM）转换为有效的文本编码器时。其实我们可以将这篇论文的重点简单的理解为，如何将一个decoder-only的模型快速并且无损的转换成一个encoder-only模型。方法详解论文中描述的LLM2Vec方法在代码层面主要涉及以下几个关键的修改，以将decoder-only模型转换为能够生成丰富文本编码的模型：启用双向注意力：通常，decoder-only模型使用的是单向
4.2K10编辑于 2024-05-10
来自专栏SimpleAI
Huggingface🤗NLP笔记2：一文看清Transformer大家族的三股势力
encoder、decoder既可以单独使用，又可以再一起使用，因此，基于Transformer的模型可以分为三大类： Encoder-only Decoder-only Encoder-Decoder 对于Decoder-only的模型，预训练任务通常是Next word prediction，这种方式又被称为Causal language modeling。 seq2seq架构的模型，就适合做翻译、对话等需要根据给定输入来生成输出的任务，这跟decoder-only的模型还是有很大差别的。
4.5K30发布于 2021-10-08
来自专栏量化投资与机器学习
基于『大语言模型』和『新闻数据』的股票预测研究
本文中对encoder-only和decoder-only两类大语言模型的预测效果进行了对比。 5、对于decoder-only LLMs，平均所有标记的表示可能会导致对输入序列中早期标记的偏见，因为在自回归设置中，早期标记会反复合并到后续所有标记的表示中。首先，第一幅图展示了encoder-only和decoder-only LLMs在适合的表示方法下的表现。结果表明，decoder-only模型Mistral和Llama在预测高回报（第9分位数）和低回报（第0分位数）方面表现突出，这直接反映在多头仓位和长空头仓位投资组合的优越表现上。特别是，decoder-only模型在长空头仓位投资组合中的表现尤为显著，这强调了在投资组合的多头和空头两边都进行有效股票选择的重要性。
1.2K10编辑于 2024-08-01
来自专栏机器之心
仅使用解码器实现语音翻译，字节跳动提出基于LLM的新范式PolyVoice
PolyVoice 有两点突出贡献：（1）decoder-only：使用 decoder-only 框架实现直接的语音翻译，同时能够容纳多源的训练数据。 Decoder-only 和 Encoder-Decoder 两种框架的对比 Decoder-only 模型带来了 3.9 个 BLEU 的显著改进，当用 U2S 代替声码器合成语音时，缩小了性能差距多任务训练 U-XLM 在涉及的多个任务（包括 S2ST、ASR、ST、MT 和 TTS）上都取得了可观的性能，验证了 Decoder-only 框架的通用建模能力。 3.
71240编辑于 2023-08-07
来自专栏SimpleAI
Google的 Pathways（理想）与 PaLM（现实）
“ Anyway，还是介绍一下：一句话介绍： PaLM 是第一款基于 Google Pathways 系统训练的超大规模的语言模型（但依然是经典结构：a dense, decoder-only, full-attention Model： A dense, decoder-only, full-attention Transformer model 使用 SwiGLU Activation，Parallel Layers，Multi-Query memorization现象 Training Dataset： Results： Few-shot 实验： Finetune实验：比最好的encoder-decoder模型效果要差一点，但是显著高于之前的decoder-only
1.1K20编辑于 2022-11-30
来自专栏GoCoding
Transformer 从零开始
install torch torchvision --index-url https://download.pytorch.org/whl/cu130运行代码：build_transformer.py关键：Decoder-only 架构进化Encoder-Decoder: 原始，适合 Seq2Seq 任务Decoder-only (Causal): 当前，经过 Scaling Laws 验证Attention 进化KV Cache
10210编辑于 2026-03-16
【多模态大模型面经】 Transformer 专题面经
为什么有 Encoder-Decoder 和 Decoder-Only 两种不同的架构？它们各自适合什么场景？ Decoder-Only 架构：适合语言建模、文本生成和自回归任务。因此，在纯生成任务中，使用 Decoder-Only 架构是可行且高效的，因为模型只需要预测下一个 token，不需要显式处理输入-输出对齐。对于这些任务，Decoder-Only 能够充分利用自回归生成能力，并且结构简单便于大规模训练。文本文本 LLM 训练、文本生成 GPT-4 Decoder-Only 文本/多模态文本/多模态大规模 LLM、通用生成 PaLM
85820编辑于 2025-11-16
来自专栏时空探索之旅
【重制版】AI论文速读 | 计时器（Timer）：用于大规模时间序列分析的Transformer
本文采用decoder-only结构 Q: 论文做了哪些实验？）中获得了更好的端到端性能，而decoder-only需要从头开始训练更多的样本。但是经过预训练后，Timer作为decoder-only的Transformer比encoder-only的预训练的模型表现出更好的泛化能力，从而提高了大多数下游场景的性能。相比之下，通过具有刚性上下文长度的decoder-only模型来实现这一点，将需要滚动预测（rolling forecasting），从而导致显著的误差积累。异常检测异常检测完整结果模型扩展性 Timer在不同大小预训练数据集的结果 encoder-only VS decoder-only encoder-only VS decoder-only不同数据稀缺情况下
68110编辑于 2024-11-19
来自专栏AI绘画
QQ音乐？NO是腾讯AI音乐
大语言模型预测：使用decoder-only结构，实现从文本到音乐的转换。音频恢复：通过流匹配和声码器技术，将预测出的音频表征序列恢复成可听音频。大语言模型：使用decoder-only结构进行特征预测训练。流匹配与声码器技术：将预测出的音频表征序列转换为可听音频。多模块协同工作：多个模块协同工作以实现音乐生成的效果。
3.1K40编辑于 2024-06-27
来自专栏openclaw系列
Transformer 架构：重塑序列建模的基石
例如，BERT 是 Encoder-only，GPT 系列是 Decoder-only。 4. Decoder-only 变体（如 GPT, LLaMA, Qwen）开启了生成式 AI 和大语言模型的时代。
28020编辑于 2026-03-14
来自专栏时空探索之旅
AI论文速读 | 计时器（Timer）：用于大规模时间序列分析的Transformer
本文采用decoder-only结构 Q: 论文做了哪些实验？ encoder-only和decoder-only预测性能比较分为从头训练和在UTSD-12G上预训练两种实验： encoder-only的Transformer在不饱和场景（1%Traget-None 分析了编码器-解码器（Encoder-Decoder）结构与仅解码器（Decoder-only）结构在预训练和下游任务中的性能差异。相比之下，通过具有刚性上下文长度的decoder-only模型来实现这一点，将需要滚动预测（rolling forecasting），从而导致显著的误差积累。异常检测异常检测完整结果模型扩展性 img encoder-only VS decoder-only encoder-only VS decoder-only不同数据稀缺情况下，PEMS和ETT子集的预测结果
1.1K10编辑于 2024-11-19
来自专栏深度学习与python
又一国产大模型来了，超对称联合复旦大学发布 120 亿参数语言模型 BBT-2，已开源
+Decoder 架构，使用金融中文语料库 1000 亿 tokens 进行预训练，包含社交媒体，财经新闻，券商研报，公司公告财报等数据 BBT-2-12B-Text：120 亿参数基础模型，GPT Decoder-Only 架构，未经指令微调，完成 2000 亿 token 预训练，模型性能还有较大提升空间，开发者可在通用模型上继续训练或进行下游任务微调 BBT-2.5-13B-Text: 130 亿参数基础模型，GPT Decoder-Only
50610编辑于 2023-04-30
来自专栏深度学习自然语言处理
OpenBA：开源模型家族再添一员！从头训练的15B中英非对称Encoder-Decoder结构双语模型
在中文开源领域，虽有GLM，Baichuan，Moss，BatGPT之类的优秀工作，但仍存在以下空白：主流开源大语言模型主要基于decoder-only架构或其变种，encoder-decoder架构仍待研究论文认为现有的大语言模型主要为decoder-only结构，以生成能力见长，而decoder的层数更深有助于模型生成能力的提升。
84960编辑于 2023-09-21
Llama 3发布，开源社区迎来自己的GPT4模型了吗？
这里总结了Llama 3到底改进了哪些地方：Meta的新版本Llama 3模型在各项指标上均表现出显著提升，特别是在人工评估上，效果优于其他模型Llama 3模型采用decoder-only架构，词汇表扩大至模型结构Llama 3模型还是采用decoder-only架构的transformer进行训练。
57110编辑于 2024-08-24

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

详解为什么现在的 LLMs 大都是 Decoder-only 的架构

以GPT为代表的Decoder-Only架构凭啥C位出道？

大模型架构算力对比：Decoder-only、Encoder-Decoder、MoE深度解析.71

构建AI智能体：Encoder-only与Decoder-only模型架构：基于本地小模型的实践解析

什么是Decoder-only架构？为什么GPT系列专注于预测下一个词？

解码器架构：构建智能语言模型的核心设计

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

Huggingface🤗NLP笔记2：一文看清Transformer大家族的三股势力

基于『大语言模型』和『新闻数据』的股票预测研究

仅使用解码器实现语音翻译，字节跳动提出基于LLM的新范式PolyVoice

Google的 Pathways（理想）与 PaLM（现实）

Transformer 从零开始

【多模态大模型面经】 Transformer 专题面经

【重制版】AI论文速读 | 计时器（Timer）：用于大规模时间序列分析的Transformer

QQ音乐？NO是腾讯AI音乐

Transformer 架构：重塑序列建模的基石

AI论文速读 | 计时器（Timer）：用于大规模时间序列分析的Transformer

又一国产大模型来了，超对称联合复旦大学发布 120 亿参数语言模型 BBT-2，已开源

OpenBA：开源模型家族再添一员！从头训练的15B中英非对称Encoder-Decoder结构双语模型

Llama 3发布，开源社区迎来自己的GPT4模型了吗？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

详解为什么现在的 LLMs 大都是 Decoder-only 的架构

以GPT为代表的Decoder-Only架构凭啥C位出道？

大模型架构算力对比：Decoder-only、Encoder-Decoder、MoE深度解析.71

构建AI智能体：Encoder-only与Decoder-only模型架构：基于本地小模型的实践解析

什么是Decoder-only架构？为什么GPT系列专注于预测下一个词？

解码器架构：构建智能语言模型的核心设计

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

Huggingface🤗NLP笔记2：一文看清Transformer大家族的三股势力

基于『大语言模型』和『新闻数据』的股票预测研究

仅使用解码器实现语音翻译，字节跳动提出基于LLM的新范式PolyVoice

Google的 Pathways（理想）与 PaLM（现实）

Transformer 从零开始

【多模态大模型面经】 Transformer 专题面经

【重制版】AI论文速读 | 计时器（Timer）：用于大规模时间序列分析的Transformer

QQ音乐？NO是腾讯AI音乐

Transformer 架构：重塑序列建模的基石

AI论文速读 | 计时器（Timer）：用于大规模时间序列分析的Transformer

又一国产大模型来了，超对称联合复旦大学发布 120 亿参数语言模型 BBT-2， 已开源

OpenBA：开源模型家族再添一员！从头训练的15B中英非对称Encoder-Decoder结构双语模型

Llama 3发布，开源社区迎来自己的GPT4模型了吗？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

又一国产大模型来了，超对称联合复旦大学发布 120 亿参数语言模型 BBT-2，已开源