首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 智能车载环境中的非流利对话数据生成框架

    技术贡献研究表明,DiscoDrive既可作为训练资源使DialoGPT-Medium和T5-Base模型在MultiWOZ 2.2和模式引导对话(SGD)相关测试集上达到或超越KVRET训练模型的性能(BLEU 0.61;METEOR +2.10;ROUGE-L +3.48;BERTScore F1提升1.35至3.48),也可作为低资源场景下的数据增强资源,当与10%的KVRET数据结合时,能带来额外增益:BLEU

    13610编辑于 2025-09-06
  • 只有2B参数,中文能力也能打架?手把手教你调教出更懂中文的“小钢炮”模型

    411.3426.1130.4426.13ROUGE-127.1942.8644.2241.89ROUGE-217.4131.2931.9131.16ROUGE-L16.0338.0639.0438.27原生模型评估结果解读:各项指标较低,BLEU 实验一(全中文)评估结果解读:BLEU-4提升至26.11,说明生成文本与参考答案的短语重合度较高,模型生成能力明显提升。 实验二(中英混合2:1)评估结果解读:BLEU-4达到30.44,短语重合度最高,生成内容与标准答案最接近,模型效果最佳。 实验三(中英混合4:1)评估结果解读:BLEU-4为26.13,与实验一接近,生成质量明显优于基模型。各项指标略低于实验一、二,但仍远超原生模型。

    14710编辑于 2026-03-03
  • 来自专栏未来先知

    结合 Mamba与 Transformer,R2Gen-Mamba 图像分割的深度学习方法 !

    在验证集上取得最佳BLEU-4分数的模型被选中,推理时的beam大小为3,以在生成质量和计算效率之间实现平衡。 其次,在BLEU-1和BLEU-2指标上,R2Gen-Mamba在MIMIC-CXR上的表现略低于R2Gen,但在BLEU-3、BLEU-4、METEOR和ROUGE-L上超过了R2Gen。 BLEU-3和BLEU-4衡量了三元组和四元组,捕捉了更长的上下文依赖性。 更高的BLEU-3和BLEU-4分数表明R2Gen-Mamba生成的文本具有更好的语法和语义结构,反映了更强的上下文建模和语法一致性。

    56710编辑于 2024-11-14
  • 来自专栏人工智能

    【NLP】BLEU(Bilingual Evaluation Understudy)评分

    BLEU-4评分是基于四个n-gram(从单个词到四词组合)匹配度的加权几何平均值,旨在衡量生成文本与参考文本之间的相似性。#2.

    3.5K10编辑于 2024-12-04
  • 来自专栏新智元

    【重磅】谷歌开源 TensorFlow 图说生成模型,可真正理解图像

    2015 年,使用升级后的 Inception V2,系统准确率提升为 91.8%,还为图说生成系统的 BLEU-4 指标增加了 2 分。 BLEU-4 指标常用于衡量机器翻译生成的句子的质量,对自动生成图说而言是一项重要的因素。 这次更换模型也让 BLEU-4 指标增加了 2 分。 微调 计算机视觉组件的另一大提升来自图像模型的微调。

    1.6K50发布于 2018-03-23
  • 让AI听懂“宫商角徵羽”:基于Qwen2-Audio的传统音乐语义解析系统实战

    评估指标微调前微调后提升效果BLEU-43.5552.25提升14倍ROUGE-L7.9369.47提升近9倍对比微调后模型评估与原生模型评估结果可以看出,微调后模型在生成质量上表现优异(BLEU-4: 52.25,ROUGE-L:69.47),表明其能生成语义准确、结构连贯的高质量输出;原生模型所有生成指标极低(BLEU-4:3.55,ROUGE-L:7.93),说明模型未能有效理解或生成相关内容。

    17910编辑于 2026-02-02
  • 来自专栏机器之心

    谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA

    多模态视频字幕生成结果 研究人员将 MV-GPT 与使用相同模型架构的现有预训练损失进行比较,在 YouCook2 上使用标准评估指标(Bleu-4、Cider、Meteor 和 Rouge-L)。 MV-GPT 在 YouCook2 上不同预训练损失的四个指标(Bleu-4、Cider、Meteor 和 Rouge-L)。

    1.2K20编辑于 2022-06-14
  • 来自专栏未来先知

    CRRG-CLIP模型:端到端解决胸片报告生成与分类难题,性能卓越!

    结果表明,生成模块在BLEU、METEOR和ROUGE-L指标上与高性能 Baseline 模型表现相当,并在BLEU-2、BLEU-3、BLEU-4和ROUGE-L指标上优于GPT-4o模型。 4.4 评估指标 生成的报告通过BLEU-1(用于一致性和准确性)、BLEU-2、BLEU-3和BLEU-4(用于可读性和流畅性[26])、METEOR(用于与基准真实值的语义一致性)、ROUGE-L( 从表1的实验结果来看,BLEU-1得分提高了7.59%,BLEU-2得分提高了7.53%,BLEU-3得分提高了6.93%,BLEU-4得分提高了8.33%,METEOR得分提高了4.81%,ROUGE-L 从表1可以看出,与S&T模型相比,本研究中的模型在BLEU-1评分上降低了24.07%,BLEU-2评分降低了17.20%,BLEU-3评分降低了12.04%,BLEU-4评分降低了7.69%,METEOR 与ADAATT模型相比,本研究中的模型在BLEU-1评分上降低了24.07%,BLEU-2评分降低了17.83%,BLEU-3评分降低了14.82%,BLEU-4评分降低了18.82%,METEOR评分降低了

    82510编辑于 2025-04-02
  • 来自专栏人工智能

    浅谈用Python计算文本BLEU分数

    默认情况下,sentence_bleu()和corpus_bleu()分数计算累加的4元组BLEU分数,也称为BLEU-4分数。 BLEU-4对1元组,2元组,3元组和4元组分数的权重为1/4(25%)或0.25。 让我们通过计算BLEU-1,BLEU-2,BLEU-3和BLEU-4的累加得分来具体说明: # cumulative BLEU scores from nltk.translate.bleu_score 2-gram: 0.500000 Cumulative 3-gram: 0.632878 Cumulative 4-gram: 0.707107 在描述文本生成系统的性能时,通常会报告从BLEU-1到BLEU

    36.8K142发布于 2018-02-11
  • 来自专栏NLP小白的学习历程

    机器翻译之BLEU值

    n-gram 分数的计算, 通过计算加权几何平均值来对它们进行加权计算 默认情况下, sentence_bleu()和 corpus_bleu()分数计算累加的 4 元组 BLEU 分数, 也称为 BLEU -4 分数 BLEU-4 对 1 元组, 2 元组, 3 元组和 4 元组分数的权重为 1/4(25%)或 0.25 例如: # 4-gram cumulative BLEU from nltk.translate.bleu_score 1 元组和 2 元组分别赋 50%的权重, 计算累加的 3 元组 BLEU 为 1 元组, 2 元组和 3 元组分别为赋 33%的权重 让我们通过计算 BLEU-1,BLEU-2,BLEU-3 和 BLEU gram: 0.500000 Cumulative 3-gram: 0.632878 Cumulative 4-gram: 0.707107 在描述文本生成系统的性能时, 通常会报告从 BLEU-1 到 BLEU

    3.3K41发布于 2020-11-13
  • 来自专栏AIGC 先锋科技

    加利福尼亚大学提出 EM-VLM4AD | 轻量级、多帧的视觉-语言模型,减少10倍的内存和浮点运算!

    与之前的方法相比,EM-VLM4AD至少需要减少10倍的内存和浮点运算,同时在DriveLM数据集上的BLEU-4、METEOR、CIDEr和ROGUE得分也超过了现有基线。 我们在BLEU-4(双语评估替补)、CIDEr(基于共识的图像描述评估)、ROUGE-L(以回忆为导向的摘要评估替补)和METEOR(具有显式排序的翻译评估指标)上比较了我们的模型效率与性能,与DriveLM 我们使用了图像字幕任务中常用的以下指标来评估模型生成答案的质量: BLEU-4:测量生成文本中有多少4-gram与参考文本中的匹配。 Quantitative Results 我们使用我们创建的未见交通场景的测试集来评估BLEU-4、ROUGE-L、METEOR和CIDEr分数。 与其他专为自动驾驶定制的语言模型相比,EM-VLM4AD在内存效率和计算要求方面具有显著优势,并且在DriveLM测试数据集上,在BLEU-4、METEOR、ROUGE和CIDEr指标上的表现超过了DriveLM-Agent

    76810编辑于 2024-07-08
  • 多模态大模型训练营 极客时间

    注意力门控机制采用跨模态注意力层动态调节信息流,实验显示在图像描述生成任务中,引入语音模态后BLEU-4指标提升21.6%。

    22110编辑于 2025-11-25
  • 来自专栏新智元

    谷歌NeurIPS 2018:全新NLP工具炼成会改变文风的AI

    句子内容的保留程度由(BLEU-1(B-1)和BLEU-4(B-4)分数)评估。 根据预训练的分类器量度生成“困惑度”指标,来评估输出句子的流畅度。

    91720发布于 2018-12-26
  • 来自专栏专知

    【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

    on the MSCOCO test server establish a new state-of-the-art for the task, achieving CIDEr / SPICE / BLEU

    1.1K70发布于 2018-04-08
  • 来自专栏量子位

    谷歌发布最新看图说话模型,可实现零样本学习,多类型任务也能直接上手

    △性能指标:BLEU-4 (B@4)、METEOR (M)、CIDEr (C)、SPICE (S) 将SimVLM模型与现有的功能完善的模型进行比较,测试结果如上表所示,参与评估的SimVLM模型还包括了三种不同规模

    70130发布于 2021-11-05
  • 来自专栏AI研习社

    如何在 Keras 中从零开始开发一个神经机器翻译系统?

    比如: “ich liebe dich” 正确地翻译为 “i love you“ 我们还可以看到 BLEU-4 得分为 0.51,这提供了我们对这个模型可能期望的上限。 ? 我们也看到一些糟糕的翻译和一个很好的例子,模型可能会受到进一步的调整,比如说 “ich bin etwas beschwipst” 翻译成 “我有一点点” 而不是预想的 “我有点醉了” BLEU-4 得分为

    1.9K120发布于 2018-03-16
  • 来自专栏DrugOne

    Nat. Commun. | AI写的CT报告能骗过真医生?BrainGPT诊断准确率超七成

    其中,基线Otter模型在BLEU-4评分仅为0,CIDEr-R评分为5.9,表明其生成的CT报告在n-gram匹配度和临床术语使用频率上存在明显不足。 进一步分析发现,BLEU-2、BLEU-3、BLEU-4、METEOR 和 ROUGE-L 之间存在高度线性相关性。

    44310编辑于 2025-04-22
  • 来自专栏xiaosen

    LLM-AI大模型介绍

    在实际应用中,通常会计算BLEU-1到BLEU-4的值,并对它们进行加权平均以得到一个综合的BLEU分数。 这样做的原因是不同的n-gram级别能够捕捉翻译质量的不同方面:BLEU-1更侧重于词汇的准确性,而BLEU-2、BLEU-3和BLEU-4则能够更好地衡量句子的流畅性和结构一致性。

    66410编辑于 2024-04-20
  • 16k数据撬动300亿大模型!我用Qwen3-VL打造了一位“顶尖放射科医生”

    BLEU-40.80627.65392.375ROUGE-12.77838.06996.114ROUGE-20.00616.36394.036ROUGE-L2.01320.69594.286指标解读:●BLEU (2)生成质量:从“无法使用”到“专业优秀”●微调前(原生模型):各项指标极低,生成内容与参考答案关联性微弱,逻辑混乱,完全无法满足专业场景需求●微调后(参数二模型):○BLEU-4高达92.37,意味着模型能精准复现医学报告中的专业词汇与表达

    62100编辑于 2025-12-03
  • 来自专栏雪萌天文台

    【玩转GPU】训练一个自己的ChatGLM2-6B微调模型

    predict_with_generate \ --pre_seq_len $PRE_SEQ_LEN \ --quantization_bit 4执行完成后,会生成评测文件,评测指标为中文 Rouge score 和 BLEU

    4.8K21编辑于 2023-07-17
领券