首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏深度学习自然语言处理

    Bleu:此蓝非彼蓝

    提出了Bleu方法,在Bleu:A method for automatic evaluation of machine translation中。 Bleu维基百科:BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text which 简单理解就是评价机器翻译的一个标准算法,但是Bleu也不仅仅局限于机器翻译,在文本摘要等应用也可以有同样的作用。 原理 举个例子: ? ? 上述可以说在unigram上,也就是一个词一个词,现在来说说Bleu在bigram上的计算: ? bigram就是两个词作为一个大词(也就是一个串),这里为: ? 这个也很明显,结果为: ? 参考资料: 一种机器翻译的评价准则—Bleu http://blog.csdn.net/qq_21190081/article/details/53115580

    98960发布于 2018-04-10
  • 来自专栏NLP小白的学习历程

    机器翻译之BLEU

    本文通过一个例子详细介绍BLEU是如何计算以及NLTKnltk.align.bleu_score模块的源码。 首先祭出公式: ? 注意这里的BLEU值是针对一条翻译(一个样本)来说的。 1.0 累加和单独的 BLEU 分数 NLTK 中提供的 BLEU 评分方法允许你在计算 BLEU 分数时为不同的 n 元组指定权重 这使你可以灵活地计算不同类型的 BLEU 分数, 如单独和累加的 ()和 corpus_bleu()分数计算累加的 4 元组 BLEU 分数, 也称为 BLEU-4 分数 BLEU-4 对 1 元组, 2 元组, 3 元组和 4 元组分数的权重为 1/4(25%)或 0.25 例如: # 4-gram cumulative BLEU from nltk.translate.bleu_score import sentence_bleu reference = [[' 33%的权重 让我们通过计算 BLEU-1,BLEU-2,BLEU-3 和 BLEU-4 的累加得分来具体说明: # cumulative BLEU scores from nltk.translate.bleu_score

    3.3K41发布于 2020-11-13
  • 来自专栏人工智能

    【NLP】BLEU(Bilingual Evaluation Understudy)评分

    1.BLEU简介BLEU(Bilingual Evaluation Understudy)是一种广泛用于评估机器翻译和自然语言生成任务质量的指标。 BLEU-4评分是基于四个n-gram(从单个词到四词组合)匹配度的加权几何平均值,旨在衡量生成文本与参考文本之间的相似性。#2. BLEU详细介绍n-gram 精确度对于每个n-gram(n=1,2,3,4),计算生成文本中n-gram在参考文本中出现的比例。例如:Unigram (1-gram):单独词汇的匹配比例。 长度惩罚(Brevity Penalty)为了防止生成过短的文本得到高分,BLEU引入了长度惩罚项BP(Brevity Penalty)。

    3.5K10编辑于 2024-12-04
  • 来自专栏人工智能

    浅谈用Python计算文本BLEU分数

    教程概述 本教程分为4个部分; 他们分别是: 双语评估替换评分介绍 计算BLEU分数 累加和单独的BLEU分数 运行示例 双语评估替换评分 双语评估替换分数(简称BLEU)是一种对生成语句进行评估的指标 对计算BLEU分数的参考文本的数量和质量的水平要求意味着在不同数据集之间的比较BLEU分数可能会很麻烦。 BLEU评分的范围是从0到1。很少有翻译得分为1,除非它们与参考翻译完全相同。 )的BLEU分数。 默认情况下,sentence_bleu()和corpus_bleu()分数计算累加的4元组BLEU分数,也称为BLEU-4分数。 让我们通过计算BLEU-1,BLEU-2,BLEU-3和BLEU-4的累加得分来具体说明: # cumulative BLEU scores from nltk.translate.bleu_score

    36.8K142发布于 2018-02-11
  • 来自专栏小巫技术博客

    机器翻译质量评测算法-BLEU

    本文介绍机器翻译领域针对质量自动评测的方法-BLEU,让你理解为什么BLEU能够作为翻译质量评估的一种指标,它的原理是什么,怎么使用的,它能解决什么问题,它不能解决什么问题。 什么是BLEU? 为什么要用BLEU? 为了解决这一问题,机器翻译领域的研究人员就发明了一些自动评价指标比如BLEU,METEOR和NIST等,在这些自动评价指标当中,BLEU是目前最接近人类评分的。 BLEU的原理是什么? 为什么BLEU能作为机器翻译的一个评估指标,还是得看看它的原理是什么。 参考文章 机器翻译评测——BLEU算法详解 机器翻译评价指标之BLEU详细计算过程 机器翻译自动评估-BLEU算法详解 浅谈用Python计算文本BLEU分数

    4.6K30发布于 2018-07-20
  • 来自专栏Soul Joy Hub

    一种机器翻译的评价准则——Bleu

    引言 在牵涉到语句生成尤其是机器翻译的应用领域,如何衡量生成语句与参考语句之间的相似性是一个很重要的问题,而在2002年Kishore Papineni et al.就提出了一个经典的衡量标准BleuBleu方法使用的基本度量指标和概念 3.1 “n单位片段” (n-gram) 所谓n-gram就是指一个语句里面连续的n个单词组成的片段,一个18单词的语句有18个1-gram,每个单词都睡一个1-gram Bleu值。 c>re1−r/c if c≤r BP = \begin{cases} 1 ~~ if ~~ c>r \\ e^{1-r/c}~~if~~c\leq r \end{cases} 之后又Bleu 值等于 Bleu=BP⋅exp(∑n=1Nwnlogpn) Bleu = BP \cdot\exp(\sum_{n=1}^N w_n\log p_n) 在对数情况下,计算变得更加简便

    87120发布于 2019-05-26
  • 来自专栏AI科技评论

    为什么要小心使用 BLEU

    BLEU 不考虑文本的意思 对于我来说,这是为什么不要仅仅依赖于 BLEU 这一方法来评价机器翻译(MT)系统的唯一一个最重要的理由。 BLEU 不直接考虑句子结构 或许你完全不敢相信「即便你将一些关键词打乱完全改变句子的意思,你也能够得出一个非常好的 BLEU 分数」这件事。也许一些句法能够让你相信? 遗憾的是,BLEU 完全没有以这一研究为基础。 换句话说:如果你希望人们享受使用你的系统,你就不应该仅仅专注于提高 BLEU 分数。 我不是唯一一位对 BLEU 持保留意见的人 或许你依旧不相信,BLEU 并不总是评估工作的正确工具。 ,2006)为 BLEU 设计了几个特定的目标,并对 BLEU 得分较好的英语/北印度语翻译中的特定错误进行了全面深度的探究。

    1.5K40发布于 2019-10-31
  • 来自专栏AI科技大本营的专栏

    NLP输出文本评估:使用BLEU需要承担哪些风险?

    即便 BLEU 没有被过度使用,在你花时间并计算以追求更高的 BLEU 分数前,你也应该知道该度量标准存在的严重缺陷。 BLEU 不考虑语义 对我而言,这是这是让我们不能仅靠 BLEU 来评估机器翻译系统唯一最令人信服的理由。作为机器翻译系统的人类用户,我的主要目标是准确理解源语言中文本的潜在含义。 基于 BLEU 的指标之一的 NIST,通过给匹配错误的 n 元模型进行加权惩罚来解决这一问题。 BLEU 不考虑句子结构 也许你不相信,即使你弄乱一些关键词,导致完全改变了句子的意思,你仍然可以得到很好的 BLEU 分数。 当 BLEU 被首次提出时,作者确实做了一些行为测试,来确保该测量指标与人类的判断相关。

    1.5K30发布于 2019-03-08
  • 来自专栏人工智能与演化计算成长与进阶

    序列模型3.6Bleu得分机器翻译得分指标

    3.6Bleu 得分 在机器翻译中往往对应有多种翻译,而且同样好,此时怎样评估一个机器翻译系统是一个难题。 如果机器翻译的语句能够与任意一个人工翻译参考相近,其就会得到很高的 BLEU 分数。 BLEU 相当于请评估员人工评估机器翻译系统,BLEU 得分 相当于一个候补者代替人类来评估机器翻译的每一个翻译结果。 参考二中,单词 the 只出现了 1 次,取参考句子中单词出现的最大值,所以单词“the”的计分上限是 2 所以机器翻译结果最终的分数是 2/7 二元组 BLEU 得分 Bleu score on bigrams 所以改进后的 Bleu 分数 即为 Count_Clip 之和除以 Count 之和 N 元组 BLEU 得分 一元组 Bleu 得分 N 元组 Bleu 得分 Bleu 得分细节 表示

    96420发布于 2020-08-14
  • 来自专栏决胜机器学习

    循环神经网络(五) ——Bean搜索、bleu评分与注意力模型

    循环神经网络(五) ——Bean搜索、bleu评分与注意力模型 (原创内容,转载请注明来源,谢谢) 一、概述 本文主要讲解机器翻译过程中涉及的算法,主要包括bean搜索算法及其改进与误差分析、bleu计算多种翻译得分 三、Bleu评分 1、概述 翻译的结果,可能存在多种,且都是正确的翻译,此时可以引入一个单一评价机制,来选择最优的翻译结果,因此引入了Bleu评分。 要计算这些概率的总和,可以使用下面combined bleu score的公式。这里引入了一个参数BP,称为简短惩罚,是为了进行纠正机器翻译的结果太短的问题。 Bleu主要是提供了单一评估指标,以评判多个翻译的结果。有许多开源的库可以使用。 四、注意力模型 1、现有问题 当一个非常长的句子出现,则翻译的时候,机器一次性输入了一大段的文字,再一次性处理结果。 研究表明,太长的句子,如果不用注意力模型,则随着词语的增多,bleu的评分结果会逐渐降低。而使用注意力模型,则可以保持在一个较高的值。

    99660发布于 2018-06-07
  • 来自专栏NLP/KG

    A.深度学习基础入门篇:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解

    5.BLEU:机器翻译合理性BLEU (BiLingual Evaluation Understudy) 最早用于机器翻译任务上,用于评估机器翻译的语句的合理性。 BLEU算法通过计算不同长度的N元组合的精度PN(x),N=1,2,3...,并对其进行几何加权平均得到,如下所示。 , $a_N$为不同N元组合词的权重,一般设置为$\frac{1}{N^{\prime}}$,BLEU算法的值域范围是0,1,数值越大,表示生成的质量越好。 BLEU算法能够比较好地计算生成序列x的字词是否在参考序列中出现过,但是其并没有关注参考序列中的字词是否在生成序列出现过。即BLEU只关心生成的序列精度,而不关心其召回率。 6.ROUGE 评估指标:机器翻译模型看过BLEU算法的同学知道,BLEU算法只关心生成序列的字词是否在参考序列中出现,而不关心参考序列中的字词是否在生成序列中出现,这在实际指标评估过程中可能会带来一些影响

    2.4K30编辑于 2023-04-05
  • 来自专栏AI科技大本营的专栏

    Facebook最新无监督机器翻译成果,BLEU提升10个点!

    为了证明这一进步的价值,研究人员给出了以下陈述:“ 1 个 BLEU 点(判断机器翻译准确度的常用指标)的进步被视为该领域一项了不起的成就。我们的方法相当于有 10 个 BLEU 点的进步。”

    1.3K40发布于 2018-09-28
  • 来自专栏深度学习

    【深度学习】序列生成模型(五):评价方法计算实例:计算BLEU-N得分【理论到程序】

    一、BLEU-N得分(Bilingual Evaluation Understudy) 1. BLEU算法的精度(Precision)定义如下: P_N(\mathbf{x}) = \frac{\sum_{w \in \mathcal{W}} \min(c_w(\mathbf{x}), \max BLEU算法通过计算不同长度的N元组合的精度,并进行几何加权平均,得到最终的BLEU分数: \text{BLEU-N}(\mathbf{x}) = b(\mathbf{x}) \times \exp\left 算法通过计算不同长度的N元组合的精度,并进行几何加权平均,得到最终的BLEU分数: \text{BLEU-N}(\mathbf{x}) = b(\mathbf{x}) \times \exp\left \text{BLEU-N}(\mathbf{x}) = 1 \times\exp\left( \sum_{N=1}^{2} \frac{1}{2} \log P_N(\mathbf{x})\right)

    32210编辑于 2024-07-30
  • 来自专栏NLP/KG

    A.深度学习基础入门篇:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解

    5.BLEU:机器翻译合理性 BLEU (BiLingual Evaluation Understudy) 最早用于机器翻译任务上,用于评估机器翻译的语句的合理性。 BLEU算法通过计算不同长度的N元组合的精度PN(x),N=1,2,3…,并对其进行几何加权平均得到,如下所示。 , a_N 为不同N元组合词的权重,一般设置为 \frac{1}{N^{\prime}} ,BLEU算法的值域范围是[0,1],数值越大,表示生成的质量越好。 BLEU算法能够比较好地计算生成序列x的字词是否在参考序列中出现过,但是其并没有关注参考序列中的字词是否在生成序列出现过。即BLEU只关心生成的序列精度,而不关心其召回率。 6.ROUGE 评估指标:机器翻译模型 看过BLEU算法的同学知道,BLEU算法只关心生成序列的字词是否在参考序列中出现,而不关心参考序列中的字词是否在生成序列中出现,这在实际指标评估过程中可能会带来一些影响

    2.2K40编辑于 2023-04-06
  • 来自专栏机器之心

    大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

    本文研究了两个指标:下游 BLEU 得分和下游交叉熵。 实验发现,在分布完全一致的情况下,随着预训练的增加,BLEU 和下游交叉熵都会单调地提高。 用于迁移学习的 Scaling Law 适用于 BLEU 得分的 Scaling Law 与遵循幂律缩放行为的交叉熵和困惑度不同,研究者发现 BLEU 得分更接近于对数律(log-law),这从图 1、 对于微调后导致高 BLEU 得分的预训练模型,总能看到 BLEU 得分单调增加,并且可以很好地用公式 (1) 中的 Scaling Law 来描述。 如果对预测的 BLEU 得分不满意,就会得出结论:不值得对该数据集进行预训练。如果预测的 BLEU 分数足够高,那么就继续预训练,直到达到目标 BLEU 得分。 研究者还注意到,在这三个缩放断裂的预训练数据集中,BLEU 得分最低。这表明,只要预训练数据集有望带来良好的性能,公式 (1) 中的 Scaling Law 对于 BLEU 得分就适用得很好。

    67210编辑于 2024-02-28
  • 来自专栏机器学习入门

    【AI大模型】大型语言模型LLM基础概览:技术原理、发展历程与未来展望

    BLEU有许多变种,根据n-gram可以划分成多种评价指标,常见的评价指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n,BLEU-1衡量的是单词级别的准确性 cumulative_bleu(reference, candidate): ​ bleu_1_gram = sentence_bleu(reference, candidate, weights ) # print('bleu 2-gram: %f' % bleu_2_gram) # print('bleu 3-gram: %f' % bleu_3_gram) # print ('bleu 4-gram: %f' % bleu_4_gram) ​ return bleu_1_gram, bleu_2_gram, bleu_3_gram, bleu_4_gram ​ # "] ​ # 计算 Bleu 指标 c_bleu = cumulative_bleu(reference_texts, generated_text) ​ # 打印结果 ​ print("The Bleu

    2.6K10编辑于 2024-11-24
  • 来自专栏机器之心

    Meta这篇语言互译大模型研究,结果对比都是「套路」

    我们现在可以写下这样的内容: 之前的工作在 25 BLEU 下执行,NLLB 在 30 spBLEU 下执行。 你会说 NLLB 比以前的工作好 5 个 BLEU 点吗? 关于 BLEU,在机器翻译研究史上很少见到 BLEU 比以前的 SOTA 技术提高 44%。所以论文中这简单的一句话,代表了科学进步。 为了使如此多的比较具有可行性,他们依赖于机器翻译评估的自动评估指标,这些指标主要是 BLEU 和 spBLEU。 BLEU 在机器翻译中极受欢迎,尽管其存在着缺陷。 仅考虑到所有匹配的 token,可以计算出 BLEU 分数为 50.8 BLEU。仅仅这个分数是没有任何意义,只有与另一个 BLEU 分数相比,它才有意义。 比较 BLEU 和 spBLEU 根本没有意义。BLEU 和 spBLEU 以不同的方式处理谷歌翻译和参考翻译,而且仅用于评估目的。它们实际上是不同的指标。

    1.3K20编辑于 2022-08-25
  • 来自专栏AINLP

    中文自然语言处理相关的开放任务,数据集,以及当前最佳结果

    Bleu score (Papineni et al 02 ). 大小写敏感 vs. 标准的Bleu计算流程会先对参考译文和机器翻译结果进行符号化 (tokenizition)。 如果中文是目标 (target) 语言, 则使用字符级别 {1,2,3,4}-gram匹配。 当只有1条人工参考翻译译文时使用Bleu-n4r1评估。 Bleu-n4r4: 词级别 {1,2,3,4}-gram 匹配, 与4条人工参考翻译译文比较 标准Bleu有很多重要的变种: NIST. BLEU-SBP ((Chiang et al 08)[http://aclweb.org/anthology/D08-1064] ). 解决了Bleu的解耦(decomposability) 问题,在Bleu和单词错误率取得一个折中。 HTER.

    1.3K30发布于 2019-08-19
  • 来自专栏xiaosen

    LLM基础知识

    BLEU有许多变种,根据n-gram可以划分成多种评价指标,常见的评价指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n,BLEU-1衡量的是单词级别的准确性 cumulative_bleu(reference, candidate): bleu_1_gram = sentence_bleu(reference, candidate, weights ) # print('bleu 2-gram: %f' % bleu_2_gram) # print('bleu 3-gram: %f' % bleu_3_gram) # print ('bleu 4-gram: %f' % bleu_4_gram) return bleu_1_gram, bleu_2_gram, bleu_3_gram, bleu_4_gram # 生成文本 "] # 计算 Bleu 指标 c_bleu = cumulative_bleu(reference_texts, generated_text) # 打印结果 print("The Bleu score

    80510编辑于 2024-06-04
  • 来自专栏新智元

    NLP重磅!谷歌、Facebook新研究:2.26亿合成数据训练神经机器翻译创最优!

    这比在大型优质数据集上训练的DeepL系统的性能更好,提高了1.7 BLEU。在WMT ‘14英语-法语测试集上,我们的系统达到了45.6 BLEU。 如图1所示,sampling和beam+noise方法优于MAP方法,BLEU要高0.8-1.1。 在数据量最大的设置下,sampling和beam+noise方法比bitext-only (5M)要好1.7-2 BLEU。 表4:WMT英语-法语翻译任务中,不同测试集上的Tokenized BLEU ? 表5:WMT英语-法语翻译任务中,不同测试集上的De-tokenized BLEU (sacreBLEU) ? 表6:WMT 英语-德语 (En-De)和英语-法语 (En-Fr)在newstest2014上的BLEU。 ?

    1.4K20发布于 2018-12-18
领券