CoQA生成问题解答F1分数达到82.5(绝对改进37.1),SQuAD问题生成BLEU-4达到22.12(绝对改进3.75)以及DSTC7文档为基础的对话框响应生成NIST-4达到2.67(人类性能为
CoQA 生成式问答 F1 分数提升至 82.5(37.1 的绝对改善)、将 SQuAD 问题生成 BLEU-4 结果提升至 22.12(3.75 的绝对改善)、将 DSTC7 基于文档的对话响应生成 NIST