2013年,某云服务商通过推出某机构 Redshift 彻底改变了数据仓库行业,这是第一个完全托管、PB级、企业级的云数据仓库。某机构 Redshift 使得利用现有商业智能工具高效分析大量数据变得简单且成本效益高。
该云服务是对传统本地数据仓库解决方案的一次重大飞跃,后者成本高昂、不具备弹性,并且需要大量专业知识来调优和运营。客户接纳了某机构 Redshift,它成为了该云服务商中增长最快的服务。如今,数以万计的客户在全球基础设施中使用 Redshift,每天处理EB级的数据。
在这项工作中,我们证明了在大规模多语言序列到序列模型上,通过在去噪和因果语言建模任务的混合上进行预训练,在各种任务上是比仅解码器模型更高效的少样本学习器。我们特别训练了一个200亿参数的多语言序列到序列模型,并展示了它在单样本摘要任务上达到了最先进的性能,优于更大的5400亿参数的PaLM解码器模型。
AlexaTM 20B 在 Flores-101 数据集上,对于模型支持的几乎所有语言对,在单样本机器翻译方面也达到了最先进水平,尤其是在低资源语言上。在零样本设置下,AlexaTM 20B 在 SuperGLUE 和 SQuADv2 数据集上优于 GPT3,并在 XNLI、XCOPA、Paws-X 和 XWinograd 等多语言任务上提供了最先进的性能。总体而言,我们的结果为序列到序列模型作为仅解码器模型在大规模语言模型训练中的强大替代方案提供了令人信服的理由。
某机构 DynamoDB 是一个 NoSQL 云数据库服务,可在任何规模下提供一致的性能。数十万客户依赖 DynamoDB 的基本特性:一致的性能、可用性、持久性以及完全托管的无服务器体验。在2021年为期66小时的某大型购物节活动期间,包括某语音助手、某购物网站和某履约中心在内的某机构系统,对 DynamoDB 进行了数万亿次 API 调用,峰值达到每秒8920万次请求,同时以个位数毫秒级的性能实现了高可用性。
自2012年 DynamoDB 推出以来,其设计和实现根据我们的运营经验不断演进。该系统已成功解决了与公平性、分区间的流量不平衡、监控和自动化系统操作相关的问题,而未影响可用性或性能。可靠性至关重要,因为即使最轻微的中断也可能严重影响客户。本文介绍了我们在超大规模下运营 DynamoDB 的经验,以及架构如何持续演进以满足客户工作负载不断增长的需求。
我们将即时映射(将图像转换为世界的俯视图)视为一个翻译问题。我们展示了一种新颖的 Transformer 网络形式,可用于在单个端到端网络中将图像和视频直接映射到世界的高空地图或鸟瞰图。我们假设图像中的垂直扫描线与高空地图中通过相机位置的光线之间存在一一对应关系。
这使我们能够将根据图像生成地图的问题表述为一组序列到序列的翻译。将问题表述为翻译,使得网络在解释每个像素的角色时能够利用图像的上下文。这种基于问题强物理基础的约束性表述,导致了一个仅在水平方向上进行卷积的受限 Transformer 网络。该结构使我们能够在训练时有效地利用数据,并在三个大规模数据集的即时映射上获得了最先进的结果,在 nuScenes 和 Argoverse 数据集上分别比现有最佳方法相对提升了15%和30%。
A/B 测试已被数据驱动的企业大规模用于指导决策和测试创新想法。同时,非平稳性(例如每日时段效应)常常出现在各种业务指标中。我们表明,不适当地处理非平稳性会导致 A/B 测试在统计上效率低下或无效,从而得出错误结论。为了解决这些问题,我们开发了一个新框架,为非平稳的 A/B 测试提供适当的建模和充分的统计分析。在不改变任何现有 A/B 测试程序基础设施的情况下,我们提出了一种新的估计器,将时间视为一个连续协变量,以执行具有样本依赖分层级别的后分层。我们在非平稳性下的自然极限机制中证明了中心极限定理,从而可以获得有效的大样本统计推断。我们证明了所提出的估计器在所有估计器中达到了最优渐近方差。当 A/B 测试的实验设计阶段允许时,我们提出了一种新的按时间分组随机化方法,以便在存在时间非平稳性的情况下更好地平衡处理和对照分配。通过简要的数值实验来阐述理论分析。
我们展示了一项大规模实验的结果,该实验对非嵌入参数数量从7亿到93亿不等的编码器进行预训练,随后将其蒸馏成从1700万到1.7亿参数不等的较小模型,并将其应用于虚拟助手系统的自然语言理解组件。尽管我们使用了70%的口语形式数据进行训练,但在书面形式的跨语言自然语言推理语料库上进行评估时,我们的教师模型表现与 XLM-R 和 mT5 相当。我们使用来自我们系统的域内数据对教师模型进行第二阶段的预训练,使意图分类的错误率相对降低了3.86%,槽位填充的错误率相对降低了7.01%。我们发现,与仅在公共数据上训练(第一阶段)的23亿参数教师模型相比,从第二阶段教师模型蒸馏出的1.7亿参数模型在意图分类上错误率降低了2.88%,在槽位填充上错误率降低了7.69%,这凸显了域内数据在预训练中的重要性。当使用标记好的自然语言理解数据进行离线评估时,我们1700万参数的第二阶段蒸馏模型分别比 XLM-R Base(8500万参数)和 DistillBERT(4200万参数)高出4.23%到6.14%。最后,我们展示了一个完整虚拟助手实验平台的结果,在该平台上,使用我们的预训练和蒸馏流程训练的模型,在完整系统用户不满意度的自动测量上,比从8500万参数教师模型蒸馏的模型表现好3.74%-4.91%。
贝叶斯优化是机器学习中超参数优化的一种广泛流行的方法。其核心是,贝叶斯优化迭代地评估有前景的配置,直到用户定义的预算(例如挂钟时间或迭代次数)耗尽。虽然调优后的最终性能很大程度上取决于所提供的预算,但很难预先指定一个最优值。
在这项工作中,我们为贝叶斯优化提出了一种有效且直观的终止准则,如果结果已足够接近全局最优,该方法会自动停止该过程。我们的关键见解是,真实目标(对测试数据的预测性能)与可计算目标(验证性能)之间的差异表明,一旦优化目标时的次优性被统计估计误差所主导,就应该停止。在一系列广泛的现实世界超参数优化问题和基线上,我们表明我们的终止准则在测试性能和优化时间之间实现了更好的权衡。此外,我们发现过拟合可能发生在超参数优化背景下,这可以说是文献中被忽视的一个问题,并展示了我们的终止准则如何有助于在小数据集和大数据集上减轻这种现象。
在线广告机会通过拍卖进行出售,每天在网络上有数十亿次。参与这些拍卖的广告商需要决定一个竞价策略:他们愿意为给定的展示机会出价多少。
由于重复拍卖机制的互动性和反应性,决定这样的策略并非易事。事实上,广告商观察不到未提交出价的反事实结果,而且成功的广告商会根据竞争对手的出价调整自己的策略。这些特性使得仅基于记录的数据来有效学习和评估竞价策略变得复杂。
进行因果推断的根本挑战在于,对于任何单位,反事实结果都无法完全观测到。此外,在观察性研究中,处理分配很可能存在混杂因素。许多统计方法已经出现,用于在给定预处理协变量的无混杂条件下进行因果推断,包括:基于倾向评分的方法、基于预后评分的方法以及双稳健方法。对应用研究者来说不幸的是,没有一种‘万能’的因果方法能够在所有情况下都表现最佳。在实践中,因果方法主要在精心制作的模拟数据上进行定量评估。这种数据生成过程的价值有限,因为它们通常是现实的程式化模型。为了易于处理而被简化,缺乏现实世界数据的复杂性。对于应用研究者来说,了解一种方法对于手头数据的表现如何至关重要。我们的工作引入了一个基于深度生成模型的框架 Credence,用于验证因果推断方法。该框架的新颖之处在于它能够生成锚定在观测样本经验分布上的合成数据,因此与后者几乎无法区分。该方法允许用户指定因果效应和混杂偏差的形式和大小作为协变量的函数的真实情况。由此,模拟数据集被用于评估各种因果估计方法在应用于与观测样本相似的数据时的潜在性能。我们通过一项广泛的模拟研究以及来自 Lalonde 和 Project STAR 研究的两个现实世界数据应用,证明了 Credence 能够准确评估因果估计技术的相对性能。
互补商品推荐旨在提供通常一起购买以满足联合需求的商品建议。现有工作主要侧重于在整体层面建模商品关系,但没有考虑不同客户的个性化偏好。在本文中,我们提出了一个用于个性化互补商品推荐的框架,能够推荐符合客户需求和偏好的商品。具体来说,我们分别使用图注意力网络和序列行为 Transformer 来建模商品关系和用户偏好。通过个性化重排序和对比学习将这两个网络结合在一起,其中用户和商品嵌入以端到端的方式联合学习。该系统通过学习用户的购买历史以及用户与商品之间的相关性来识别不同的客户兴趣。实验结果表明,我们的模型受益于学习个性化信息,并在真实生产数据上优于非个性化方法。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。