首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏自然语言处理

    【LLM系列之PaLMPaLM: Scaling Language Modeling with Pathways

    /palm-1b 1 主要贡献 提出了 Pathways Language Model (PaLM),这是一个 5400 亿参数、密集激活的 Transformer 语言模型。 2 PaLM模型 2.1 模型结构 PaLM 在decoder-only架构中使用标准的 Transformer 模型架构(即每个时间步只能关注其自身和过去的时间步),并进行以下修改: (1)采用SwiGLU PaLM 代表了 LLM 训练效率向前迈出的重要一步。 2. 英语NLP任务效果 PaLM 模型在与 Du 等人相同的一组 29 个英语基准上进行评估。 (2021) 和布朗等人。 PaLM 540B 实现了 58% 的性能,优于 Cobbe 等人之前 55% 的 SOTA。 5 代码生成效果 来自 PaLM-Coder 540B 型号的示例。 PaLM-Coder 是 PaLM,具有 2 个阶段的代码进一步微调。

    1.5K20编辑于 2023-08-25
  • 来自专栏SimpleAI

    Google的 Pathways(理想)与 PaLM(现实)

    PaLM: Lanugage Modeling with Pathways 2022年4月,Google发布了一个鸿篇巨制——PaLM: 说实话,在看完Jeff Dean介绍Pathways愿景博客之后 Key Points: Efficient scaling:在Pathways系统的加持下,PaLM的训练效率比之前的方法有了显著提高; Few-shot SOTA:在众多任务上取得了 few-shot Big-Bench: PaLM自己的总结: 虽然文章没有给人惊喜,但是论文自己的总结也还是挺中肯的: PaLM只是构建Pathways这个愿景迈出的第一步,PaLM的意义在于进一步扩展了大模型的能力边界 另一方面,PaLM验证了Pathways训练系统的有效性,为下一代的模型架构研发做了经验积累。 Blog:https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html PaLM paper:https

    1.1K20编辑于 2022-11-30
  • 来自专栏数据分析与挖掘

    PaLM中使用的激活函数:SwiGLU

    Linear Unit),其一般形式为: GLU(x)=\sigma (Wx+b) \otimes (Vx+c) 这里的 可以是 函数,也可以是其它的一些激活函数,其相关变体如下: 在PaLM 在FFN中,即FC-激活函数-FC中,一般定义如下: 在T5论文中没有使用偏置项,也就是: 同理可得: 结合激活函数+未使用偏置项+GLU就得到: 这就是PaLM中的激活函数了,

    5.1K00编辑于 2023-02-16
  • 来自专栏AI SPPECH

    43_PaLM与Gemma:谷歌LLM演进

    谷歌LLM演进路径: BERT → T5 → LaMDA → PaLMPaLM 2 → Gemini → Gemma系列 第一章:PaLM的诞生与技术架构 1.1 Pathways系统:革命性的训练框架 1.2 PaLM的架构特点 PaLM采用了基于Transformer的架构,但在多个关键方面进行了创新和优化: 1.2.1 标准Transformer架构的扩展 PaLM的基础架构是标准的Transformer 系列提供了多种规模的模型变体,以适应不同的应用场景: 模型变体 参数规模 应用场景 PaLM-8B 80亿参数 资源受限环境,边缘设备 PaLM-62B 620亿参数 一般应用,中等规模部署 PaLM- 第三章:PaLM 2与技术迭代 3.1 PaLM 2的架构改进 2023年5月,谷歌发布了PaLM 2,这是PaLM的重大升级版本。 3.3 PaLM 2在Bard中的应用 2023年5月10日,谷歌的AI助手Bard升级为PaLM 2大模型。

    33210编辑于 2025-11-12
  • 来自专栏AI科技评论

    Palm之父Jeff Hawkins另辟蹊径,剖析超级智能

    编者按:Jeff Hawkins是美国发明家、计算机科学家与神经科学家,他主导研发了Palm与Treo,是Palm公司、Numenta公司及Handspring公司的创办者。

    1K80发布于 2018-03-07
  • 来自专栏对白的算法屋

    谷歌全新PaLM-2,效果并未超越GPT-4!

    刚刚在Google I/O 大会上,Google发布PaLM2及超过 25 款由 PaLM 2 提供支持的新产品和功能。 PaLM简介 今天我们将介绍我们的下一代语言模型 PaLM 2。PaLM 2 是最先进的语言模型,具有改进的多语言、推理和编码功能。 Med-PaLM 2 将在今年夏天晚些时候向一小群云客户开放,以获得反馈,以确定安全、有用的用例。 Sec-PaLMPaLM 2的专用版本,经过安全用例培训,是网络安全分析的潜在飞跃。 PaLM可以做什么 推理 PaLM 2可以将复杂的任务分解为更简单的子任务,并且比以前的LLM(如PaLM)更好地理解人类语言的细微差别。 PaLM 2还提高了葡萄牙语和中文等语言的翻译能力,超过了PaLM和Google Translate。PaLM 2 延续了我们负责任的 AI 开发和对安全的承诺。

    98020编辑于 2023-09-01
  • 来自专栏量子位

    谷歌PaLM 2细节曝光:3.6万亿token,3400亿参数

    要知道,在去年谷歌发布PaLM时,训练token的数量也仅为7800亿。 四舍五入算下来,PaLM 2足足是它前身的近5倍! 不仅如此,当时谷歌发布PaLM 2时,只是提到“新模型比以前的LLM更小”。 而内部文件则是将具体数值爆料了出来——3400亿个参数(初代PaLM是5400亿)。 PaLM 2要在广告上发力了 关于谷歌上周发布PaLM 2的能力,我们就不再详细的赘述(可点击此处了解详情),简单总结下来就是: 接受了100多种语言的训练,在语言理解、生成和翻译上的能力更强,更加擅长常识推理 至于使用方面,谷歌在发布会中就已经介绍说有超过25个产品和应用接入了PaLM 2的能力。 而现在,CNBC从谷歌内部文件中挖出了其在PaLM 2应用的更多计划——进军广告界。

    50520编辑于 2023-05-19
  • 来自专栏气象学家

    Eliassen‐Palm通量矢量缩放比例 (含PythonNCLGrADS代码+测试数据)

    Scaling of Eliassen‐Palm flux vectors. Atmospheric Science Letters. "Scaling of Eliassen-Palm Flux Vectors", Atmos. Sci. ., https://doi.org/10.1002/asl.1020 Download All (715 MB) Eliassen-Palm通量是大气动力学特别是平流层-对流层耦合中波的传播和波-流相互作用的主要诊断工具之一 Scaling of Eliassen‐Palm flux vectors. Atmospheric Science Letters.:e1020. ? ? ? ? Eliassen‐Palm flux (EP flux, Eliassen and Palm, 1960) is omnipresent as a diagnostic tool for wave‐mean

    2.9K30发布于 2021-03-24
  • 来自专栏owent

    PALM Tree - 适合多核并发架构的B+树 - 论文阅读小记

    首先按照论文里介绍的 PALM树 的特性: Latch-free 的B+树批处理. 简单的理解,PALM就是普通B+树然后在某些阶段执行同步操作,收敛工作线程来解决并发执行时传统方案的频繁加锁的问题。 PALM 批处理 PALM树的核心从系统层面来看,入口就是它的批处理流程。 O 是请求集合, T[D] 是Palm树结构, i 是线程ID、 t 是总线程数。 η 是 PALM树 上的一个节点。 至此,整个 PALM树 的核心流程就完结了。 其他细节优化 PALM树 的论文里还包含一些其他的优化细节介绍。但是这些优化也可以用于其他的数据结构和算法上,也不算 PALM树 特有的。

    1.2K10发布于 2020-01-02
  • 来自专栏机器之心

    谷歌大爆料:神秘AI工具曝光,Gemini将取代PaLM 2

    此次的泄密还为我们带来了 Gemini 的一些消息:Gemini 将取代谷歌的 PaLM-2,并可能为谷歌的 Makersuite 和 Vertex AI 提供动力。

    32720编辑于 2023-10-27
  • 来自专栏机器之心

    谷歌大模型云服务上线,代码生成、PaLM for Chat首次亮相

    现在,开发者们可以在 Vertex AI 上使用多种新工具和模型,例如由下一代大型语言模型 PaLM 2 驱动的单词补全模型、用于文本的嵌入 API 和 Model Garden 中的其他基础模型。 GA Telesis 在 Vertex AI 上使用 PaLM 模型来构建一个数据提取系统,该系统使用电子邮件订单自动为客户创建报价。 它还在尝试使用 PaLM 技术将短视频剪辑变成更长、更有趣的故事的方法。另外,Vertex AI 也被 Typeface 和 DataStax 等公司用来为生成式 AI 构建新工具。

    72140编辑于 2023-08-07
  • 来自专栏博文视点Broadview

    PaLM 2、Gemini 双杀,Bard 正式开放

    PaLM 2 发布,能力渗透 Google 全线产品 在正式发布 PaLM 2 前, Pichai 先通过发布 Gmail、Google Map、Google Photo 三个产品中的新功能,展现其实际应用能力 PaLM 2(Pathway Language Model)也是本次大会 AI 板块最重大的发布之一,这是 Google 开发的 5400 亿参数的大型语言模型(LLM),在本次发布的 PaLM 2 预览版中 其中多语言翻译能力的提升,来源于 PaLM 2 基于 100 多种语言中文本的训练。这使得模型在理解、生成和翻译细微差别的文本(如成语、诗歌和谜语)的能力都有了显著提高。 在推理方面,PaLM 2 的数据集包括科学论文、大量涵盖数学公式的各类网页,提高了模型的逻辑、常识推理和数学能力。 在程序语言方面,PaLM 2 在海量开源代码的基础上进行了预训练。 另外,Google 在 PaLM 2 的基础上训练了用于编程和调试的专业模型 Codey,安全知识模型 Sec-PaLM 以及医学知识模型 Med-PaLM 2 。

    65240编辑于 2023-05-13
  • 来自专栏AI科技大本营的专栏

    PaLM 2、Gemini 双杀,Bard 正式开放

    PaLM 2 发布,能力渗透 Google 全线产品 在正式发布 PaLM 2 前, Pichai 先通过发布 Gmail、Google Map、Google Photo 三个产品中的新功能,展现其实际应用能力 PaLM 2(Pathway Language Model)也是本次大会 AI 板块最重大的发布之一,这是 Google 开发的 5400 亿参数的大型语言模型(LLM),在本次发布的 PaLM 2 预览版中 其中多语言翻译能力的提升,来源于 PaLM 2 基于 100 多种语言中文本的训练。这使得模型在理解、生成和翻译细微差别的文本(如成语、诗歌和谜语)的能力都有了显著提高。 在推理方面,PaLM 2 的数据集包括科学论文、大量涵盖数学公式的各类网页,提高了模型的逻辑、常识推理和数学能力。 在程序语言方面,PaLM 2 在海量开源代码的基础上进行了预训练。 另外,Google 在 PaLM 2 的基础上训练了用于编程和调试的专业模型 Codey,安全知识模型 Sec-PaLM 以及医学知识模型 Med-PaLM 2 。

    86040编辑于 2023-05-15
  • 来自专栏Sentieon:文献解读

    文献解读-Chromosome-Scale Genome of Masked Palm Civet (Paguma larvata) Shows Genomic

    关键词:果子狸;基因组特征;变异检测; 文献介绍 标题(英文):Chromosome-Scale Genome of Masked Palm Civet (Paguma larvata) Shows Genomic

    26510编辑于 2025-03-04
  • 来自专栏机器之心

    开放大语言模型PaLM API

    但在今日,谷歌组织了第二波反击:开放自家的大语言模型 API 「PaLM API」,此外今天谷歌还发布了一款帮助开发者快速构建 AI 程序的工具 MakerSuite。 基于 PaLM 模型的 API 毫无疑问,PaLM API 是今天谷歌发布的公告的核心。 谷歌介绍称,PaLM API 是 Google 大型语言模型的入口,可用于各种应用程序。 从名字可以开出,此次开放的大语言模型 API 是基于谷歌去年发布的 PaLM。这是谷歌基于 Pathways 系统训练的一个 5400 亿参数的大型语言模型。 随着规模的增加,模型在处理多个任务时的性能逐渐提高,而且还在不断解锁新的能力‍ ‍关于 PaLM,读者们可以查看论文《PaLM: Scaling Language Modeling with Pathways PaLM 是谷歌选择的第一个版本,所以后续我们也可以期待下 LaMDA API 等。

    53540编辑于 2023-03-29
  • 来自专栏机器之心

    参数量150,Meta发布110亿参数模型,击败谷歌PaLM

    在只有 11B 个参数的情况下,Atlas 使用 64 个训练示例在 NaturalQuestions(NQ)上实现了 42.4% 准确率,比 540B 参数模型 PaLM( 39.6% ) 高出近 3 特别是它优于更大的模型 (PaLM) 或需要更多训练计算的模型(Chinchilla)。

    67010编辑于 2022-08-25
  • 来自专栏机器之心

    3.6万亿token、3400亿参数,谷歌大模型PaLM 2细节遭曝光

    昨日,据外媒 CNBC 看到的内部文件称,PaLM 2 是在 3.6 万亿个 token 上训练。作为对比,上代 PaLM 接受了 7800 亿 token 的训练。 这一点也在内部文件中得到了验证,PaLM 2 的训练参数量为 3400 亿,远小于 PaLM 的 5400 亿。 PaLM 2 的训练 token 和参数量与其他家的 LLM 相比如何呢? 网友评论 在官宣 PaLM 2 之初,就有网友根据 Chinchilla 定律预测其参数量,ta 预测 PaLM 2 模型家族的参数结果为 80B / 90B / 100B 不等,和这次爆料的 340B 还有人对 PaLM 2 的训练成本进行了一波预测,根据历代大模型的发展来看,这位网友表示,打造 PaLM 2 需要耗资 1 亿美元。 PaLM 2 参数都泄密了,可以试着推测 Bard 了,这位网友表示: 随着 PaLM 2 token 数的泄露,网友不禁疑问,在 AGI 到来之前,多少 token 才能迎来一次大转折?

    49920编辑于 2023-05-22
  • 来自专栏新智元

    超越PaLM!北大硕士提出DiVeRSe,全面刷新NLP推理排行榜

    最近北大的一位硕士生在微软实习期间提出一个新算法DiVeRSe,全面刷新NLP推理排行榜,在归纳推理数据集上性能甚至比PaLM+自洽提升60%,比fine-tuning还要高近30%。 大型语言模型可以说是现代自然语言处理技术的基石了,比如1750亿参数的GPT-3,5400亿参数的PaLM,预训练模型为下游任务提供了非常强大的few-shot learning的能力。 5个算数推理数据集上进行实验,可以看到在基于code-davinci-002的DiVeRSe方法都取得了新的SOTA算法,平均的提升率为6.2% 在两个常识推理任务上,DiVeRSe的性能略低于基于PaLM

    61210编辑于 2022-07-06
  • 来自专栏人工智能头条

    大脑理论与智能机器探索者:Palm创始人Jeff Hawkins

    作为工程师,Jeff Hawkins创立了两家便携式计算机公司,Palm和Handspring,开发了风靡一时的PalmPilot和Treo智能电话。 Hawkins在这段时间创立了Palm Computing(也许值得一提的是,Palm商标目前归中国公司TCL所有)和Handspring,推出了一系列风靡一时的掌上手写电脑。 Palm使用的手写识别系统Graffiti灵感来自Hawkins曾学习的一种与大脑有关的数学——1987年夏天,一家名为Nestor的公司展示了一种能识别手写文字的神经网络,要价100万美元,“他们在神经网络规则上大作文章

    71740发布于 2018-06-06
  • 来自专栏自然语言处理

    【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

    [PaLM]使用激活函数SwiGLU, 该函数可以参考PALM论文:Glu variants improve transformer。 该实现可在xformers Palm 采用SwiGLU激活函数:用于 MLP 中间激活,采用SwiGLU激活函数:用于 MLP 中间激活,因为与标准 ReLU、GELU 或 Swish 激活相比,《GLU

    1.6K41编辑于 2023-08-25
领券