本文整理了2023年以来,ChatGPT等语言大模型在推荐系统中的应用。基于大模型的推荐系统,与传统的推荐系统差异非常大,如果大模型推荐系统能取得成功,势必会对原来的推荐系统造成不小的冲击。 截止到目前为止,已经有多篇文章初步探讨和尝试了ChatGPT等大模型在推荐系统中的应用。 下面汇总了2023年1月份到5月份大模型在推荐系统中应用的6篇文章。 ,验证了大模型在一般推荐场景、跨域推荐、冷启动推荐等场景下都有着不错的表现。 这里的公平性问题指的是,用户侧一些敏感属性的特征,可能会引起大模型产出不公平的推荐结果,因为大模型经过大规模语料进行训练,其中会存在这样的有偏信息。
「GitHub」: https://github.com/unslothai/unsloth 「特点」: 训练速度提升 2-5 倍,显存减少 80% 支持 LLaMA、Mistral、Gemma 等模型 DeepSpeed 「GitHub」: https://github.com/microsoft/DeepSpeed 「特点」: 微软出品,专注大规模分布式训练 ZeRO 优化器大幅降低显存需求 适合超大模型训练 Swift (ModelScope) 「GitHub」: https://github.com/modelscope/swift 「特点」: 阿里达摩院出品 对国产模型(Qwen、ChatGLM)支持好 提供完整的训练、推理、部署流程 快速选择建议 场景 推荐框架 新手入门、零代码 LLaMA-Factory Hugging Face 生态 PEFT 显存有限、追求速度 Unsloth 超大规模分布式训练 DeepSpeed 国产模型微调 Swift
本文汇总了20篇与图大模型相关的论文(主要以推荐系统领域为主),展示最新的工作研究进展。 然而,它们在职位推荐中对行为图理解的潜力仍然大部分未被开发。本文着重揭示大型语言模型在理解行为图方面的能力,并利用这种理解来增强在线招聘中的推荐,包括促进OOD的应用。 最后,向数百万用户推荐内容要求模型能够快速反应并具有可扩展性。 最近,基于知识库(KB)的模型被提出来融合专家知识,但它很难适应新的物品和不断发展的电子商务环境。为了解决这些挑战,我们提出了一种新颖的基于大型语言模型的补充知识增强推荐系统(LLM-KERec)。 总之,LLM-KERec通过整合补充知识并利用大型语言模型捕捉用户意图的转变,适应新的物品,并提高在不断发展的电子商务环境中的推荐效率,解决了传统推荐系统的局限性。 12.
TLDR: 当前将大语言模型用于推荐系统存在三方面问题:1)大语言模型不在推荐系统数据上训练,并且推荐数据通常不公开可用。 例如,视频推荐系统通常根据用户从观看历史和其他候选特征中隐含的偏好向用户推荐视频,而用户通常不用提供自然语言偏好。这使得推荐系统的性能不能与大语言模型相比。 为了诱导这种自然语言偏好,对话推荐系统应运而生,用户可以使用自然语言标签或对话语言直接与系统交互。 然而,将大语言模型用于会话式推荐系统存在以下困难。 在第二阶段冻结大语言模型主干参数并针对会话推荐任务进行训练。 在各种会话推荐数据集和任务进行了广泛的基准测试,验证了其对于推荐性能的改进,同时说明了该技术如何将传统协同过滤信号与大语言模型相结合,此外证明了该模型能够一致地实现SOTA性能。
二、什么是大模型推荐大模型推荐(LLM-basedRecommendation)是指将推荐任务转化为自然语言理解和生成问题,利用大语言模型的强大语义理解能力来生成推荐结果或推荐理由。 四、大模型推荐vs传统推荐模型的优缺点对比维度传统推荐模型大模型推荐核心机制基于ID的协同过滤和矩阵分解,学习用户-商品交互模式基于语义理解,将推荐转化为文本理解和生成任务数据表示用户=ID,商品=ID 4.推荐理由生成即使主推荐链路用传统模型,推荐理由也可以用大模型生成。 工业界混合架构实践实际生产中,几乎没有公司会完全用大模型替代传统推荐系统,而是采用分层、混合的架构:架构一:传统模型主链路+大模型增强召回、排序等高频环节:传统模型(毫秒级响应)推荐理由、冷启动商品:大模型 (学生):让小模型学习大模型的推荐逻辑小模型推理快、成本低效果接近大模型的90%5.流量控制只对高价值用户开启大模型推荐只在特定场景(如搜索、详情页)调用控制调用比例在5%以内评估方法的差异传统推荐系统的评估很直接
它站应用落地视角让你理解大模型是什么,能干什么,如何落地。 第1章:提示工程概述 深入探讨AI原生应用的挑战与机遇,揭示大语言模型与实际应用间的鸿沟,强调提示工程在弥合这一差距中的关键作用。 第4章:内容创作提示 提供系统化的内容创作提示方法,解决大语言模型在创意、文风等方面的挑战,分享实用的创作技巧与长文本创作策略。 第5章:生成可控性提示 深入探讨大语言模型输出控制的策略,分类解析可控性问题,剖析输出不可控的多种因素,并提出有效的控制策略。 第6章:提示安全设计 探讨提示安全设计在AI原生应用开发中的重要性及其挑战,揭示大语言模型面临的安全问题,并提出应对策略。 本书内容详实,结构清晰,不仅适合大模型应用开发者、产品经理等群体阅读,也适合对AI原生应用开发感兴趣的读者参考。
,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将 3.1 大模型的优势 大模型在推荐系统中的应用具有以下优势: 1.强大的语义理解能力:大模型通过预训练学习到了丰富的语义表示 4.3 实时推荐与在线学习 传统推荐系统通常采用离线训练模型,而大模型则具备强大的在线学习能力,可以实时更新模型参数,适应用户兴趣的动态变化。 针对这一问题,可以采用分布式训练、模型压缩等技术,提升大模型在推荐系统中的应用效率。 5.2 数据隐私与安全 大模型在推荐系统中的应用,需要处理大量用户数据,数据隐私和安全问题不可忽视。 6.2.2 推荐策略 结合用户实时行为数据,利用大模型的在线学习能力,实时更新推荐结果,实现个性化推荐。 6.2.3 效果评估 通过A/B测试,评估大模型推荐系统的效果。 大模型可以通过生成自然语言解释,提高推荐系统的透明度和可理解性。
在人工智能和大模型技术飞速发展的今天,我们有幸见证了AI如何深刻地影响和改变着我们的世界。这场变革不仅可能重塑我们的世界,更在各个领域引发了深远的影响。 为了深入理解这场技术变革,把握AI应用的未来趋势,我们特别策划了这一期“大模型&AI应用”主题书单。 本期大牛书单,我们请来了鹅厂内部行业专家,他们用丰富的知识和实践经验,为我们精选了一系列深度与广度兼备的好书和框架推荐,不仅覆盖了AI的基础理论,更深入探讨了AI在不同领域的应用实践,从技术实现到伦理思考 福利时刻 在评论区写下关于你在AI应用或大模型学习中的故事,分享你的心得和看法,我们将在8月9日抽取 10 位朋友各送一本被许多大牛与博主都推荐过的顶尖AI科学家李飞飞自传——《我看见的世界》。
本文约6500字,建议阅读13分钟 本文将介绍近年来推荐大模型的演进,以及其中一些重要的技术点。 [ 导读 ] 本文将介绍近年来推荐大模型的演进,以及其中一些重要的技术点(本文基于2022年底在DataFun的分享成文,仅代表当时的技术和业务情况)。 主要内容包括四大部分: 1. 微博推荐技术路线回顾 2. 推荐大模型技术近期迭代 3. 以增强链路表达一致性为目标 4. 其他技术点 01、技术路线回顾 1. (2)从产品定位角度来看: ① 服务热点:微博在热点爆发前后,流量变化特别大,用户能在推荐里面顺畅消费热点内容,是公司对推荐产品的要求; ② 构建关系:希望在推荐的微博里沉淀一些社交关系。 2. 02、大模型近期技术迭代 这一章节会从目标、结构和特征几方面来介绍业务的迭代模型。 1.
TLDR: 针对传统跨域推荐中存在的语义缺失问题,本文提出一种新颖的双图大模型跨域推荐方法来捕捉多样化的信息,并采用对齐和对比学习方法促进领域知识转移。 传统的跨域序列推荐模型通过用户和物品建模来获取协同信息,忽略了有价值的语义信息。最近,大语言模型显示出强大的语义推理能力,促使我们引入它们来更好地捕捉语义信息。 然而,将大模型引入跨域序列推荐并非易事,因为有两个关键问题:无缝信息集成和特定领域的生成。 针对这一问题,该文提出了URLLM框架,通过同时探索基于大模型的用户检索方法和领域基础来提高跨域序列推荐的性能。 首先提出一种新的双图序列模型来捕获多样化的信息,以及一种对齐和对比学习方法来促进领域知识迁移。然后,采用用户检索生成模型将结构信息无缝地集成到大模型中,充分利用大模型的推理能力。
嘿,记得给“机器学习与推荐算法”添加星标 TLDR: 为解决基于大语言模型的推荐系统的遗忘学习问题,本文引入了适配器分区和聚合(APA)框架,可以在保持推荐性能的同时实现精确高效的遗忘学习。 论文:arxiv.org/abs/2404.10327 使用推荐数据对大语言模型进行参数高效微调(PEFT)已成为基于大语言模型的推荐系统(LLMRec)的基本范式。 例如下图所示,TALLRec采用LoRA调优技术,通过指令数据中的推荐来使LLM与推荐任务保持一致。 然而,其中包含用户数据引发了隐私问题。 为保护用户隐私,从LLMRec模型中删除不可用的数据(例如历史行为)变得至关重要。现有的遗忘学习方法不足以满足LLMRec的独特特征,其主要原因是遗忘计算成本较高或数据遗忘不彻底。 但推荐性能在减小前相对来说更加稳定。 更多技术细节请阅读原始论文
因此,最近的研究尝试利用大语言模型的强大能力来增强推荐系统,并且已经在推荐系统多个子任务上进行了初步尝试,比如Top K推荐、评分预测、对话推荐以及解释生成等。 大语言模型在电影推荐场景中各种推荐任务示例 鉴于推荐系统这一研究方向的快速发展,迫切需要对现有的大模型增强的推荐系统进行系统概述,以便为相关领域的研究人员和从业者提供深入的了解。 因此,在本文中从预训练、微调和提示等各个方面对大模型增强的推荐系统进行了全面综述。下表展示了每种分类下具体的推荐任务和骨干模型以及对应的参考文献。 然后,从预训练、微调和提示三个范式来回顾大语言模型在增强推荐系统方面的最新技术。 tuning 最后,综述讨论了这个新兴领域的未来发展方向,比如大模型中的幻觉缓解技术、可信大模型推荐系统、特定垂直领域的大模型应用于推荐等
如果你也对LLM颠覆搜推广范式充满期待(虽然可能还要不少时间),持续梳理follow大模型在推荐系统中的应用工作,欢迎一起讨论! 未完,持续更新中... Rec 既然是大模型在推荐系统中的应用,那么首先要梳理对比下传统推荐模型和LLM的优缺点,推荐到底在 "馋" LLM的什么? 推荐系统 大模型 场景 千人千面、领域各异 通用模型,one for all 输入 物品(百万、千万) 字词文本(十万) 参数规模 亿级别 千亿、万亿(计算复杂度高) 学习范式 Online learning 2.2 LLM for feature encoder 使用大模型的通用语义表达能力进行编码,弥补传统推荐系统的信息缺失(例如文本等),进一步丰富user/item侧的语义表征。 FT OR NOT FT 从大模型训练和推理两个阶段出发,将现有工作分为四个象限 训练阶段是否需要微调? 推理阶段是否使用传统推荐模型? 4.
大模型在推荐系统中的价值体现 我们以常用的Qwen1.5-1.8B-Chat为例, Qwen1.5-1.8作为一款轻量级、高效率的大模型,在资源受限或对响应速度要求较高的推荐场景中展现出显著优势 二、大模型的核心价值1. ,喜欢户外运动"大模型提取特征:[科技爱好、年轻职场人、户外活动] 推荐:运动手表、编程书籍、露营装备新商品定位:深度分析商品描述、规格参数、使用场景文本商品描述:"便携式咖啡机,适合户外旅行使用"大模型提取特征 关键词→ 推荐:普通礼品大模型理解: 1. 动态兴趣演化跟踪额外能力:大模型还能支持用户兴趣的动态分析兴趣迁移识别:用户历史:游戏装备 → 电竞椅 → 人体工学设备 → 健康监测手表大模型识别趋势:从"娱乐需求"向"健康办公需求"迁移下一步推荐:
TLDR: 本文介绍了一个开源大模型推荐评测平台OpenP5,旨在促进用于研究的基于大模型生成式推荐系统的开发、训练和评估。 上述局限性可能会阻碍基于大模型推荐研究的探索。 本文提出了一个开源平台OpenP5,旨在促进用于研究目的的基于大模型的生成式推荐系统的开发、训练和评估。该平台在10个广泛认可的公共数据集上进行实验。 另外,OpenP5使用编码器-解码器大模型(如T5)和仅解码器的大模型(如Llama-2)实现,满足了两个基本的推荐任务:序列推荐和直接推荐。下图展示了不同推荐任务所对应的提示的不同。 认识到物品ID在基于大模型的推荐中的重要作用,我们还在OpenP5平台中纳入了三种物品索引方法:随机索引、顺序索引和协同索引。 该平台建立在Transformers库之上,便于为用户定制基于大模型的推荐模型。
这篇论文总结了现有LLM在金融领域的应用现状,推荐和金融相关或者有兴趣的朋友都看看 论文分为2大部分: 1、作者概述了使用llm的现有方法 包括使用零样本或少样本的预训练模型,对特定于领域的数据进行微调 ,还有从头开始训练定制llm,并给出了关键模型的总结与评价。 论文从总结语言模型架构经历了重大的演变开始: 1、从n-gram模型中,下一个单词的概率完全取决于前面的(n-1)个单词 2、以RNN为基础的模型,如LSTM或GRU,神经网络架构,捕获序列数据中的长期依赖关系 这种方法可以创建更适合金融特定语言和细微差别的模型。 虽然这些金融专用LLM可能不如一些闭源模型(如GPT-3或PaLM)强大,但它们在与金融相关的任务中的能力有所提高,并且一般的能力也近似于通用模型。
这就是大模型做推荐面临的困境:模型能力越强,成本越高、速度越慢。一个70B参数的模型,每次推理要做几千亿次浮点运算。 但别急着放弃大模型。本文将带你了解如何用"漏斗架构"、"模型蒸馏"、"量化加速"等技术,让大模型推荐既省钱又快——成本降到原来的1/10,推理速度提升3-5倍,同时保持90%以上的效果。 二、什么是大模型推荐的成本控制与推理加速成本控制,就是通过各种技术手段,降低大模型在推荐系统中的计算开销和调用费用。核心思路是:让大模型只做它最擅长的事,其他事情交给更便宜、更快的方案。 采用"小模型粗排+大模型精排"架构,高价值用户走大模型,普通用户走轻量模型。新闻推荐:时效性要求极高,用户刷新频繁。 异步推荐架构:大模型离线生成候选池,线上只做匹配。适合对实时性要求不高的场景,成本最低。混合专家模型(MoE):只激活部分参数处理每个请求,在保持大模型能力的同时降低计算量。
大模型LLM在越来越多的领域开始崭露头角,前段时间我们整理了大模型在推荐系统中的应用 survey,当时留了一些坑没填上,今天补上。 从大模型训练和推理两个阶段出发,可以将现有工作分为四个象限 训练阶段是否需要微调? 推理阶段是否使用传统推荐模型? 【没有找到很多资料,欢迎推荐补充~】 LLM 在电商推荐系统的探索与实践 利用大模型的知识和推理能力,提高推荐模型对商品信息、上下文、用户行为序列的知识表达。 商品文本语义表征:通过设计prompt调用LLM(通义千问模型)对商品标题/CPV属性等进行正则化;作为特征引入精排模型 LLM-Based 长文档推荐 通过prompt,利用大模型的总结和推理能力 对长文档进行总结 ;是否需要 ID-index 探索更适合语言模型的 ID 索引和建模策略 避免大模型偏见: 问题:由于训练数据的不平衡等因素导致的大模型输出存在某种偏好或倾向,进而引发一系列伦理和社会问题 Can ChatGPT
模型量化技术:用户可以在消费级显卡上进行本地部署,并且最低只需 6GB 显存 (INT4 量化级别)。 相比初代模型,在同尺寸开源模型中具有竞争力。 该项目在保留了初代模型优秀特性的基础上,引入了许多新特性和改进。 这个项目结合最先进技术实现了非常强大且灵活可扩展的对话模型。它在性能、上下文长度和推理效率方面都有显著提升,使其成为同尺寸开源模型中具备竞争力的选择。 同时开源预训练和对齐模型:除了适用于开发者使用的预训练模型外,还提供带有强大对话功能的对齐模型 (Baichuan-13B-Chat),可直接部署并简单调用。
但是,将各类异构行为结合到推荐模型中的传统方法会导致特征稀疏(feature sparsity)和知识碎片(knowledge fragmentation)问题。 本文提出采用大模型LLM从用户的异构行为信息中提取和融合异构知识,然后将异构知识和推荐任务相结合,在LLM上执行指令微调进行个性化推荐。 作者选择开源模型ChatGLM-6B作为基础LLM,并采用Lora方法进行微调。 2.3 推荐 给定一个用户,从数据库中检索用户行为异构知识作为LLM的输入。 预测结果可以输出为自然语言形式的直接推荐,也可以用作语义特征,通过与传统推荐模型中的现有特征连接来增强推荐效果。 3.结果 image.png 往期推荐 如何更好地继续预训练(Continue PreTraining) 从NeurIPS2023速览大语言模型智能体最新研究进展 CIKM'23 | 统一的搜索推荐冷启动基础模型