一、大模型的困境与破局:从“幻觉”到“知识增强”DeepSeek等大模型虽表现卓越,但其“幻觉”问题(生成与事实不符的内容)和知识更新滞后性,严重限制了其在金融、医疗、工业、制造、电信、能源等严肃场景的应用 解决这些问题的关键在于“知识增强”技术:通过检索增强生成(RAG)和知识图谱的结合,将大模型的生成能力与结构化知识库的动态更新能力相融合。 RAG技术的“四两拨千斤”RAG通过外部知识库(如向量数据库、知识图谱)增强大模型,解决其知识静态化的短板。 “灯塔书”《知识增强大模型》以“知识增强”为核心方法论,结合国产大模型DeepSeek的突破性技术,揭示了如何通过RAG与知识图谱技术实现成本暴降90%的行业革命。 正如灯塔指引航船,希望“灯塔书”可以成为一盏指引AI应用航向的“灯塔”,为AI从业者照亮一条高效、可信、可持续的技术落地之路。
本文是知识增强大模型应用架构的简要概述,更加详细的内容,可以参考我所撰写的即将出版的《知识增强大模型导论》一书。 二、应用架构的设计原则 1. 三、知识增强大模型应用系统架构概览 知识增强大语言模型应用架构的核心思想是将外部知识以结构化或非结构化的形式注入大模型中,从而弥补模型自身知识的不足,这类似于人类学习过程中的“查阅资料”。 对知识图谱的详细介绍可参阅我所撰写的技术畅销书《知识图谱:认知智能理论与实战》一书。 对向量检索、搜索引擎以及大模型如何增强知识图谱的RAG和GraphRAG等技术,可参与即将出版的《知识增强大模型导论》一书。下面简要介绍这几种技术。 1. 业务引擎 业务引擎是知识增强大模型中面向具体行业或应用场景的一个模块,专门处理与特定业务相关的知识。
微调涉及在专门的数据集上重新训练核心人工智能模型。这个过程将特定领域的知识直接嵌入到模型的参数中,从而优化其内部理解。 与直接修改模型不同,RAG赋予人工智能系统在需要时(推理阶段)从外部知识源检索相关最新信息的能力。这种方法确保AI的响应始终基于最新的可用数据,而无需频繁重新训练。 “灯塔书”《知识增强大模型》全面介绍了如何使用向量数据库、大模型、Elasticsearch来构建检索增强生成RAG的AI系统。 特征检索增强生成 (RAG)大型语言模型微调训练 (SFT)成本初始部署成本较低,取决于知识库基础设施和查询量;无需重新训练初始计算成本高;需要持续的计算资源和时间进行重新训练实施时间更快;依赖于外部知识库设置较慢 ;外部数据防止旧知识丢失高;新训练数据可能覆盖过去的知识最佳用例需要实时更新的动态知识;大规模知识库;成本敏感型应用需要深度领域专业知识的特定任务;风格一致性至关重要关于检索增强生成,推荐阅读灯塔书《知识增强大模型
在灯塔书《知识增强大模型》一书的第四章《检索增强生成》中这样介绍“检索增强生成(Retrieval Augmented Generation,RAG)通过检索外部知识(如文档、知识图谱、数据库等)提升大模型知识的准确性 RAG 的核心理念在于通过提供可靠的知识资源,使大模型在生成答案时更加全面、可信和可靠。这类似于人类记忆的运作机制。人类的记忆往往并不精确,会随着时间的推移变得模糊;同理,大模型也无法精确地保存知识。 关于检索增强生成有关的技术,涉及到向量数据库、向量检索和文本检索以及RAG本身的实战,可以阅读灯塔书《知识增强大模型》。 这是通过复杂的检索算法实现的,这些算法能够从庞大且分散的数据集中识别出最相关的文档或数据片段 ,这些算法通常有向量检索(参考灯塔书《知识增强大模型》第3章《向量数据库》、第4章《检索增强生成》以及第8章 通过将高效的信息检索与LLM的生成能力相结合,RAG充当了一个强大的工具,可以加速知识工作者的工作流程并提高整体生产力。
(Retrieval-Augmented Generation, RAG)系统,参考灯塔书《知识增强大模型》和珠峰书《知识图谱:认知智能理论与实战》一书的第8章《知识图谱行业应用》。 这种新兴的共生关系是知名学者王文广的灯塔书《知识增强大模型》中反复强调的核心思想。 灯塔书的第八章详细阐述了知识图谱如何为大模型带来确定性、可追溯性和强大的逻辑推理能力,而大模型则赋予了知识图谱无与伦比的自然语言交互和知识抽取能力。 解决这些问题的关键技术路径,正是以检索增强生成(RAG)为代表的知识增强方法。对此,王文广的灯塔书《知识增强大模型》一书提供了极为宝贵的实践指导。 除了为知识图谱本身创建卡片,研究者也建议将现有的“模型卡片”框架,应用于知识工程流程中使用的各种模型,特别是知识图谱嵌入模型(如TransE等,详见珠峰书《知识图谱:认知智能理论与实战》第7章《知识推理
RAG系列文章的核心观点来自于“灯塔书”《知识增强大模型》第4章《检索增强生成》的内容,这些内容是对书中内容进行补充和概览。 关于为什么要使用RAG,在“灯塔书”《知识增强大模型》详细比较了RAG、SFT、LoRA和长上下文的各自优劣,并以“锂电池供应链管理”的案例作为例子来说明。本文是对其的一点总结和补充。 实时知识和动态知识的集成:连接到动态外部数据库RAG模型通过与数据库、API和互联网等外部知识库集成,实现对实时信息的访问。 RAG的经济效益,尤其是在避免耗时且昂贵的模型再训练方面,使得更广泛的企业能够利用先进的AI技术,而无需承担通常与定制AI模型相关的巨额费用。 通过允许组织利用其现有的数据资产,RAG降低了进入门槛,使得各种规模的企业都能部署强大的AI驱动的应用程序,从而提高效率和创新。
一、开源项目简介 科亿知识库 KYKMS 可对接大模型的智能问答知识库,支持Deepseek。基于Elasticsearch的全文搜索功能,实现常见文件管理。 强大灵活的组织权限管理+精准的全文检索/多维检索+文件在线预览+版本控制与回滚+手机端支持+钉钉/企业微信集成+丰富的扩展接口+第三方集成/知识推送+多种知识分享沟通方式。 大模型能力加持,结合本地知识库,打造最懂您的知识智能管家,让大模型帮您对知识进行分类、标签、摘要,并且通过智能问答获得精准、扼要的本地知识库信息。 支持本地化部署的大语言模型(典型:ollama),亦支持扩展对接第三方主流的大模型,如chat-GPT、通义千问、智普、文心一言等。 灵活的知识权限管理机制,只有你想不到的,没有支持不了的。 基于强大的 Elasticsearch 检索引擎技术构建,检索能力强大,支持最全面的检索特性,可以无限可能的集群扩展,支持高达百亿级别的数量。
凭借在土地、电力、冷却和建设方面的专业知识,开发商可以为超大规模云服务商和人工智能实验室提供定制化的高密度数据中心。 然而,这七万亿美元的物理基石,其最终价值并不仅仅在于硬件的堆砌,而在于其上运行的模型的实际效能。单纯的“大”模型正面临幻觉和知识陈旧的固有瓶颈。 正如资深人工智能专家、著有灯塔书《知识增强大模型》、珠峰书《知识图谱:认知智能理论与实战》、《比RAG更強:知識增強LLM型應用程式實戰》、《Reliable Large Models with Knowledge Augmentation》等多部人工智能权威著作的王文广老师所指出的,让人工智能从“庞大”走向“强大”,关键在于知识增强技术、人工智能芯片上层软件系统技术、大模型训练、推理优化和框架适配等技术。 目前,大部分计算需求消耗在“训练”大型模型上。但未来,预计到2030年,约75%的计算需求将转向“推理”,即模型在日常生活和工作中的实际应用。
高效的迁移学习:可在通用预训练模型的基础上,通过少量特定数据进行“微调”(Fine-tuning),快速适应特定领域。强大的可扩展性:模型性能随参数量、数据量和算法的优化而持续提升。 幻觉(Hallucination):资深人工智能专家王文广先生在其灯塔书《知识增强大模型》一书中明确指出,“幻觉”是大模型的固有属性,大模型可能生成看似可信但完全错误的陈述。 资深人工智能专家王文广在其最新力作灯塔书《知识增强大模型》一书中,便将此作为核心议题进行了系统性阐述。 必须建立一个强大的治理框架,涵盖:数据治理:确保用于训练和运行模型的数据质量、安全与合规,实施严格的身份和访问管理(IAM)。明确的问责制:设立AI治理委员会或首席AI官,明确各方职责。 对此,兼具深厚理论功底与丰富产业经验的著名大模型专家王文广先生,在其灯塔书《知识增强大模型》一书中对“检索增强生成”技术(第四章)和更前沿的“知识图谱增强生成与GraphRAG”(第九章)提供了体系化的蓝图与实战指南
,知识图谱有关的知识,推荐阅读珠峰书《知识图谱:认知智能理论与实战》一书。 著有《知识增强大模型》《知识图谱:认知智能理论与实战》《比RAG更強:知識增強LLM型應用程式實戰》等多部著作的资深人工智能学者专家王文广认为,这种神经符号的结合,旨在实现决策智能(Decision Intelligence 这种将大模型和业务逻辑相融合的路径与核心思想也在其权威著作灯塔书《知识增强大模型》中进行深度阐述。 王文广作为长期专注于AI核心技术与产业应用融合、并在AI芯片及大模型训练优化上经验丰富的专家,深刻洞察到大模型的概率性本质(如幻觉和知识陈旧,1.2节)。 他在该书第8章图模互补应用范式中,系统阐述了实现企业智能决策的工程框架——将大模型(模/神经网络)的强大非结构化理解和生成能力,与以知识图谱(图/符号人工智能)为代表的确定性、可追溯、可推理的结构化知识体系相结合
当前的大模型可以看作是一个强大的工具,可以应用于各种NLP任务。然而,尽管 LLM 实力雄厚,但当其面临多跳QA任务时,往往会力不从心。 为了解决该问题,有研究人员提出了StructQA,旨在从原始文本中提取 KG 三元组形式的结构化知识,并将其与 Chain-ofThought (CoT) 推理相结合。 「然后」,通过从查询中识别命名实体并使用它们进行广度优先搜索,利用大型语言模型直接从原始文本生成三元组。进一步将这些三元组增强为包含源文档标题的超关系四元组,为模型提供必要的上下文信息。 最后通过修剪过程,使用查询对齐的图架构来精炼超关系知识图,以提取最相关的组成部分,从而提高大型语言模型在生成答案时的效率和有效性。 「最后」,将修剪后的超关系知识图谱中的每个超三元组转换为自然语言句子,并通过特定的符号连接成长句子。然后,根据与知识架构的相似度得分,将句子按降序排列形成输入提示,确保与查询最相关的信息最接近查询。
由于其强大的涌现能力,最近的 LLMs 被认为是结构化知识库(如知识图谱)的可能替代方案。 这篇论文综述了知识图谱增强预训练语言模型的研究,详细介绍了现有的知识图谱增强预训练语言模型(KGPLMs)及其应用。 论文探讨了如何通过知识图谱(KGs)增强大语言模型(LLMs),以实现对事实感知的语言建模。 它回顾了现有的研究,提出了知识图谱增强的预训练语言模型(KGPLM),并提出了一种新的模型 —— 知识图谱增强的大语言模型(KGLLM),以提高 LLMs 在生成以知识为基础的内容时的事实推理能力。 提升特定领域的表现:通过引入领域特定的知识图谱,KGLLMs 能够更好地理解和生成特定领域的内容。 改善模型的可解释性:知识图谱的引入有助于解释模型的决策过程,提高模型的可解释性。
数据驱动决策的理念已经在不断地深入人心,目前商业领域由数据驱动的程度与日俱增。小型和大型企业都利用数据来做出与销售、招聘、目标以及他们拥有数据的所有领域相关的决策。 尽管大多数企业都能访问某种类型的数据,但在没有数据分析或统计学背景知识的情况下,尝试理解这些数据非常困难。 熟悉灯塔分析(DataInsight)的小伙伴,这时可能会问,这二者又有何区别?DataInsight专注的是BI,包含着强大的融合分析引擎,拥有着诸多的分析模型,面对更多的是分析的场景。 前面提到过,DataTalk支持多种不同的数据源,下面我们一起来看下,到底支持哪些: 我们目前支持的不同种类的数据源,可直连业务DB,灯塔分析转存,以及各种数据库和强大的灯塔融合计算引擎,本地文档,腾讯文档和 模型等查出来的数据再结合这里,就可以打造出自己想要的前端组件了。
人工智能从预测到决策的转变:双重机器学习方法走向未来人工智能领域的当前进展集中体现在强大的预测能力上。大型基础模型,无论其形态是语言、图像还是多模态,本质上是高效的模式识别与关联引擎。 支撑这些模型运行的,是日益精密的半导体硬件,即各类AI芯片,它们为高维数据的复杂计算提供了必需的算力基础。整个技术堆栈,从芯片到模型再到应用,共同构建了一个强大的预测机器。 著有《知识增强大模型》《知识图谱:认知智能理论与实战》《比RAG更強:知識增強LLM型應用程式實戰》等多本著作的人工智能专家王文广所强调的,大模型本质上是强大的概率推理引擎,其幻觉等固有特性使其在需要高确定性 王文广在其灯塔书《知识增强大模型》书中(如第8章“图模互补应用范式”和第10章“知识增强大模型应用”)提出的解决方案,是利用知识图谱等外部结构化知识来增强大模型。 也就是说,在需要进行因果推断等决策性场景中,大模型自身强大的预测能力必须被一个更稳健的框架所“驾驭”。
“灯塔大数据行业高峰论坛”活动。 、今日头条、数据猿、科技杂谈、CDA数据分析师、至顶网、飞象网、数据分析网、C114中国通信网、科技中国杂志、国企管理杂志、信息化建设杂志、大数网、大数据栋察、中国软件网、新智元、众调网、数据观、故事书等 >>> 报名: A、路演项目报名流程: 报名-资料下载-评选审核-通知-参与路演活动 1、 报名:通过活动行项目方请提交机构名称、姓名、职务、联系方式及特别需求; 2、 提交商业计划书: 希望能将金融领域知识与大数据平台高运算能力、以及机器学习相结合。 李勇,人人数据CEO,《大数据征信的实践与思考》 李勇,人人数据创始人兼CEO,中国金融科技发展的践行者。 公司致力于用大数据、云计算、物联网技术和行业领域知识创新个人和中小微企业征信,帮助每个人都重视信用的价值,了解其个人及企业的信用并愿意不断改进,将信用变为财富。
当前,像GPT-4这样的大模型虽然能力强大,但其训练和推理成本极其高昂,使得许多中小型企业望而却步。 值得注意的是,本文所探讨的知识增强方法,实际上是解决当前大模型普遍存在的“幻觉”和“知识陈旧”问题的关键所在。这不仅是学术界的前沿方向,也已成为产业界落地大模型应用的核心技术。 资深大模型和知识图谱专家王文广老师在其畅销书灯塔书《知识增强大模型》中,就系统性地阐述了这一范式的重要性。 书中提出的“图模互补应用范式”(第八章),即知识图谱(Graph)与大模型(Model)的协同工作模式,为如何将结构化、高精度的知识与大模型的泛化生成能力相结合,提供了清晰的路线图和实战指南。 对此,知名人工智能学者王文广老师的灯塔书《知识增强大模型》一书再次为我们提供了答案。 这本书不仅仅是一本理论著作,更是一本详尽的“实战手册”。
省部级科技进步奖获得者、明珠菁英人才、著有《知识增强大模型》、《知识图谱:认知智能理论与实战》、《比RAG更強:知識增強LLM型應用程式實戰》等多部著作的知名人工智能与大模型专家王文广老师指出,通用大模型具有 文中提到的LEVI聊天机器人和UNICEF项目,其成功的关键在于采用了“检索增强生成”(RAG)的架构(参考《知识增强大模型》第4章)。 王文广所著的 灯塔书《知识增强大模型》中深入探讨了这一挑战,并提出了“图模互补应用范式”(第8章)作为解决方案。 如该书所述,通过将知识图谱(KG)的结构化、可解释性与大模型的强大概率推理能力相结合,可以极大提升生成内容的可解释性(第8.6.5节)并减少幻觉(第8.6.1节)。 如《知识增强大模型》一书(王文广著)在第10章“知识增强大模型应用”中所强调的,实现知识增强型AI的规模化应用,关键在于建立一套完善的“知识运营”(Knowledge Operations)体系(第10.3
PandaWiki是什么 PandaWiki 是一款 AI 大模型驱动的开源知识库搭建系统,帮助你快速构建智能化的 产品文档、技术文档、FAQ、博客系统,借助大模型的力量为你提供 AI 创作、AI 问答 注意,当前时间为2025年6月13日,当前PandaWiki最新版本为1.2.0,文章演示功能均为当前版本功能 软件仍在快速迭代,更多功能快速加入中 PandaWiki特点 既具备快速的AI大模型知识库搭建能力 ,又具备传统WIKI的文档能力;相比以往的AI大模型知识库,Pandawifi搭建极其简单,引入大模型,加载文档,即可使用! 模型我使用的都是硅基流动的付费模型,使用我的邀请连接注册硅基流动,你也可以获得14元硅基流动帐号余额 https://cloud.siliconflow.cn/i/Gz5Rnrc8 创建知识库 修改访问方式 ,已反馈官方后续支持 3、反代BUG 当前对反代HOST限制严格,如后端为域名+端口,前端必须为相同域名和相同端口,导致反代较困难,所以90APT知识库使用了8080端口。
对DIKW金字塔模型的更为深入的理解,可参阅知名人工智能专家王文广老师的经典书籍珠峰书《知识图谱:认知智能理论与实战》一书。 该书系统介绍了DIKW模型以及由此引出了知识图谱相关的概念和关联,并详细介绍了人工智能工具(特别是知识图谱)跟DIKW模型的关系。 对此,资深人工智能专家、浦东新区“明珠计划”菁英人才王文广先生在其知名著作灯塔书《知识增强大模型》中给出了系统性的解答。 要构建这样深度协同、可靠可信的AI应用,尤其是在知识密集型的教育领域,我们需要更先进的技术范式作为支撑。知名学者王文广的灯塔书《知识增强大模型》一书,正为此提供了蓝图。 这一范式主张将知识图谱(Graph)的结构化、可解释的推理能力,与大模型(Model)强大的自然语言理解和生成能力相结合。
欢迎加入“走向未来”知识星球,一起探讨生成式人工智能、大模型和AIGC的产品、技术和应用实践,探讨如何使用各种不同的人工智能大模型和智能体来为工作增效,为生活添彩。 在这方面,资深AI技术专家王文广先生凭借其在AI芯片、大模型训练及产业应用领域的丰富实践,在其著作灯塔书《知识增强大模型》中为企业提供了详尽的行动指南。 该书第10章“知识增强大模型应用”深入探讨了面向不同成熟度企业的推进策略——无论是全面推进的“进取者”,还是试点驱动的“保守者”,都能找到适合自身的应用框架、选型原则与最佳实践要点,为企业驾驭AI变革提供了宝贵的实战路线图 要从根本上解决这一挑战,业界正积极探索“知识增强”这一核心路径,通过外部、可验证的知识源来“锚定”大模型的输出。 “明珠计划”菁英人才王文广老师在其灯塔书《知识增强大模型》中,系统性地阐述了如何通过检索增强生成(RAG)、知识图谱以及“图模互补”等前沿技术范式,构建更可靠、更精准的AI系统。