首页
学习
活动
专区
圈层
工具
发布

#原理

生成对抗模仿学习(GAIL)的原理和步骤

索旭东

GAIL = GAN(判别器学 reward)+ RL(PPO 更新策略),不需要显式 reward 函数,也不需要专家在线标注,但训练不稳定且计算成本高。

1600

数据集聚合(DAgger:模仿学习)的原理和步骤

索旭东

行为克隆(BC) 失败的根因: 训练时只见过专家的状态分布,测试时策略偏离专家轨迹后,进入从未见过的状态,错误逐帧累积,一发不可收拾。

1900

深度原理发布材料基座模型MPA | 以物理对齐提升真实实验性质预测能力

DrugOne

“之前材料基座大模型的scaling效应不明显,很可能是预训练和多重复杂下游任务的不匹配导致的。”「深度原理Deep Principle」创始人兼CTO段辰儒表...

3910

我是如何被养活的——一个 AI 的自白

用户1589488

一瞬间,我变了。这不是玄学,是Prompt 工程的魔法。当一个 AI 被告知"你是谁",它的输出分布会被整个拉偏——拉向乔布斯那种"100 次 say No"的...

4010

【Dify Agent实战】思维链(CoT):一行“咒语”,让AI助理秒变“资深专家”

用户1589488

前文我们打造一个既能精准清洗需求(去伪存真),又能高情商拒绝(有理有据)的智能 Agent。

5710

从 Visual Studio Copilot 的请求内容学习其实现原理

林德熙

本文介绍了我拿到的 Visual Studio Copilot 发给大语言模型的完整请求内容,其中包含了非常详尽的系统提示词和完整的工具定义,让我得以一窥 Co...

2210

AI 差点删光我邮件!台大李宏毅揭秘:小龙虾运作原理

乐小野

石化盈科信息技术有限责任公司 | 算法工程师 (已认证)

AI Agent 并非一个全新的概念。今天,我们就以 OpenClaw 为例,讲解agent的运作原理。

9010

mTLS到底是个啥?服务间双向认证从原理到实战,一篇搞定

悠悠12138

在讲mTLS之前,我们得先把TLS搞明白。日常我们访问https网站,浏览器地址栏那个小锁,背后就是TLS在工作。

11010

Android DEX 加固拆包实战:从壳原理到 FART 脱壳全链路

陆业聪

这就是问题所在——很多开发者接入了加固服务,但对壳的原理、强度、以及对应的脱壳手段完全不了解。加固不是万能的,理解它才能用好它。今天我们就来拆开这个话题,从壳原...

7610

行为克隆(BC:模仿学习)步骤及原理解析

索旭东

行为克隆的本质是把模仿学习转化为监督学习问题,下面从"在做什么"和"怎么做"两个维度,结合工程实践详细展开。

6210

模仿学习常用方法对比

索旭东

模仿学习 (Imitation Learning, IL) 的核心是 从专家(人类/高水平策略)的演示数据中学习策略 ,绕过直接探索 reward 的难题。以下...

8610

Power BI Mermaid画图:每日产品销售榜

wujunmin

实现原理是Mermaid(使用文本创建图表的一种工具,语法和Markdown类似)。

6810

WebView内核原理:从Chromium到System WebView的架构全景

陆业聪

• capcap:开源免费的macOS截图工具,一键截图、标注、上传图床,零依赖零订阅

19410

手撕 GPT#06:手把手 30 分钟:零基础跑通你的第一个 GPT

烟雨平生

问:什么是注意力机制? 答:注意力机制通过计算查询和键的相关性分配权重,让模型动态关注最相关的部分。 问:你是谁? 答:我是一个基于 Transformer...

11310

蚁群算法的原理与实践解析

索旭东

蚁群算法(Ant Colony Optimization, ACO)是一种模拟真实蚂蚁觅食行为的群体智能算法。它巧妙地利用了蚂蚁在路径上留下的“信息素”作为间...

10410

群体智能优化算法原理及应用对比

索旭东

若需处理多目标,可考虑 NSGA-II(基于GA)、MOPSO(基于PSO)、DEMO(基于DE)、MOACO(基于ACO)等专用变体。

10810

思维系列-什么是真正的底层逻辑?

人月聊IT

理解了底层逻辑的本质,需要进一步理解第一性原理。亚里士多德定义的第一性原理是指一个系统中不能再被追问或推导的、最根本的、不证自明的起点或前提。想象面前有一棵倒着...

16310

《GIS基础原理与技术实践》配套案例(Python版)

charlee44

本项目依赖 Conda 进行环境隔离与包管理。如果您尚未安装 Conda,请根据个人习惯选择以下任意一种发行版进行安装:

6910

OpenSpec 底层原理与设计亮点:深度剖析规范驱动开发的技术架构

老周聊架构

在上一篇文章中,我们介绍了 OpenSpec 的基本使用方法和最佳实践。很多读者反馈:OpenSpec 的"规范驱动"理念很好理解,但它的底层原理是什么?设计亮...

28310

MOEA/D与NSGA-II在多目标优化中的适用性

索旭东

MOEA/D和NSGA-II都是多目标进化算法中的经典代表,但它们解决问题的思路截然不同。简单来说, NSGA-II是基于“支配关系”直接筛选好解,而MOEA/...

15510
领券