首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏多模态视频理解

    模态算法综述

    纵览:视频理解算法经过了手工特征-> CNN -> Two stream ->3D卷积 ->Transformer的一步步演进,不断使模型具有更强的表征能力图片手工特征 -> CNN(Large-scale Transformer自注意力至此视频理解算法演进到了Transformer的自监督网络架构,Transformer有两个优势,(1)更强的网络表征能力,(2)更容易设计自监督的训练任务,从而可以更有效的利用无标注数据 ,同时也更加注重多模态的内容理解。 BLIP采用了判断-生成任务的MED,可以作为单模态编码器,基于图像的文本编码器解码器采用了CapFilt的训练方法,降低噪声图文pair对训练造成的影响图片Mult-streamMult-stream 的网络有如:VLMO(Unifified Vision-Language Pre-Training with Mixture-of-Modality-Experts)本文提出了跨模态注意的融合编码器,MOME

    3.2K30编辑于 2022-07-12
  • 微短剧版权资产链路防御:模态算法比对与下线率突破95%的实践路径

    部署模态特征识别与事前事后联合防御体系 为应对复合型视频攻击,腾讯安全构建了“事前防御+事后保护”的组合型技术解决方案,并配套版权资产管理与交易体系,实现线上化、数字化的高效确权与流转。 事后保护(全网监测与算法比对): 媒体特征指纹技术: 提取视频 DNA 并进行毫秒级数字指纹比对,可有效抵抗重编码、画面裁剪、黑边、横改竖、画面反转、滤镜模糊、混合拼接等复杂视频攻击。 多维AI识别算法: 部署机器学习随机森林算法自动识别侵权;结合 OCR 图片文字预处理检测;应用人脸识别算法评估遮挡与光照特征并输出相似度评分;利用音频频谱识别及声纹转文本技术进行声音比对。 提取最具 ROI 价值的核心业务指标如下: 指标一:效识别与取证可用率(取证精度) 支持 10+ 介质全面识别,支持模态全场景侵权识别,识别准确率高达 99.9%;直通互发打通北京互联网法院,取证可用率高达 打通版权资产生命周期: 提供从微短剧资产多类型入库、合同/确权/采购管理,到链路授权变现(估值定价模型、时长品类定价、算法分析匹配商业撮合)的完整闭环,实现媒体版权资产 100% 线上化与数字化高效管理

    3710编辑于 2026-05-31
  • 来自专栏全栈程序员必看

    排列递归算法_排列递归算法

    大家好,又见面了,我是你们的朋友栈君。 一 排列算法 首先:什么是排列=》百度一下 从n个不同元素中任取m(m≤n)个元素,按照一定的顺序排列起来,叫做从n个不同元素中取出m个元素的一个排列。 当m=n时所有的排列情况叫排列。 公式:排列数f(n)=n!(定义0! =1) 算法:递归算法=》网络上偷了一个图 排列:顺便复习一个数学公式 排列的定义:从n个不同元素中,任取m(m≤n,m与n均为自然数,下同)个元素按照一定的顺序排成一列,叫做从n个不同元素中取出m using namespace std; //交换 void swap(int &a , int &b) { int temp; temp = a; a = b; b = temp; } //排列递归算法 void) { int a[]={1,2,3}; int m=2; Perm(a,0,2); /* 123 132 213 231 321 312 */ } 算法解析思路树解释

    1.5K10编辑于 2022-09-19
  • 来自专栏用户3288143的专栏

    算法排列

    newarr.length; i++) { // System.out.print(newarr[i]+" "); // } // 排列

    63810发布于 2020-12-07
  • 来自专栏cs

    排列算法

    4个数的排列 package com.company; public class Main { static int count=0; public static void main

    96370发布于 2018-04-27
  • 来自专栏乐行僧的博客

    python实现算法排列算法

    arr[i] = arr[j] arr[j] = tmp def show(arr,n): for i in rang(0,n): print(arr[i],'\t',end=' ') //排列部分

    1.1K10编辑于 2022-02-24
  • 来自专栏自然语言处理

    ColQwen-Omni:RAG模态检索来了,支持【文本|图像|视频|音频】四种模态

    视觉语言模型(VLM)的快速发展使得顶尖模型能够处理更多模态的数据。例如,令人惊叹的 Qwen-Omni 系列模型就能够处理音频和视频输入,而不仅仅是图像和文本! 现在,vidore正式推出 ColQwen-Omni (3B) —— 它是 ColQwen2 的扩展,基本上可以嵌入你输入的任何模态的数据! vidore探索了一个纯粹在视觉文档检索数据集上训练的模型,在未接触音频或视频训练数据的情况下,能否有效地将其嵌入能力迁移到其他模态。结果表明:效果还相当不错! vidore的目标还将是改进模型在自然图像和文本检索方面的表现,为实现真正与模态无关的检索器铺平道路!

    85310编辑于 2025-07-19
  • 来自专栏CSDN

    算法兵法

    夫未算而用算法,未析利弊而仓促行事者,败也;算而后动,权衡周全,谋定而施算法者,胜也。多算胜,少算不胜,而况于无算乎?此算法始计之要,不可不察也。 谋攻篇 上乘算法,不战而屈人之兵。 剖析对手算法优劣,查漏补缺;内省己方算法短长,砥砺精修。 战例一:二分查找 二分查找算法者,乃于有序数组中寻特定元素之高效法也。其法初取数组之中位元素,与所求目标值相较。 设调用频次颇高,传入n值种类超maxsize之数(此为128 ),旧缓存虽更替,然更替之法,非遍历量缓存,仅涉局部数据整饬,复杂度仍不离O(1)左右。 非关键赛道,不盲目烧算法资源;难啃硬骨头,暂避锋芒迂回包抄。灵活应变,不拘泥定式,方能在算法江湖游刃有余。 行军篇 行军布阵,算法有章。 把控伦理边界,不涉隐私侵权;防范数据滥用,避免算法失控。善用火攻,为算法霸业添柴加薪,慎用猛火,保算法清誉长治久安。 用间篇 算法江湖,谍影重重。

    33500编辑于 2025-02-09
  • 模态大模型 前沿算法与实战应用

    模态大模型:前沿算法原理与流程实战应用随着人工智能从单一感知向通用认知的维度跃迁,多模态大模型正以前所未有的速度重塑着数字世界的图景。 当图像、视频、音频与文本在统一的语义空间中自由流转,掌握前沿算法原理与流程实战应用能力,已成为连接未来智能时代的必由之路。这一变革浪潮,深刻映射出教育、科技、人文与经济四重维度的深层逻辑。 然而,多模态大模型的兴起,彻底粉碎了这一学科壁垒。教育变革的重心正向“模态”融合转移。未来的教育不再局限于单一信号的处理技巧,而是侧重于培养理解跨模态对齐、融合编码与联合训练的复合型人才。 单模态模型如同蒙眼听音,难以构建对真实世界的完整认知;而多模态大模型则让机器拥有了“眼睛”与“耳朵”,实现了感知智能向认知智能的质变。在科技维度上,前沿算法原理的突破解决了异构数据难以对齐的难题。 对于开发者与产业界而言,深入钻研前沿算法原理,躬身投入流程实战应用,不仅是紧跟技术潮流的选择,更是拥抱未来智能社会的必由之路。在这场从“读懂文字”到“看懂世界”的征途中,唯有躬身入局,方能不负时代。

    46110编辑于 2026-03-23
  • 来自专栏人工智能领域

    解锁DeepSeek多模态:从原理到实战解析(318)

    文章首先介绍了图文跨模态对齐技术的原理,展示了如何通过先进的模型架构和算法实现文本与图像之间的高效对齐,从而为多模态理解奠定基础。 最后,文章通过一个实际案例,详细介绍了如何搭建多模态检索系统,包括数据预处理、特征提取与融合,以及检索算法的优化。 在检索算法方面,采用更高效的索引结构和搜索算法,如基于哈希表的快速检索算法,能够大大提高检索速度,减少响应时间,从而提升系统的整体性能。 如果您对[解锁DeepSeek多模态:从原理到实战解析(3/18)]有更深入的兴趣或疑问,欢迎继续关注相关领域的最新动态,或与我们进一步交流和讨论。 让我们共同期待[解锁DeepSeek多模态:从原理到实战解析]在未来的发展历程中,能够带来更多的惊喜和突破。 再次感谢,祝您拥有美好的一天!

    2.5K51编辑于 2025-02-15
  • 超级应用(Super App)竞逐:模态输出 + 小应用生成

    模态输出:重构超级应用交互与服务闭环 模态输出并非简单的多格式内容展示,而是基于原生统一架构,将文本、图像、语音、视频、3D模型、传感器数据等多种模态信息映射到同一语义空间,实现“理解-处理-生成” 在消费场景中,模态能力实现了需求与服务的精准对接。 在企业服务领域,模态融合推动效率革命。 这些应用表明,模态输出通过消除工具切换与信息转换的冗余成本,正在重塑超级应用的服务能力边界。 链路流程图:从用户输入到小应用生成 以下Mermaid流程图描绘了超级应用中“用户输入-模态响应-小应用生成”的完整链路,涵盖多模态理解、意图解析、模板匹配、渲染发布等关键环节: 该链路实现了“需求

    47010编辑于 2026-01-23
  • 来自专栏机器学习与统计学

    模态大模型部署,vLLM-Omni 来了,100%开源

    ,尤其是最近 N 多模态大模型,vLLM 就有点捉襟见肘了 vllm-project 团队开源了一个新框架——vLLM-Omni https://github.com/vllm-project/vllm-omni 然而,随着需求演进,vLLM-Omni 将其能力扩展到了更广阔的领域: • 模态支持:它不仅能处理文本,还支持图像、视频和音频数据。 vLLM-Omni 和 Hugging Face Transformers 对比,展示了在模态服务中的效率提升。 vLLM-Omni 是首批支持模态模型服务的开源框架之一,它将 vLLM 卓越的性能扩展到了多模态和非自回归推理的世界。 vllm-omni/blob/main/examples/online_serving/text_to_image/gradio_demo.py 最后,官方还提供了一系列实用教程,涉及文生图、图生图、模态等等

    2.5K10编辑于 2026-01-05
  • 来自专栏DrugOne

    . | 多模态病理视野基础模型

    研究人员提出了TITAN,一种基于Transformer架构的多模态病理基础模型,可在视野切片(Whole-Slide Image, WSI)上实现图像–文本语义对齐与跨任务迁移。 然而在病理学领域,因数据来源、标注质量及模态差异(图像与文本)的限制,构建统一多模态模型极具挑战。 方法概述 TITAN 采用两阶段训练架构: 多模态自监督预训练阶段 收集超过2100万张WSI,涵盖26个器官系统与300余种疾病类型。 每张切片与对应病理报告文本配对,进行跨模态对比学习。 图1:TITAN 模型总体架构与多模态对齐流程 结果 多模态预训练的语义对齐能力 TITAN通过图像–文本自监督学习,形成了高度可解释的多层病理语义空间。 研究人员认为,TITAN 不仅推动了病理智能化的发展,也为多模态医学基础模型的跨领域应用奠定了范式基础。

    43910编辑于 2025-11-17
  • 来自专栏AI科技时讯

    图像凹凸算法(代码

    www.opencv.org.cn/opencvdoc/2.3.2/html/doc/tutorials/imgproc/imgtrans/warp_affine/warp_affine.html 3、PhotoShop算法实现高级篇

    1.9K20发布于 2020-11-19
  • 来自专栏Unity3D

    ☆打卡算法☆LeetCode 46、排列 算法解析

    一、题目 1、算法题目 “给定一个不含重复数字的数组,返回所有可能的排列。” 题目链接: 来源:力扣(LeetCode) 链接:46. 排列 - 力扣(LeetCode) (leetcode-cn.com) 2、题目描述 给定一个不含重复数字的数组 nums ,返回其 所有可能的排列 。你可以 按任意顺序 返回答案。 回溯法:一种通过探索所有可能的候选解来找出所有的解的算法,如果候选解被确定不是一个解,或者至少不是最后一个解,回溯算法会通过在上一步进行一些变化抛弃该解,即回溯并且再次尝试。 这道题,可以排列每一种组合,很直接就可以想到穷举的算法,即从左到右每个元素都取出进行组合。 三、总结 这类题目都是同一类型的,用回溯算法! 其实回溯算法关键在于:不合适就退回上一步 然后通过约束条件, 减少时间复杂度。

    47230编辑于 2022-08-07
  • 来自专栏用户3029758的专栏

    排序算法代码实现

    声明:本文为原创,作者为 对弈,转载时请保留本声明及附带文章链接:http://www.duiyi.xyz/c%e5%ae%9e%e7%8e%b0%e9%9b%b7%e9%9c%86%e6%88%98%e6%9c%ba-45/

    58510发布于 2019-09-04
  • 来自专栏CSDN

    算法兵法略(译文)

    所以,立志钻研算法的人,一开始就得考察五件关键的事,通过仔细比对谋划,来探寻其中的门道。 第一项是 “算力”,它是算法运行的硬件基础。 “架构” 是第四关键要素,它是对算法进行整体规划布局的精妙手段。有的架构设计得精巧细致,有的则气势恢宏,只有架构足够稳固,才能承载算法里繁杂的各种细则,让算法顺利运作。 剖析对手算法的优劣之处,查漏补缺;自我反省己方算法的长短处,不断磨砺提升。 不是关键赛道,就别盲目投入算法资源;碰上难啃的硬骨头,就暂时避开锋芒,迂回包抄。灵活应变,不拘泥于固定模式,才能在算法江湖里游刃有余。 行军篇 行军布阵,算法也有章法。 要把控好伦理边界,不涉及隐私侵权问题;防范数据滥用,避免算法失控。善于用火攻,能为算法霸业添砖加瓦,谨慎用猛火,才能保住算法的良好声誉,长治久安。 用间篇 在算法的江湖里,谍影重重。

    46900编辑于 2025-02-09
  • 来自专栏腾讯开源的专栏

    开源公告|多模态内容理解算法框架Lichee开源

    导语 Lichee是一个多模态内容理解算法框架项目,其中包含数据增强、预训练引擎、常见模型以及推理加速等模块。由腾讯看点内容算法研发中心研发。 此外,为QQ浏览器2021AI算法大赛-多模态视频相似度赛道提供baseline模型及代码。现将Lichee对外开源,为微服务开源社区贡献力量。 主要设计目标 1.

    1.1K20发布于 2021-10-26
  • 来自专栏机器之心

    「听觉」引导「视觉」,OmniAgent开启模态主动感知新范式

    针对端到端模态大模型(OmniLLMs)在跨模态对齐和细粒度理解上的痛点,浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。 :https://kd-tao.github.io/OmniAgent 发起实验室ENCODE LAB:https://westlake-encode-lab.github.io/ 背景与痛点 端到端模态模型虽然实现了视听统一 ,但往往受限于高昂的训练成本和困难的跨模态特征对齐,导致在细粒度跨模态理解上表现不佳; 基于固定 Workflow 的智能体依赖人为设定僵化的流程,缺乏细粒度和灵活性,无法根据问题自主的进行规划与信息获取 未来愿景 OmniAgent 的设计理念有很高的扩展性,能够继续结合其他模态的工具; OmniAgent 能够帮助生成高质量的 COTT 数据,用来构建可以自我调用工具的下一代智能体模态模型。 总的来看,OmniAgent 证明了在模态理解任务中,音频引导的的主动感知策略是解决跨模态对齐困难、提升细粒度推理能力的有效路径。该工作为未来的模态 Agent 算法设计提供了新的范式参考。

    33410编辑于 2026-01-12
  • 来自专栏Unity3D

    ☆打卡算法☆LeetCode 47、排列II 算法解析

    一、题目 1、算法题目 “给定一个可以包含重复数字的序列,按任意顺序返回所有不重复的排列” 题目链接: 来源:力扣(LeetCode) 链接:47. 排列 II - 力扣(LeetCode) (leetcode-cn.com) 2、题目描述 给定一个可包含重复数字的序列 nums ,按任意顺序 返回所有不重复的排列。 ] 示例 2: 输入: nums = [1,2,3] 输出: [[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]] 二、解题 1、思路分析 这个题是上一题排列的进阶 ,序列中包含了重复的数字,要求返回不重复的排序,当然还可以使用回溯法来解题。

    48930编辑于 2022-08-07
领券