全面综合、开箱即用的 NLP 能力
本演示将介绍如何创建信息抽取流水线,重点使用 spaCy NLP 库和 Prodigy 标注工具,但所讨论的原则也适用于其他框架。
Hugging Face Hub 托管基于 Git 的仓库,这些仓库是存储空间,可以包含所有文件。这些仓库具有多种优势:版本控制(提交历史和差异)、分支、有关其...
这是一个上下文感知、可插拔且可定制的PII(个人敏感信息)去标识化服务,适用于文本和图像。
根据五部门近期发布的《互联网信息内容多渠道分发服务管理规定》,AI内容服务提供将进入合规化时代。在此背景下,主流模型的技术演进呈现两极分化:
spaCy v2.2 带来了重新训练的统计模型,修复了错误并提升了对小写文本的处理性能。为了解决训练数据与实际数据在大小写和格式上的差异问题,开发了新的数据增强...
如果所有数据都是干净、纯文本的,NLP和数据科学就会变得非常简单。但在实践中,大量数据被隐藏在PDF、Word文档、扫描件及其他难以处理的格式中。本演讲将介绍一...
本周我们欢迎 Ines Montani(@_inesmontani)成为我们的“本周Python开发者”!Ines 是 Explosion AI 的创始人,也是...
我很高兴宣布spaCy 1.0发布,这是世界上最快的NLP库。1.0版本最出色的部分是一个用于将自定义模型集成到spaPy中的新系统。本文将介绍这些变化,并展示...