介绍 >ZINC数据库,虚拟筛选必备数据库之一。分为ZINC12和ZINC15,这次以ZINC15版为例进行介绍。这是一个免费的商业化合物虚拟筛选数据库。 ZINC包含超过7.5亿种可购买的化合物,其中,2.3亿化合物是即下即用的3D格式文件。ZINC由加州大学旧金山分校(UCSF)药物化学系的Irwin和Shoichet实验室提供和维护支持。 网址:http://zinc15.docking.org/ 看法: >根据上面所述,ZINC是一个优秀的虚拟筛选化合物库,其主要是商家化合物库的集合,这样就在一定程度上避免了药物无法购买的状况。 所以,这次主要讲讲如何下载ZINC的化合物库,其余功能有时间再更新。 (1)这是ZINC15的主界面 ? (2)点击红框里面的Tranches ? 需要注意的大体上是这三个按钮 ? \ZINC-downloader-2D-smi_test.ps1 然后开始下载 ?
知道Zinc这个词儿的,岁数应该不小了 Zinc是PSA公司在1997年的产品,于1999年被Wind River收购。 大概在二零零几年的时候,PSA又独立出去了,随即Wind River在2009年又收购了Tilcon Zinc是一个与平台无关的面向对象的GUI框架,通过交叉开发给用户提供图形接口。 在Host端,Zinc提供了一个Designer工具,可以用来设计图形界面,添加事件响应,模拟UI运行。而最后生成的工程文件,可以在Target端被Zinc的运行库直接使用 ? 因此Zinc支持的VxWorks版本是5.4- 6.9 Zinc的运行库有以下特点 内存占用少,最低只用350KB 硬件无耦合,易于移植 高度可定制控件 直观完整的C++ API 强大的事件路由 丰富的模型框架 可视化设计工具 全国际化支持 多线程支持 Zinc已经集成了大量的控件,例如以下这些,用户也可以很方便的进行自定义 普通窗口、对话窗口、滚动窗口、子窗口、消息窗口 水平/垂直分割条、组合框、滚动条 工具栏
项目介绍 Zinc 是一个轻量级替代 Elasticsearch 的开源搜索引擎。 Zinc,拥有完全兼容 Elasticsearch 的 APIs,同时自带 UI 用来替代 Elasticsearch 系列的 Kibana。 Zinc 使用 Go 开发,只需要一个二进制包就能直接启动使用,在安装和使用都比 Elasticsearch 要简单很多,同时资源的消耗也比 Elasticsearch 低得多。 以下是官方介绍视频: 功能 现在 Zinc 功能上基本是开箱即用。 未来 Zinc 会在高可用、高性能上做相应的增强。
Extractable zinc at soil depths of 0-20 cm and 20-50 cm, predicted mean and standard deviation. ") Resolution 30 meters Bands Table Name Description Min Max Units mean_0_20 Zinc, extractable, predicted mean at 0-20 cm depth 1 32 ppm mean_20_50 Zinc, extractable, predicted mean at 20-50 cm depth 0 31 ppm stdev_0_20 Zinc, extractable, standard deviation at 0-20 cm depth 0 11 ppm stdev_20_50 Zinc, extractable , 20-50 cm"); Map.addLayer( raw.select(2).sldStyle(stdev_0_20), {}, "Zinc, extractable, stdev
Zinc 是 ZincSearch 的下一代私人搜索引擎,可为混乱带来秩序,使组织能够快速有效地查询其数据集并提取可操作的洞察力。 Zinc 通过一个没有依赖关系的单一二进制可执行文件在两分钟内部署到服务器或笔记本电脑上。 Zinc 建立在 Go 和 VueJS 的现代技术栈之上,允许通过快速迭代进行快速开发,操作简单,用户资源利用率低。与竞争对手相比,Zinc的资源需求也低得多。 Zinc 支持对象存储作为分布式搜索的主要存储方式。 Zinc 现在仍是一个早期的初创项目,但 Prabhat Sharma 有很大的计划,他说到:“Zinc 目前仍处于 alpha 阶段,但我计划在三到六个月内发布可用版本,并很有可能在年底前提供云服务”
block p-3 border-2 border-black rounded" htmlFor="name"> <span class="text-md font-semibold text-<em>zinc</em>
EC₅₀(cAMP) = 2.3 nM 18 nM >10,000 倍 全激动剂 ZINC465129598 EC₅₀ = 24 nM 80 nM >100 倍 全激动剂 ZINC270269326 EC₅₀ = 17 nM ~500 nM >10,000 倍 部分激动剂 ZINC464771011 EC₅₀ = 10 nM 140 nM >10,000 倍 拮抗剂 ZINC413570733 IC₅₀ = 5.9 μM 130 nM — 拮抗剂 ZINC130532671 IC₅₀ = 10.8 μM 320 nM — β-arrestin 偏向激动剂 ZINC615622500 无 Gᵢ 活性 150 nM — 4.5 明星化合物:ZINC621433144(180 pM D4 全激动剂) ZINC621433143 最初作为非对映体混合物测试,EC₅₀(cAMP) = 2.3 nM。 (3R,4S) 0.18 nM 17 → G蛋白偏向 ZINC361131264 另一构型 — 26 → G蛋白偏向 ZINC361131265 另一构型 — 11 → G蛋白偏向 ZINC621433143
NuxtLink :href="props.href" :target="props.target" class="font-bold border-b-2 border-dashed border-zinc -600 hover:border-solid hover:border-zinc-900 dark:border-zinc-300 dark:hover:border-zinc-100"> <slot ,颜色相关的我放在了其他地方管理,比如 assets/tailwind.css:/* 针对page的prose颜色配置 */.mdc-page-prose { @apply prose prose-zinc prose-pre:bg-gray-100 dark:prose-pre:bg-zinc-400 dark:text-zinc-200 dark:prose-strong:text-zinc-200 prose-code:bg-zinc-200 dark:prose-code:bg-zinc-200 prose-code:text-zinc-800 dark:prose-blockquote:text-zinc
ZINC数据集; 2. ZINC数据集的变体数据集,增加了DrugBank数据库中的分子,称为ZINC+DrugBank。 两个数据集中随机选择了部分分子进行可视化,见图4。 图4 从ZINC(A)和DrugBank(B)中随机选择的分子的2D图可视化。使用RDKit进行可视化。 在ZINC数据集上训练,进行FragVAE+DEL实验; 2. 在ZINC+DrugBank数据集上训练,进行FragVAE+DEL实验; 3. 在ZINC数据集上训练,进行JTVAE+DEL实验; 4. 在ZINC+DrugBank数据集上训练,进行JTVAE+DEL实验。 分别从基于ZINC和ZINC+DrugBank数据上训练的FragVAE+DEL中检索到89和99个分子;图7、8所示的ZINC和ZINC+DrugBank数据集上预测的结果,对JTVAE+DEL的94
import pandas food_info = pandas.read_csv("food_info.csv") columns = ["Zinc_(mg)", "Copper_(mg)"] zinc_copper = food_info[columns] # 跳过变量数组赋值 zinc_copper = food_info[["Zinc_(mg)", "Copper_(mg)"]] print(zinc_copper
virtualscreening.csv", header = T) vs <- subset(vs, select = c("Ligand" , "Binding.Energy")) names(vs)[1] <- 'zinc_id ' comdata <- merge(vs, data_rule, by="<em>zinc</em>_id") write.csv(comdata, file = "comdata.csv")
实验使用了 ZINC250K、MOSES、GuacaMol、Polymer、SuperNatural3 等数据集,结果显示 FRATTVAE 在重建精度、FCD 等指标上超越现有方法,能高效处理大型复杂分子 性能验证:从基准测试到实际应用 在五个代表性数据集(ZINC250K、MOSES、GuacaMol、Polymer、SuperNatural3)上的测试表明,FRATTVAE在关键指标上全面超越现有模型 图 2a 为单条件生成的分子性质分布,红色代表训练数据集 ZINC250K 的分布,尽管 ZINC250K 的化合物性质范围有限,条件生成存在挑战,但总体上能按条件生成分子,还能生成该数据集中不常见的大分子量和低 属性优化与定向生成:在ZINC250K的PlogP优化任务中,FRATTVAE生成分子的PlogP值达16-17,C-FRATTVAE更达20-21,远超PSVAE(5-9)和MoLeR(8-9)。 该表比较了 FRATTVAE 与基于图的基线模型在 ZINC250K、MOSES 和 Polymer 数据集上的预处理、训练和采样速度(毫秒 / 分子)。
ZINC20 新增数十亿分子 AlphaFold2 给药物研发带来的革命性变化不言而喻:AlphaFold2 能低成本预测疾病相关的蛋白质结构,进而通过药物重定位、虚拟筛选等方法寻找这些疾病的潜在药物。 ZINC 是一个汇总了化合物相关信息的公开数据库,是支持 2D、3D 化合物分子形式下载以及可进行快速分子查找、类似物搜索的服务网站,其分子量已经目前增长到近 20 亿,其中可购买的 13 亿化合物来自于 ZINC20 (zinc20.docking.org) 新增百亿个按需定制化合物 (暂未添加到 ZINC 库中),这些化合物在骨架和分子多样性上都明显优于物理筛选数据库。 ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery [J].
语言模型可以准确生成:ZINC15数据集中惩罚 LogP得分最高分子的分布、PubChem数据集中多模态分子及最大分子的分布。 图1 生成建模任务 对比标准数据集Zinc和Moses,表1统计了所有数据集中的原子数和环数。所有任务都涉及具有更多子结构的更大分子,并且每个分子包含更大范围的原子数和环数。 作者在ZINC数据库中筛选惩罚LogP值超过 4.0 的分子构建训练数据集。 结果如图2所示。图2a中,SF-RNN产生的分布与训练分布更接近。 图3 惩罚LogP任务结果II 多分布任务 作者通过组合以下子集创建了一个数据集:(1) 分子量 (MW) ≤ 185的GDB13分子,(2) 185 ≤ MW ≤ 425的ZINC分子,(3) 哈佛清洁能源项目 JTVAE未能学习到GDB13的分布,对ZINC和CEP的学习也很差。同样,CGVAE学习到了GDB13的分布,但低估了ZINC的分布,未能学习到CEP的分布。
智能体,SBMolGen中用于输出分子的智能体是基于循环神经网络的深度学习模型ChemTS,该模型首先在ZINC 250K数据集上进行训练,掌握了输出SMILES式的能力;2. 因此,作者采用ISOMAP算法将SBMolGen生成的分子以及起初用于训练SBMolGen的ZINC 250K中分子的分子指纹压缩至二维空间进行可视化(图5)。 可以发现,SBMolGen所设计的分子所处的化学空间要超出ZINC 250K的分子所处的化学空间。这说明SBMolGen具有探索能力,而不是仅仅“记住”训练集中分子的特征。 图5、采用ISOMAP对ZINC 250K数据集分子(灰色)以及SBMolGen设计分子(彩色)进行可视化。颜色用于区分SBMolGen在经过不同的探索时间后的输出结果。 (其中一部分情况下SBMolGen设计的分子未收敛,与ZINC 250K数据集分子无显著区别) 图6、设计的分子与已知活性的分子相似性分布。第一行为分子整体水平相似性,第二行为分子母核结构相似性。
logP使用在JT-VAE模型中的惩罚公式,即对于分子m而言,惩罚logP表示为logP(m)-SA(m),训练数据从ZINC数据集上提取,而DRD2任务使用随机森林分类算法在ECFP分子指纹上训练,活性数据从 X和Y集ZINC-250K的随机样本,其中化合物的惩罚logP值分别低于中位数和高于中位数。 (3)任务三:不受约束的分子优化 对惩罚logP执行不受约束的优化。 X是来自ZINC-250K的随机样本,Y是来自ZINC-250K中具有最高logP的前20%分子的随机样本。 为了确认生成的分子与起始分子接近,作者在下图中生成了ZINC-250K数据集中起始分子与随机分子之间的Tanimoto相似性分布。 ?
因此,对于训练和大规模评价,作者使用ZINC和CASF(Comparative Assessment of ScoringFunctions)两个数据集,构建了片段-分子对。 表1.结构信息对生成环取代位置的影响 3.2 ZINC上的有效性 作者在ZINC数据集上评估了生成方法,该数据集由400对片段组成。 对于ZINC测试集的评估,连接体中的原子数被设置为等于原始分子的连接体长度。 这使得评估所提出的两种方法是否能够产生具有所需的二维化学性质和高三维结构相似性的分子更加容易。 DeLinker模型与数据库搜索方法在ZINC与CASF数据集上的2D性能度量 ? 两种方法都表明,产生3D相似的分子对CASF集来说比ZINC集更具挑战性。两种可能的解释是较低的分子相似性和在评估中使用实验确定的结构。
ZINC(http://zinc.docking.org/),这里就不介绍了,你要是能从上面的数据库下载到你配体小分子的mol2格式文件,就直接用,如果不能,那就是去PubChem数据库(https:/
This script will automatically download and setup all necessary build requirements (Maven, Scala, and Zinc It honors any mvn binary if present already, however, will pull down its own copy of Scala and Zinc regardless
MGCVAE 模型的架构 数据集 该研究从 ZINC 数据库中选择了 1363452 个具有 16 个或更少原子(节点)的分子,如图 3所示。 除此之外,该研究还从 ZINC 数据库中收集了适合图形生成的分子(例如,没有'+'、'-'和'.'的 SMILES)。 图3. ZINC 数据集中包含的分子的 ClogP 和 CMR 直方图以及分子的相关信息 根据 Lipinski's rule of five(RO5),本文将两个优化目标确认为生成ClogP 在 0-3 之间 使用PCA对ZINC数据集和生成分子的MACCS和Morgan分子指纹分别进行二维可视化。 以 ZINC 为基准,数据数量越大,颜色越深 模型性能评估 在特定数据集上训练的模型,其生成的分子化学空间是有限的。