我是Alteryx的新手,我正在尝试使用它来分析非结构化数据。我有一列文字形式的描述,我打算使用K均值聚类工具进行主题建模。对于处理文本的K-方法,我需要将文本转换为文档术语矩阵(,DTM),以便它们作为连续变量出现在集群工具中。然而,我正在努力寻找一种方法,我可以把我的文本转换为一个DTM。
有人知道怎么做吗?我目前正在看R工具,但不完全确定如何开始也。希望在座的各位专家能帮助我!
我看过关于文本分析的文章,发现大多数都回到了。但是,我希望避免使用宏(不限于每月有限的可伸缩性运行),而是使用Alteryx中可用的工具。
感谢大家的提前!
发布于 2018-10-01 15:35:22
由于Alteryx更像是一个简单的拖放工作流,在这里解释并不简单,但是我已经创建了以下工作流,并将实际工作流本身包含在Alteryx论坛这里中。该工作流使用就职演讲中的术语频率,但应适用于任何文档集合。它只是根据不同的非数字字符分割单词并进行总结。这就是工作流的样子:

https://stackoverflow.com/questions/52587708
复制相似问题