文章/答案/技术大牛

发布

问对清单进行排序的udf
EN

Stack Overflow用户

提问于 2017-07-03 14:00:41

回答 2查看 4.9K关注 0票数 0

我有一个名为stopped的列是：

+--------------------+
|             stopped|
+--------------------+
|[nintendo, dsi, l...|
|[nintendo, dsi, l...|
|    [xl, honda, 500]|
|[black, swan, green]|
|[black, swan, green]|
|[pin, stripe, sui...|
|  [shooting, braces]|
|      [haus, geltow]|
|[60, cm, electric...|
|  [yamaha, yl1, yl2]|
|[landwirtschaft, ...|
|     [wingbar, 9581]|
|       [gummi, 16mm]|
|[brillen, lupe, c...|
|[man, city, v, ba...|
|[one, plus, one, ...|
|     [kapplocheisen]|
|[tractor, door, m...|
|[pro, nano, flat,...|
|[kaleidoscope, to...|
+--------------------+

我想要创建另一个列，它包含相同的列表，但其中的关键字是有序的。

据我所知，我需要创建一个接收并返回列表的udf：

udf_sort = udf(lambda x: x.sort(), ArrayType(StringType()))
ps_clean.select("*", udf_sort(ps_clean["stopped"])).show(5, False)

我得到了：

+---------+----------+---------------------+------------+--------------------------+--------------------------+-----------------+
|client_id|kw_id     |keyword              |max_click_dt|tokenized                 |stopped                   |<lambda>(stopped)|
+---------+----------+---------------------+------------+--------------------------+--------------------------+-----------------+
|710      |4304414582|nintendo dsi lite new|2017-01-06  |[nintendo, dsi, lite, new]|[nintendo, dsi, lite, new]|null             |
|705      |4304414582|nintendo dsi lite new|2017-03-25  |[nintendo, dsi, lite, new]|[nintendo, dsi, lite, new]|null             |
|707      |647507047 |xl honda 500 s       |2016-10-26  |[xl, honda, 500, s]       |[xl, honda, 500]          |null             |
|710      |26308464  |black swan green     |2016-01-01  |[black, swan, green]      |[black, swan, green]      |null             |
|705      |26308464  |black swan green     |2016-07-13  |[black, swan, green]      |[black, swan, green]      |null             |
+---------+----------+---------------------+------------+--------------------------+--------------------------+-----------------+

为什么不应用排序？

apache-spark

pyspark

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-07-03 15:17:33

x.sort()通常会对列表进行排序(但我怀疑它不会在pyspark中这样做)并返回None。这就是标记为<lambda>(stopped)的列具有所有null值的reaason。sorted(x)将对列表进行排序，并返回一个新的排序副本。因此，将您的udf替换为

udf_sort = udf(lambda x: sorted(x), ArrayType(StringType()))

应该能解决你的问题。

或者，您可以使用内置函数sort_array，而不是定义自己的udf。

from pyspark.sql.functions import sort_array

ps_clean.select("*", sort_array(ps_clean["stopped"])).show(5, False)

这个方法有点简洁，实际上您可以期望获得一些性能上的提高，因为pyspark不需要序列化您的udf。

票数 2

Stack Overflow用户

发布于 2017-07-03 15:15:25

将udf更改为：

udf_sort = udf(lambda x: sorted(x), ArrayType(StringType()))

关于beetwen .sort()和.sorted()的差异，案文如下：

? python

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44887534

复制

相似问题

问对清单进行排序的udf
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对清单进行排序的udfEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对清单进行排序的udf
EN