文章/答案/技术大牛

发布

社区首页 >问答首页 >如何编写REGEX从HTML中提取信息

问如何编写REGEX从HTML中提取信息
EN

Stack Overflow用户

提问于 2013-12-11 22:46:15

回答 2查看 77关注 0票数 0

<div data-feature-name="title">
    <h1 id="title">
        Give and Take: A Revolutionary Approach to Success
    </h1>

    <span class="author" font-size: 13px; line-height: 17.328125px;" >
    Adam M. Grant Ph.D.
    </span>
</div>

<div data-feature-name="averageCustomerReviews">
    <a href="/Give-Take-Revolutionary-Approach-Success/product-reviews/0670026557/ref=dp_top_cm_cr_acr_txt?showViewpoints=1" >
        183 customer reviews
    </a>
</div>

<div>
    <ul>
        <li>
            <span>
                <span>Kindle</span>
                <span>
                    <span>$11.99</span>
                </span>
            </span >
        </li>

        <li>
            <span>
                <span>Hardcover</span>
                <span>
                    <span>$16.50</span>
                </span>
            </span>
        </li>

        <li>
            <span>
                <span>Paperback</span>
                <span>
                    <span>$12.65</span>
                </span>
            </span>
        </li>

        <li>
            <span>
                <span>Audible</span>
                <span>
                    <span>
                        $23.95
                    </span>
                </span>
            </span>
        </li>
    </ul>
</div>

如何编写REGEX表达式来提取以下内容:书名、作者和书评数量。

另外，我该如何为此编写roadrunner算法呢？

html

regex

回答 2

Stack Overflow用户

发布于 2013-12-11 22:48:38

您不应该使用regex来提取html。使用一个库来遍历xml/html。

票数 0

Stack Overflow用户

发布于 2013-12-11 22:57:11

您不能出于一般目的来解析HTML。

但是，如果您打算解析特定的站点(如果您正在编写特定的爬虫程序)，则可以尝试执行以下操作

对于标题：

/id="title"[^>]*>([^<]*?)<\/h1>/

对于作者：

/class="author"[^>]*>([^<]*)</

对于审阅编号：

/(\d+)\s*customer review/

当然，许多情况下都会破坏它们。如果您想要处理这些情况，那么您确实需要一个解析器

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/20522142

复制

相似问题

问如何编写REGEX从HTML中提取信息
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何编写REGEX从HTML中提取信息EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何编写REGEX从HTML中提取信息
EN