<div data-feature-name="title">
<h1 id="title">
Give and Take: A Revolutionary Approach to Success
</h1>
<span class="author" font-size: 13px; line-height: 17.328125px;" >
Adam M. Grant Ph.D.
</span>
</div>
<div data-feature-name="averageCustomerReviews">
<a href="/Give-Take-Revolutionary-Approach-Success/product-reviews/0670026557/ref=dp_top_cm_cr_acr_txt?showViewpoints=1" >
183 customer reviews
</a>
</div>
<div>
<ul>
<li>
<span>
<span>Kindle</span>
<span>
<span>$11.99</span>
</span>
</span >
</li>
<li>
<span>
<span>Hardcover</span>
<span>
<span>$16.50</span>
</span>
</span>
</li>
<li>
<span>
<span>Paperback</span>
<span>
<span>$12.65</span>
</span>
</span>
</li>
<li>
<span>
<span>Audible</span>
<span>
<span>
$23.95
</span>
</span>
</span>
</li>
</ul>
</div> 如何编写REGEX表达式来提取以下内容:书名、作者和书评数量。
另外,我该如何为此编写roadrunner算法呢?
发布于 2013-12-11 22:48:38
您不应该使用regex来提取html。使用一个库来遍历xml/html。
发布于 2013-12-11 22:57:11
您不能出于一般目的来解析HTML。
但是,如果您打算解析特定的站点(如果您正在编写特定的爬虫程序),则可以尝试执行以下操作
对于标题:
/id="title"[^>]*>([^<]*?)<\/h1>/
对于作者:
/class="author"[^>]*>([^<]*)</
对于审阅编号:
/(\d+)\s*customer review/
当然,许多情况下都会破坏它们。如果您想要处理这些情况,那么您确实需要一个解析器
https://stackoverflow.com/questions/20522142
复制相似问题