#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2
#import re
from BeautifulSoup import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request('https://www.sikayetvar.com/onedio',
None,headers)
resp = urllib2.urlopen(req)
html = resp.read()
soup = BeautifulSoup(html)
complaints = soup.findAll('p', attrs = {'class' : 'complaint-summary'})
for complaint in complaints:
if complaint.text.find("genç") is not -1:
print complaint.text我想过滤某些网站上有特定单词的投诉,但我无法搜索其中包含nonascii字符的单词。我用的是python2.7和漂亮的汤。知道为什么会这样吗?
发布于 2018-08-16 14:14:10
如果您的测试在p标记内,YouTube应该将od语句更改为
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2
from BeautifulSoup import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request('https://www.sikayetvar.com/onedio',
None,headers)
resp = urllib2.urlopen(req)
html = resp.read()
soup = BeautifulSoup(html)
complaints = soup.findAll('p', attrs = {'class' : 'complaint-summary'})
for complaint in complaints:
if b"genç".decode("utf-8") in complaint.text:
print(complaint.text)发布于 2018-08-16 17:13:33
请勿使用python2。他们将在未来几年停止对它的支持。
import requests
from bs4 import BeautifulSoup
response = requests.get('https://www.sikayetvar.com/onedio',headers = {'User-Agent': 'Mozilla/5.0'})
soup = BeautifulSoup(response.content,'lxml')
complaints = soup.select('p.complaint-summary')
for complaint in complaints:
if "genç" in complaint.text:
print(complaint.text.strip())输出将是
Ne yazık ki bir sosyal sitede ahlak dışı içerikli haberler durulmuyor. Çocuk ve gençler için sakıncalı olduğunu düşünüyorum. Fotoğraflarda saçma başlıkları görebilirsiniz. Başlıklardan anlaşılacağı üzere cinsel…https://stackoverflow.com/questions/51870338
复制相似问题