放假了,开心一下,Python脚本抓取糗事百科
作者:半瓶墨水 链接:http://www.2maomao.com/blog/python-qiushibaike/
糗事百科 上面很多的糗事,很搞笑啊
比如这个:
3月5日幸运52猜词秀环节
一对夫妻,猜食品名称,老婆比划老公猜。大屏幕上跳出“馒头”一词
老婆描述:圆圆的,白白的,能吃的
老公:…………
老婆继续描述:就是白白的,软软的,你昨晚上还吃来着!
老公看来是急坏了,脱口而出:”mimi!”
李咏都笑趴下了。。。。。
拿Python urllib + Beautiful Soup写了个脚本,下载了前一百页, 2000条,存为txt格式路上拿手机慢慢看。
糗事百科前一百页的zip包在这里:http://www.2maomao.com/files/qiushi.zip
部分代码如下:
outfile = open("qiushi.txt", "w")
count = 0
for i in range(1, 101):
url = "http://qiushibaike.com/qiushi/best/all/page/%d" % i
data = urllib2.urlopen(url).readlines()
soup = BeautifulSoup("".join(data))
contents = soup.findAll('div', "content")
stories = [str(text) for text in contents]
for story in stories:
...
outfile.close()
count = 0
for i in range(1, 101):
url = "http://qiushibaike.com/qiushi/best/all/page/%d" % i
data = urllib2.urlopen(url).readlines()
soup = BeautifulSoup("".join(data))
contents = soup.findAll('div', "content")
stories = [str(text) for text in contents]
for story in stories:
...
outfile.close()


