放假了,开心一下,Python脚本抓取糗事百科

作者:半瓶墨水   链接:http://www.2maomao.com/blog/python-qiushibaike/

糗事百科 上面很多的糗事,很搞笑啊
比如这个:

3月5日幸运52猜词秀环节
一对夫妻,猜食品名称,老婆比划老公猜。大屏幕上跳出“馒头”一词
老婆描述:圆圆的,白白的,能吃的
老公:…………
老婆继续描述:就是白白的,软软的,你昨晚上还吃来着!
老公看来是急坏了,脱口而出:”mimi!”
李咏都笑趴下了。。。。。

拿Python urllib + Beautiful Soup写了个脚本,下载了前一百页, 2000条,存为txt格式路上拿手机慢慢看。
糗事百科前一百页的zip包在这里:http://www.2maomao.com/files/qiushi.zip

部分代码如下:

outfile = open("qiushi.txt", "w")
count = 0
for i in range(1, 101):
    
url = "http://qiushibaike.com/qiushi/best/all/page/%d" % i
    
data = urllib2.urlopen(url).readlines()
    
soup = BeautifulSoup("".join(data))
    
contents = soup.findAll('div', "content")
    
stories = [str(text) for text in contents]
    
for story in stories:
        ...
outfile.close()

全部代码在这里:http://www.fayaa.com/code/view/15/

一条评论 发表在“放假了,开心一下,Python脚本抓取糗事百科”上

  1. 天黑说道:

    哈哈,谢谢。

留下回复