放假了,开心一下,Python脚本抓取糗事百科

作者:半瓶墨水 链接:http://www.2maomao.com/blog/python-qiushibaike/

糗事百科 上面很多的糗事,很搞笑啊
比如这个:

3月5日幸运52猜词秀环节
一对夫妻,猜食品名称,老婆比划老公猜。大屏幕上跳出“馒头”一词
老婆描述:圆圆的,白白的,能吃的
老公:…………
老婆继续描述:就是白白的,软软的,你昨晚上还吃来着!
老公看来是急坏了,脱口而出:”mimi!”
李咏都笑趴下了。。。。。

拿Python urllib + Beautiful Soup写了个脚本,下载了前一百页, 2000条,存为txt格式路上拿手机慢慢看。
糗事百科前一百页的zip包在这里:http://www.2maomao.com/files/qiushi.zip

部分代码如下:

outfile = open("qiushi.txt", "w")
count = 0
for i in range(1, 101):
    
url = "http://qiushibaike.com/qiushi/best/all/page/%d" % i
    
data = urllib2.urlopen(url).readlines()
    
soup = BeautifulSoup("".join(data))
    
contents = soup.findAll('div', "content")
    
stories = [str(text) for text in contents]
    
for story in stories:
        ...
outfile.close()

全部代码在这里:http://www.fayaa.com/code/view/15/

555,本篇现在一条评论也没有,雁过留声,人过留名,各位乡亲父老,有钱的捧个钱场,没钱的捧个人场......

发表评论

  • :(
  • :)
  • :D
  • :X
  • :^
  • :d
  • :e
  • :h
  • :k
  • :l
  • :p
  • :q
  • :s
  • :v
  • :w
  • :x

注意:评论中需包含至少一个中文字,否则视为无效