博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取猫眼TOP100电影
阅读量:5158 次
发布时间:2019-06-13

本文共 1589 字,大约阅读时间需要 5 分钟。

import jsonimport reimport requestsfrom requests import RequestExceptionfrom  multiprocessing import Pool #引入进程池def get_page(url):#获取网页    try:        headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'} response=requests.get(url,headers=headers) if response.status_code==200: return response.text return None except RequestException: return Nonedef parse_one_page(html):#正则表达式提取 pattern=re.compile('
.*?board-index.*?">(\d+?).*?title="(.*?)".*?
.*?"star">(.*?)

.*?"releasetime">(.*?)

.*?integer">(.*?)' '.*?fraction">(\d+?).*?
',re.S) items=re.findall(pattern,html) for item in items: yield { '排名:':item[0], '电影:':item[1], '图片:':item[2], '主演:':item[3].strip()[3:], '上映时间:':item[4].strip()[5:], '评分:':item[5]+item[6] }def write_file(content):#写入文件 with open('movie.txt','a',encoding='utf-8') as f:#以utf-8编码新建 f.write(json.dumps(content,ensure_ascii=False)+'\n')#不转为unicode编码def main(page): url='http://maoyan.com/board/4' html=get_page(url=url+'?offset='+str(page*10)) # print(html) items=parse_one_page(html) for item in items: write_file(item)if __name__ == '__main__': #单进程 ''' for i in range(10): main(i) ''' #多进程 pool=Pool() pool.map(main,[i for i in range(10)])

 

转载于:https://www.cnblogs.com/ceshixuexi/p/7923094.html

你可能感兴趣的文章
《avascript 高级程序设计(第三版)》 ---第二章 在HTML中使用Javascript
查看>>
Hibernate主键生成策略
查看>>
Crushing Machinery - Strong Support of Cement Enterprise
查看>>
AsyncTask
查看>>
Django框架(十九)—— drf:序列化组件(serializer)
查看>>
JS一些概念知识及参考链接
查看>>
关于JS中&&和||用法技巧
查看>>
suoi14 子树查找 (dfs)
查看>>
正则替换 php js
查看>>
2018.12.17断点调试,js引入,变量定义,三种弹出框,数据类型,数据类型转换
查看>>
python 全栈开发,Day34(基于UDP协议的socket)
查看>>
GIS在石油行业中的应用
查看>>
Android流量统计
查看>>
iOS UIScrollview 和侧滑手势冲突解决方法
查看>>
实验四+087+饶慧敏
查看>>
python基本操作之列表,元组,string字符串
查看>>
Spring Boot热部署 学习笔记
查看>>
Android之Adapter用法总结
查看>>
CF1106F Lunar New Year and a Recursive Sequence
查看>>
<iframe> 标签 中 src 的三种形式. display , echart
查看>>