博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫Day2:爬取豆瓣电影信息top250
阅读量:4949 次
发布时间:2019-06-11

本文共 2986 字,大约阅读时间需要 9 分钟。

'''爬取豆瓣电影信息    电影排名、电影url、电影名称    电影导演、电影主演、电影年份/类型    电影评分、电影评论、电影简介分析所有主页的url'''import requestsimport re# 爬虫三部曲# 1.发送请求def get_page(url):    response = requests.get(url)    # print(response.text)    return response# 2.解析数据def parse_index(html):   movie_list = re.findall('
.*?
(.*?).*?
.*?(.*?).*?导演:(.*?)主演:(.*?)
(.*?)

.*?(.*?).*?(.*?)人评价.*?(.*?)',html,re.S) return movie_list# 3.保存数据def save_data(movie): top , m_url, name,daoyan,actor,year_type,point,commit,desc = movie year_type = year_type.strip('\n') data = ''' ==========欢迎观赏========== 电影排名:{} 电影url:{} 电影名称:{} 电影导演:{} 电影主演:{} 电影类型:{} 电影评分:{} 电影评论:{} 电影简介:{} ==========下次再来========== \n \n '''.format(top,m_url,name,daoyan,actor,year_type,point,commit,desc) print(data) with open('douban_top250.txt','a',encoding='utf-8') as f: f.write(data) print('电影:{}写入成功...'.format(name))if __name__ == '__main__': num = 0 for line in range(10): url = 'https://movie.douban.com/top250?start={}&filter='.format(num) num += 25 print(url) # 1.往每个主页发送请求 index_res = get_page(url) #2. 解析主页获取电影信息 movie_list = parse_index(index_res.text) for movie in movie_list: # print(movie) # 3.保存数据 save_data(movie)'''爬取豆瓣电影信息 电影排名、电影url、电影名称 电影导演、电影主演、电影年份/类型 电影评分、电影评论、电影简介分析所有主页的url'''import requestsimport re# 爬虫三部曲# 1.发送请求def get_page(url): response = requests.get(url) # print(response.text) return response# 2.解析数据def parse_index(html): movie_list = re.findall('

  

转载于:https://www.cnblogs.com/Auraro997/p/11119917.html

你可能感兴趣的文章
jpg图片在IE6、IE7和IE8下不显示解决办法
查看>>
delphi之模糊找图
查看>>
scapy学习笔记
查看>>
hdu 5018 Revenge of GCD
查看>>
数据恢复软件使用经验-支持U盘,手机SD卡,硬盘数据,解决图片恢复后打不开的问题...
查看>>
流动python - 一个极简主义event制
查看>>
leetcode第一刷_Jump Game
查看>>
c++ 获得程序所在目录
查看>>
JSONObject与JSONArray的使用
查看>>
搜搜(www.soso.com),I 老虎油!
查看>>
一个数项级数发散的证明
查看>>
js闭包
查看>>
第2章内容小结
查看>>
C++ STL 优先队列 priority_queue 详解(转)
查看>>
JavaScript 获取某个字符的 Unicode 码
查看>>
无线路由协议Mflood详解(转)
查看>>
最短路径之Bellman-Ford(可以解决负边)
查看>>
作为JavaScript开发人员,这些必备的VS Code插件你都用过吗?
查看>>
省选爆零记
查看>>
1. 微博大学数学答疑系列(1)
查看>>