博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫Day2:爬取豆瓣电影信息top250
阅读量:4949 次
发布时间:2019-06-11

本文共 2986 字,大约阅读时间需要 9 分钟。

'''爬取豆瓣电影信息    电影排名、电影url、电影名称    电影导演、电影主演、电影年份/类型    电影评分、电影评论、电影简介分析所有主页的url'''import requestsimport re# 爬虫三部曲# 1.发送请求def get_page(url):    response = requests.get(url)    # print(response.text)    return response# 2.解析数据def parse_index(html):   movie_list = re.findall('
.*?
(.*?).*?
.*?(.*?).*?导演:(.*?)主演:(.*?)
(.*?)

.*?(.*?).*?(.*?)人评价.*?(.*?)',html,re.S) return movie_list# 3.保存数据def save_data(movie): top , m_url, name,daoyan,actor,year_type,point,commit,desc = movie year_type = year_type.strip('\n') data = ''' ==========欢迎观赏========== 电影排名:{} 电影url:{} 电影名称:{} 电影导演:{} 电影主演:{} 电影类型:{} 电影评分:{} 电影评论:{} 电影简介:{} ==========下次再来========== \n \n '''.format(top,m_url,name,daoyan,actor,year_type,point,commit,desc) print(data) with open('douban_top250.txt','a',encoding='utf-8') as f: f.write(data) print('电影:{}写入成功...'.format(name))if __name__ == '__main__': num = 0 for line in range(10): url = 'https://movie.douban.com/top250?start={}&filter='.format(num) num += 25 print(url) # 1.往每个主页发送请求 index_res = get_page(url) #2. 解析主页获取电影信息 movie_list = parse_index(index_res.text) for movie in movie_list: # print(movie) # 3.保存数据 save_data(movie)'''爬取豆瓣电影信息 电影排名、电影url、电影名称 电影导演、电影主演、电影年份/类型 电影评分、电影评论、电影简介分析所有主页的url'''import requestsimport re# 爬虫三部曲# 1.发送请求def get_page(url): response = requests.get(url) # print(response.text) return response# 2.解析数据def parse_index(html): movie_list = re.findall('

  

转载于:https://www.cnblogs.com/Auraro997/p/11119917.html

你可能感兴趣的文章
Git 常用命令速查表(三)
查看>>
MySQL数据类型
查看>>
循环写入一个月的每一天日期
查看>>
[WEB地图] 2017高德地图API WEB开发(key申请,地图搭建)简约教程
查看>>
Java 多线程 高可用原则
查看>>
Python 深浅copy
查看>>
Spring Bean的生命周期
查看>>
Nginx服务器 之反向代理与负载均衡
查看>>
[51nod] 1432 独木桥 贪心
查看>>
jsoup笔记之Elements.select的类选择器空格处理问题
查看>>
python的web测试
查看>>
适合初学者的嵌入式Linux计划
查看>>
使用Node.js+Socket.IO搭建WebSocket实时应用
查看>>
tomcat 7配置
查看>>
必备12种职场软能力
查看>>
业务架构优化
查看>>
mysql高级
查看>>
C 整型提升
查看>>
事件初步学习
查看>>
BZOJ3240 NOI2013矩阵游戏(数论)
查看>>