主页>技术社区>IT 技术>编程开发>Python

使用python爬取豆瓣电影短评评论内容

eIT.com.cn 2023/3/17 23:49:50 阅读 3 次

打印


需求:爬取豆瓣电影短评评论文本内容

目标:将爬取的文本存入 excel 中

爬虫步骤:

1.拼接分页网址,循环请求分页数据,获取HTML代码

2.分析获取到的HTML代码,解析出所需要的数据,提取内容

3.存储爬取到的数据

准备工作:

1.开发工具 pycharm

2.模块 requests、bs4或 pyquery

 

爬虫实际流程:

第一步:我们从豆瓣电影中选取一部电影(https://movie.douban.com/subject/35766491/),进入短评列表页面(https://movie.douban.com/subject/35766491/comments?status=P)

第二步:打开 f12开发者工具,我去取评论文本部分,查看网页结构。

 

目标评论文本部分对应的 class 类名为 comment,评论列表对应的类名为 comment-item

使用 pyquery 解析获取列表数据,代码如下:

form pyquery import PyQuery as pq
doc = pq(html)
comment_list = doc(‘.comment-item’).items()
For item in comment_list:
comment = item(‘.comment’).text()

 






相关内容


热门栏目


特别声明


最新资讯
热讯排行



合作媒体友情链接
生活常识小贴士 软件开发教程 智慧城市生活网 息县通生活服务[移动版] 息县商圈[移动版] 美食菜谱
健康养生 法律知识 科技频道 电影影讯 留学考研学习 星座生肖|解梦说梦




关于我们 | 联系我们 | 合作媒体 | 使用条款 | 隐私权声明 | 版权声明

      Copyright © 2023 eIT.com.cn. All Rights Reserved. 豫ICP备2022012332号