eIT.com.cn 2023/3/17 23:49:50 阅读 3 次
需求:爬取豆瓣电影短评评论文本内容 目标:将爬取的文本存入 excel 中 爬虫步骤: 1.拼接分页网址,循环请求分页数据,获取HTML代码 2.分析获取到的HTML代码,解析出所需要的数据,提取内容 3.存储爬取到的数据 准备工作: 1.开发工具 pycharm 2.模块 requests、bs4或 pyquery
爬虫实际流程: 第一步:我们从豆瓣电影中选取一部电影(https://movie.douban.com/subject/35766491/),进入短评列表页面(https://movie.douban.com/subject/35766491/comments?status=P) 第二步:打开 f12开发者工具,我去取评论文本部分,查看网页结构。
目标评论文本部分对应的 class 类名为 comment,评论列表对应的类名为 comment-item 使用 pyquery 解析获取列表数据,代码如下: form pyquery import PyQuery as pq
|
• odoo 开发入门教程系列-模型之间的关系(Relations Between Models) (2023/3/31 22:11:42)
• scoket用法 (2023/3/31 17:41:33)
• 关于python 的if __name__ == __main__的模块测试 (2023/3/31 16:33:29)
• Python 数字类型之 int float (2023/3/31 16:33:29)
• 【manim动画教程】-- 图形样式 (2023/3/31 10:23:29)
• Django笔记十二之defer、only指定返回字段 (2023/3/30 21:37:29)
• python中类成员修饰符 (2023/3/30 16:42:16)
• 【验证码逆向专栏】极验三代、四代点选类验证码逆向分析 (2023/3/30 15:53:54)
• 【0基础学爬虫】爬虫基础之网页解析库的使用 (2023/3/30 14:44:26)
• PyQt5学习 (5)--QPushButton、QCommandLinkButton (2023/3/30 14:44:26)
C标准库参考 | Prim@Hosting | Hadoop | WordPress | Windows2000安全 | Microsoft Visio | Apache Flume | 谷歌地图 | Selenium | 局域网 | 声卡显卡 | Java ANT | jQuery | Eclipse | Excel数据透视表 | jBPM5 | 嵌入式系统 | 服务器应用 | 站长故事 | Director
合作媒体与友情链接 |
生活常识小贴士 | 软件开发教程 | 智慧城市生活网 | 息县通生活服务[移动版] | 息县商圈[移动版] | 美食菜谱 |
健康养生 | 法律知识 | 科技频道 | 电影影讯 | 留学考研学习 | 星座生肖|解梦说梦 |
关于我们 | 联系我们 | 合作媒体 | 使用条款 | 隐私权声明 | 版权声明 |
Copyright © 2023 eIT.com.cn. All Rights Reserved. | 豫ICP备2022012332号 |