eIT.com.cn 2023/3/18 9:56:41 阅读 4 次
python采集电商平台的商品评价信息并保存
1.数据采集逻辑在进行数据采集之前,明确哪些数据为所需,制定数据Schema为爬取工作做出要求,并根据数据Schema制定出有针对性的爬取方案和采集逻辑。
2.数据Schema
3.数据爬取抓取京东平台任一商品的评论信息,此案例抓取的商品是某一店铺的车厘子评价信息。 评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件,通过使用浏览器的开发者工具进行查找。 目标URL地址: https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10056364088483&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1
通过发现可知,productId为当前商品的商品Id,page为页码(从0开始),爬取该商品的所有评价信息只需要改变page参数即可。(京东商品评价页只显示前100页,所以page最大值为99)
import random import requests import json import re import csv import time import pymysql 2.对爬虫程序进行伪装 header = { 'refer': 'https: // item.jd.com /', 'cookie': '', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50' } 3.抓取商品评论信息 将python程序伪装成浏览器后,就可以对评论信息进行爬取,在前面的分析中,productId和page为重要参数,在本案例中爬取的商品为车厘子,productId已确定,只需要对page进行更改即可达到需要。通过parms提交参数,使代码更有逻辑感并方便更改两个重要参数。 parm = { 'callback': 'fetchJSON_comment98', 'productId': '10056364088483', 'score': '0', 'sortType': '5', 'page': page, 'pageSize': '10', 'isShadowSku': '0', 'fold': '1' } url = 'https://club.jd.com/comment/productPageComments.action' res = requests.get(url, params=parm, headers=header) 4.防止反爬,每爬取一页数据后,设置程序休眠环节 # 程序休眠 time.sleep(random.randint(40, 80) * 0.1) print('第%d页正在爬取' % (page + 1)) 爬取完成后,需要对页面进行编码,不影响后期的数据提取和数据清洗工作。 使用正则对数据进行提取,返回字符串。 字符串转换为json格式数据。 res.encoding = 'gb18030' html = res.text data = re.findall('fetchJSON_comment98\((.*?)\);', html) data = json.loads(data[0]) # 将处理的数据进行解析 comments = data['comments'] print(data['comments']) 4.数据存储
# 写入csv文件 f = open("evalution_data.csv", "a", newline='', encoding='gb18030') header = ["id", "content", "creationTime", "score", "productColor", "productSize"] # 创建一个DictWriter对象,第二个参数就是上面创建的表头 writer = csv.DictWriter(f, header) writer.writeheader() for i in comments: id = i['id'] content = i['content'] creationTime = i['creationTime'] score = i['score'] productColor = i['productColor'] productSize = i['productSize'] writer.writerow( {"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor, "productSize": productSize}) f.close() 2.存储到数据库 # 写入数据库 conn = pymysql.connect(host='', user='', password='', port=, db='') cursor = conn.cursor() for i in comments: id = i['id'] content = i['content'] creationTime = i['creationTime'] score = i['score'] productColor = i['productColor'] productSize = i['productSize'] sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')" cursor.execute(sql) conn.commit() cursor.close() conn.close()
|
• Django笔记四之字段属性 (2023/3/21 23:49:47)
• 使用Python突破某网游游戏JS加密限制,进行逆向解密,实现自动登录! (2023/3/21 17:07:45)
• 解决python opencv2在pycharm中没有代码提示的问题 (不修改包文件) (2023/3/21 12:41:32)
• 使用python来模拟端口被占用的测试场景 (2023/3/20 21:22:04)
• pyhton中_自动生成的_pycache__文件夹 (2023/3/20 16:55:49)
• Python工具箱系列(二十七) (2023/3/20 12:26:42)
• Django笔记三之使用model对数据库进行增删改查 (2023/3/20 6:51:27)
• conda环境下使用nvcc -V报错nvcc: command not found的一种解决方法 (2023/3/19 21:19:02)
• RuntimeError: NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:784, unhandled system error (2023/3/19 15:56:33)
• Pandas 常用操作 (2023/3/19 14:14:50)
Java编程实例 | jsoup | EasyMock | PouchDB | Exchange Server | 挺进千兆 千兆组网专题 | Powerpoint 2010入门 | 其它IT认证 | Tableau | 网管技术 | 安全测试 | 无线网配置实战专题 | QUnit | Cisco 路由技术 | SQL Server 性能调优 | 页面特效 | HSQLDB | Servlet/JSP | IMS DB | Teradata | ISA | Linux常用命令 | Macrmedia认证 | Linux软件使用 | JDBC/JDO | QlikView | mvcwea | 媒体工具 | 数据备份/恢复 | TestLink
合作媒体与友情链接 |
生活常识小贴士 | 软件开发教程 | 智慧城市生活网 | 息县通生活服务[移动版] | 息县商圈[移动版] | 美食菜谱 |
健康养生 | 法律知识 | 科技频道 | 电影影讯 | 留学考研学习 | 星座生肖|解梦说梦 |
关于我们 | 联系我们 | 合作媒体 | 使用条款 | 隐私权声明 | 版权声明 |
Copyright © 2023 eIT.com.cn. All Rights Reserved. | 豫ICP备2022012332号 |