低代码爬虫工具结合Python Selenium,自动采集商品数据

张开发
2026/4/20 12:36:40 15 分钟阅读

分享文章

低代码爬虫工具结合Python Selenium,自动采集商品数据
说实话现在跨境电商竞争之激烈获客之难早已不是搭个台子就能唱戏的阶段需要各种竞品数据、用户评价数据监测分析及时掌握哪些产品卖的好卖的好的产品标题怎么写、用户情感反馈等等相当的繁琐。这个过程看似简单但仅是数据采集就难倒一大批人因为像Amazon、Tiktok、eBay、Shopee等电商平台反爬机制非常严格已经从传统的IP识别升级到行为分析和动态对抗像是浏览器指纹、验证码CAPTCHA、动态加密、异步加载等一般简单的爬虫技术基本不可能抓取到稳定的电商数据。所以开发者们需要进行技术伪装、动态IP设置和自动化工具等方法去测试和调整不同平台的规则但又必须要保证在法律允许的范围之内进行数据采集。什么是法律允许的范围呢首先只能抓取互联网上公开的非隐私数据不要去破解后台加密数据也不可以获取用户隐私数据。其次只能在网站合理的承受范围发送http请求不能对目标网站造成破坏。否则可能会面临法律风险。这次我准备结合selenium 亮数据Scraping Browser的组合来采集某跨境电商平台上的智能手机商品数据并结合DeepSeek搭建一个电商商品分析系统用于监测竞品数据。当然这个仅供参考学习使用不做任何商业行为。1、亮数据技术优势亮数据是一个专门用于数据采集代理和解决方案的平台是各大互联网公司的数据采集技术提供商技术实力非常强悍。https://get.brightdata.com/webscra一方面亮数据拥有超过1.5亿个符合道德规范的住宅IP覆盖了195个国家/地区支持自动IP轮换与地理定位对于爬虫代理来说稳定性很好不会出现被封、无效的情况。另一方面它拥有完整的数据采集解决方案能提供包含网页抓取API、网页解锁器API、网页抓取浏览器、SERP API等在内的自动化产品。这些产品能解决什么问题呢像你在爬虫过程中遇到的人机验证、验证码、动态页面、浏览器指纹验证等问题这些产品都有针对性的解决方案。就拿这次我用的Scraping Browser来举例Scraping Browser是数据采集浏览器的意思它是亮数据提供的云浏览器是有图形界面的有头浏览器托管在亮数据平台上。它的工作原理和普通自动化浏览器一样能通过Selenium、Playwright等自动化API来操作采集数据适合交互频繁的动态网页执行各种点击、加载等操作。但是Scraping Browser封装了代理和网站解锁能力能进行各种高级爬虫操作比如CAPTCHA 识别、浏览器指纹、自动重试、请求头选择、处理 cookies、JavaScript 渲染等对于反爬机制复杂的电商网站非常适用。最主要的是使用亮数据采集数据非常安全它仅收集公开数据不会涉及个人数据而且有《合理使用政策》保证符合法规要求。2、使用Scraping Browser采集商品数据首先这次测试的采集目标是某跨境电商平台的智能手机商品数据基于亮数据Scraping Browser服务使用Python Selenium库来请求和解析数据Selenium是主流的浏览器自动化工具亮数据也支持其API接口操作起来比较方便。第一步登陆注册亮数据平台打开下面的亮数据网站使用邮箱注册即可。https://get.brightdata.com/weijun注册好后打开后台控制面板界面找到“浏览器API“创建新的通道。第二步设置“浏览器API“相关参数给新通道起一个任务名称比如ecommerce_task接着勾选CAPTCHA 解决器它能帮你自动识别和解锁各种验证码非常省心。最后点击添加即创建了一个新通道ecommerce_task。新通道会有用户名、密码以及Selenium对应的端口要记住和保密。在操作平台里你能找示例代码比如这次用到的Selenium我们就直接改改示例请求代码用于抓取Shopee商品数据。第三步编写脚本采集数据这次直接抓取某跨境电商平台搜索页的智能手机商品搜索关键词为smart phone采集的字段有商品名称name、商品价格price、商品来源地location因为是示例爬虫所以只选重要的的几个字段。采集好数据后保存到本地CSV文件中用于后续分析。示例代码如下from selenium.webdriver import Remote, ChromeOptions from selenium.webdriver.chromium.remote_connection import ChromiumRemoteConnection from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time import csv # 请替换为你的 Bright Data 授权信息 AUTH 你的账号接口地址 SBR_WEBDRIVER fhttps://{AUTH}brd.superproxy.io:9515 def main(): print(正在连接Scraping Browser...) # 建立远程连接 sbr_connection ChromiumRemoteConnection(SBR_WEBDRIVER, goog, chrome) opts ChromeOptions() # 可选开启无头模式 # opts.add_argument(--headless) with Remote(sbr_connection, optionsopts) as driver: print(已连接! 导航到Shxpee...) # 1打开 Shxpee 手机搜索页 url https://shxpee.sg/search?keywordsmart%20phone driver.get(url) # 2等待商品列表渲染完成等待每个“商品卡片”出现 wait WebDriverWait(driver, 80) item_selector li[data-sqeitem] wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, item_selector))) # 3滚动以加载更多如果需要懒加载可根据实际情况调整 driver.execute_script(window.scrollTo(0, document.body.scrollHeight);) time.sleep(2) # 4再一次抓取商品卡片 items driver.find_elements(By.CSS_SELECTOR, item_selector) print(f定位到 {len(items)} 个商品卡片开始抓取…) # 5准备存储结果 results [] for itm in items: try: # 商品名称 name itm.find_element(By.CSS_SELECTOR, div.line-clamp-2).text.strip() # 价格带币种符号 price itm.find_element(By.CSS_SELECTOR, span.font-medium.text-base\\/5).text.strip() # 商品来源地 location itm.find_element(By.CSS_SELECTOR, span.ml-\[3px\]).text.strip() except Exception as e: # 若某个字段缺失则跳过 print(f⚠️ 解析失败{e}) continue results.append({ name: name, price: price, location: location }) # 6输出到 CSV out_file shopee_mobile_phones.csv keys [name, price, location] with open(out_file, w, newline, encodingutf-8-sig) as f: writer csv.DictWriter(f, fieldnameskeys) writer.writeheader() for row in results: writer.writerow(row) print(f完成共抓取 {len(results)} 条已保存至 {out_file}) if __name__ __main__: main()最终采集数据保存到CSV文件中部分数据如下注name代表商品名称price是售价新加坡元、location是来源地。❞该跨境电商平台是对爬虫监测比较严的平台会要求各种验证Scraping Browser都能轻松解锁而且搜索结果页异步加载部分操作如翻页需模拟用户点击也能一并解决。第四步直接获取数据集到第三步数据采集的问题已经解决如果你不想自己写代码去采集数据也可以直接使用亮数据的数据集市场里面各种主流电商、社交、旅游网站的数据集。获取数据集https://get.brightdata.com/dataforai比如该跨境电商平台的商品数据集字段非常齐全能按需直接下载。3、使用DeepSeek搭建跨境电商监测分析系统使用亮数据采集好商品数据后接下来把活交给DeepSeek既可以让它分析商品数据给出合理化建议也可以搭建商品监测分析系统将采集和数据分析集成到一个平台里。比如某跨境电商平台手机商品名称的分析优化把刚爬取的csv数据提交给DeepSeek输入提示附件是shopee手机商品数据包含名称、价格、来源地请你分析商品名称内容、结构、形式、优化建议等等输出分析报告。❞DeepSeek会自动出具一份分析报告。有核心要素提取也有问题和优化建议可以看到DeepSeek给出的建议非常详细且具有可参考性。咱们再将这种功能集成到平台里让DeepSeek设计一个采集和分析数据于一体的商品分析平台。功能如下1、数据采集模块集成亮数据数据自动化采集功能自动从某跨境电商平台采集数据2、竞品动态跟踪模块自动跟踪某几个核心竞品商品的信息比如销量、价格、标题等3、价格趋势预测模块自动监测某品类价格走势基于DeepSeek智能化定义价格4、商品名称优化模块自动监测分析热门商品名称基于DeepSeek分析优化结果基于采集到的智能手机商品数据示例实现的效果如下。4、总结基于当前跨境电商的现状精准数据采集和分析已经是行业内绕不开的门槛亮数据提供的代理和采集方案能极大地节省开发成本其实是高性价比的选择再结合DeepSeek的AI功能能轻松搞定数据系统设计和开发对于中小团队非常受用。https://get.brightdata.com/webscra

更多文章