第一次接单
type
Post
status
Draft
summary
slug
date
tags
category
password
icon
URL
Property
Feb 28, 2024 07:28 AM
信心满满:正常使用 requests 和 Xpath,通过 url 的修改来获取第二页及之后的内容会导致内容重复过多,有 90%的重复
通过获取页面的【下一页】的连接来翻页,由于是 js 内容,无法直接获取
通过 selenium 来获取动态内容,selenium 设置无头模式之后,无法定位,获取内容失败。。。
转换战略:找到一个直接获取谷歌搜索结果的库,但是只能返回 url,如果再通过 url 去访问,获取内容,偶尔会遇到谷歌人机验证,同时也无法获取标题概述,又是还会代理出错
回到最开始的思路,解决 selenium 无头定位问题,是由于页面上有该元素,但是页面不够大,没有显示想定位的元素。
1.设置浏览器的分辨率大小:
options.addArguments("window-size=1920x3000");
2.将页面往下拉:
((JavascriptExecutor) driver).executeScript("document.documentElement.scrollTop=100000");
当设置有头模式时有下一页按钮,当设置无头模式时,是显式更多按钮
20230428:暂时放下,之后再来解决