当前位置：首页 > htmlunit > 正文内容

Java模拟浏览器工具HtmlUnit-登陆实践

关中浪子5年前 (2021-03-09)htmlunit1935

买泛域名SSL证书送5斤装现摘猕猴桃一箱、同时提供技开源商城搭建免费技术支持。
泛域名ssl证书 239元1年送1个月、单域名39元1年，Sectigo（原Comodo证书）全球可信证书，强大的兼容性，高度安全性,如有问题7天内可退、可开发票
加微信VX 18718058521 备注SSL证书
【腾讯云】2核2G4M云服务器新老同享99元/年，续费同价

HtmlUnit简介

HtmlUnit是一个可以模拟浏览器请求的java工具包，官网链接
，基本实现浏览器基础功能，包括：

加载js,css
执行ajax
处理表单
保存cookies等
本篇文章简单介绍HtmlUnit的一些概念和基本使用，以一个模拟登陆的实例说明，代码实例在文章最后。

为什么要使用HtmlUnit

不用再自己处理js和css了
不用再自己处理cookies了
AND XXX

HtmlUnit基础类

HtmlPage:页面类，即每次请求返回的html页面，会自动加载静态资源。
HtmlForm:表单类，处理用户名和密码的基础表单。

模拟登陆

1. 创建`WebClient`并设置配置项

WebClient webClient = new WebClient(BrowserVersion.CHROME)

这里模拟了一个chrome浏览器，并会设置对js和css的处理方式，详细的代码见示例。

2. 从网站的初始域名开始请求

//开始请求网站
HtmlPage page = webClient.getPage("https://gitee.com");

这里以Gitee为例，通常访问网站的根域名时，会跳转到网站的首页或登录页，根据网站的不同后面流程会有差别。
Gitee会跳转到一个首页，上面有登录按钮，所以下一步是点击登录按钮

3.点击按钮

 //点击首页上的登陆按钮，跳转到登陆页面
HtmlPage loginPage = ((DomElement) page.getByXPath("/html/body/header/div/div/div[5]/a[1]").get(0)).click();

这段代码获取了首页上的登录按钮Dom元素，并点击，之后会跳转到登录页面。

3.1不了解CSS选择器，如何获取按钮的Dom?

最简单的是使用XPath，可以直接打开chrome的开发者工具，找到要选择的元素，右键复制XPath，粘贴到代码里，搞定!
image.png
这里注意HtmlUnit的getByXPath方法，返回的是List。一般网站通过XPath获取的元素只有一个，这里直接取List中第一元素就可以。
获取到的元素要强转为DomElement对象，才能使用click()方法模拟点击。
执行点击后，就获取了登陆页对象。

4.填充用户名和密码，并登陆

/*
 * 获取登陆表单，表单如果是依赖js或css生成的，要等待加载完成，现有框架里等待方法不完善
 * 这里可以采用循环等待的方案，等到全部资源加载完，获取到了要取的表单元素再继续执行
 */
while (loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").size() == 0) {
    Thread.sleep(500);
}
//获取登陆表单元素
HtmlForm form = (HtmlForm) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").get(0);
//用户名input
HtmlTextInput username = (HtmlTextInput) form.getElementsByAttribute("input", "id", "user_login").get(0);
//密码input
HtmlPasswordInput password = (HtmlPasswordInput) form.getElementsByAttribute("input", "id", "user_password").get(0);
//设置input的value
username.setValueAttribute("*****");
password.setValueAttribute("*****");
//登陆
HtmlPage home = ((DomElement) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]/div[2]/div/div/div[4]/input").get(0)).click();

这里有一个静态资源加载的问题，有些要获取的Dom元素，是通过js和css执行渲染出来的。

这里如果直接获取登陆表单，会出现因为js加载不全，导致获取不到的问题。
当前HtmlUnit自带的等待资源加载方法不完善。这里可以简单的使用一个循环，等到获取到了要取的表单元素再继续执行。

获取到表单后，就可以获取Input填充用户名和密码，并模拟点击登录。
之后就会跳转到用户首页。

5.`webClient`中的`cookies`

通过上面的步骤，登录成功后，获取的cookies会保存在webClient中，之后再使用这个webClient访问网站的其他页面时，会直接带上，非常方便。

完整代码示例

public void loginGitee() {
        try (WebClient webClient = new WebClient(BrowserVersion.CHROME)) {
            /******配置webClient******/
            //ajax
            webClient.setAjaxController(new NicelyResynchronizingAjaxController());
            //支持js
            webClient.getOptions().setJavaScriptEnabled(true);
            //忽略js错误
            webClient.getOptions().setThrowExceptionOnScriptError(false);
            //忽略css错误
            webClient.setCssErrorHandler(new SilentCssErrorHandler());
            //不执行CSS渲染
            webClient.getOptions().setCssEnabled(false);
            //超时时间
            webClient.getOptions().setTimeout(3000);
            //允许重定向
            webClient.getOptions().setRedirectEnabled(true);
            //允许cookie
            webClient.getCookieManager().setCookiesEnabled(true);

            //开始请求网站
            HtmlPage page = webClient.getPage("https://gitee.com");
            //点击首页上的登陆按钮，跳转到登陆页面
            HtmlPage loginPage = ((DomElement) page.getByXPath("/html/body/header/div/div/div[5]/a[1]").get(0)).click();
            /*
             * 获取登陆表单，表单如果是依赖js或css生成的，要等待加载完成，现有框架里等待方法不完善
             * 这里可以采用循环等待的方案，等到全部资源加载完，获取到了要取的表单元素再继续执行
             */
            while (loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").size() == 0) {
                Thread.sleep(500);
            }
            //获取登陆表单元素
            HtmlForm form = (HtmlForm) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]").get(0);
            //用户名input
            HtmlTextInput username = (HtmlTextInput) form.getElementsByAttribute("input", "id", "user_login").get(0);
            //密码input
            HtmlPasswordInput password = (HtmlPasswordInput) form.getElementsByAttribute("input", "id", "user_password").get(0);
            //设置input的value
            username.setValueAttribute("*****");
            password.setValueAttribute("*****");
            //登陆
            HtmlPage home = ((DomElement) loginPage.getByXPath("/html/body/div[2]/div[2]/div/div[1]/div[2]/div/form[1]/div[2]/div/div/div[4]/input").get(0)).click();
            //搜索项目
            HtmlPage searchPage = webClient.getPage("https://gitee.com/search?utf8=%E2%9C%93&type=&fork_filter=on&q=java");
            //打印列表
            HtmlElement a = (HtmlElement) searchPage.getByXPath("/html/body/div[3]/div[1]/div/div[2]").get(0);
            System.out.println(searchPage.getBaseURL());
            System.out.println(a.getTextContent());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

本篇文章仅供学习交流使用

󰄼 赞 0 赏󰄯 分享

找梯子最重要的就是稳定，这个已经上线三年了，一直稳定没有被封过，赶紧下载备用吧！

扫描二维码推送至手机访问。

本文链接：https://lubojian.cn/post/21.html

分享给朋友：

返回列表

没有更早的文章了...

没有最新的文章了...

Java模拟浏览器工具HtmlUnit-登陆实践

HtmlUnit简介

为什么要使用HtmlUnit

HtmlUnit基础类

模拟登陆

1. 创建`WebClient`并设置配置项

2. 从网站的初始域名开始请求

3.点击按钮

3.1不了解CSS选择器，如何获取按钮的Dom?

4.填充用户名和密码，并登陆

5.`webClient`中的`cookies`

完整代码示例

发表评论

Copyright lubojian.cn.Some Rights Reserved.
粤ICP备18103365号-1

Powered By Z-BlogPHP. Theme by TOYEAN.

Java模拟浏览器工具HtmlUnit-登陆实践

HtmlUnit简介

为什么要使用HtmlUnit

HtmlUnit基础类

模拟登陆

1. 创建WebClient并设置配置项

2. 从网站的初始域名开始请求

3.点击按钮

3.1不了解CSS选择器，如何获取按钮的Dom?

4.填充用户名和密码，并登陆

5.webClient中的cookies

完整代码示例

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

1. 创建`WebClient`并设置配置项

5.`webClient`中的`cookies`

发表评论