如何在 Selenium 中查找损坏的链接

什么是无效链接？

无效链接是无法访问的链接或 URL。它们可能因为服务器错误而失效或无法正常运行。

有效的 URL 状态码始终为 2xx。不同的 HTTP 状态码有不同的用途。对于无效请求，HTTP 状态码为 4xx 和 5xx。

4xx 类状态码主要用于客户端错误，5xx 类状态码主要用于服务器响应错误。

我们很可能无法确认该链接是否有效，除非我们点击并确认。

为什么要检查无效链接？

您应该始终确保网站上没有无效链接，因为用户不应该进入错误页面。

如果规则未正确更新，或者请求的资源在服务器上不存在，就会发生错误。

手动检查链接是一项繁琐的任务，因为每个网页可能包含大量链接，并且所有页面都必须重复手动过程。

使用 Selenium 的自动化脚本可以自动化此过程，这是一个更合适的解决方案。

如何在 Selenium 中检查无效链接和图像

为了检查无效链接，您需要执行以下步骤。

根据 <a> 标签收集网页中的所有链接。
发送 HTTP 请求获取链接并读取 HTTP 响应代码。
根据 HTTP 响应代码判断链接是否有效或无效。
对捕获到的所有链接重复此操作。

查找网页上无效链接的代码

以下是测试我们用例的 WebDriver 代码

package automationPractice;

import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Iterator;
import java.util.List;

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;

public class BrokenLinks {
    
    private static WebDriver driver = null;

    public static void main(String[] args) {
        // TODO Auto-generated method stub
        
        String homePage = "http://www.zlti.com";
        String url = "";
        HttpURLConnection huc = null;
        int respCode = 200;
        
        driver = new ChromeDriver();
        
        driver.manage().window().maximize();
        
        driver.get(homePage);
        
        List<WebElement> links = driver.findElements(By.tagName("a"));
        
        Iterator<WebElement> it = links.iterator();
        
        while(it.hasNext()){
            
            url = it.next().getAttribute("href");
            
            System.out.println(url);
        
            if(url == null || url.isEmpty()){
System.out.println("URL is either not configured for anchor tag or it is empty");
                continue;
            }
            
            if(!url.startsWith(homePage)){
                System.out.println("URL belongs to another domain, skipping it.");
                continue;
            }
            
            try {
                huc = (HttpURLConnection)(new URL(url).openConnection());
                
                huc.setRequestMethod("HEAD");
                
                huc.connect();
                
                respCode = huc.getResponseCode();
                
                if(respCode >= 400){
                    System.out.println(url+" is a broken link");
                }
                else{
                    System.out.println(url+" is a valid link");
                }
                    
            } catch (MalformedURLException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
        }
        
        driver.quit();

    }
}

解释无效链接代码

步骤 1：导入包

除了默认包之外，还导入以下包

import java.net.HttpURLConnection;

使用此包中的方法，我们可以发送 HTTP 请求并从响应中捕获 HTTP 响应代码。

步骤 2：收集网页中的所有链接

识别网页中的所有链接并将其存储在列表中。

List<WebElement> links = driver.findElements(By.tagName("a"));

获取迭代器以遍历列表。

Iterator<WebElement> it = links.iterator();

步骤 3：识别和验证 URL

在此部分，我们将检查 URL 是否属于第三方域名，或者 URL 是否为空/空。

获取锚点标签的 href 并将其存储在 url 变量中。

url = it.next().getAttribute("href");

检查 URL 是否为空或空白，如果条件满足则跳过剩余步骤。

if(url == null || url.isEmpty()){
              System.out.println("URL is either not configured for anchor tag or it is empty");
              continue;
     }

检查 URL 属于主域名还是第三方。如果属于第三方域名，则跳过剩余步骤。

 if(!url.startsWith(homePage)){
           System.out.println("URL belongs to another domain, skipping it.");
           continue;
   }

步骤 4：发送 HTTP 请求

HttpURLConnection 类有发送 HTTP 请求和捕获 HTTP 响应代码的方法。因此，openConnection() 方法 (URLConnection) 的输出被类型转换为 HttpURLConnection。

huc = (HttpURLConnection)(new URL(url).openConnection());

我们可以将请求类型设置为“HEAD”而不是“GET”。这样只返回头部，不返回文档正文。

huc.setRequestMethod("HEAD");

调用 connect() 方法后，将建立与 URL 的实际连接并发送请求。

huc.connect();

步骤 5：验证链接

使用 getResponseCode() 方法，我们可以获取请求的响应代码

respCode = huc.getResponseCode();

根据响应代码，我们将尝试检查链接状态。

if(respCode >= 400){
        System.out.println(url+" is a broken link");
}
else{
        System.out.println(url+" is a valid link");
}

因此，我们可以从网页中获取所有链接并打印链接是有效还是无效。

希望本教程能帮助您使用 selenium 检查无效链接。

如何获取网页上的所有链接

在 Web 测试中，一个常见的程序是测试页面中是否存在的所有链接是否有效。这可以通过结合使用 Java for-each 循环、findElements() 和 By.tagName(“a”) 方法方便地完成。

findElements() 方法返回一个带有标签 a 的 Web 元素列表。使用 for-each 循环访问每个元素。

下面的 WebDriver 代码检查 Mercury Tours 主页上的每个链接，以确定哪些链接是有效的，哪些仍在建设中。

import org.openqa.selenium.By;		
import org.openqa.selenium.WebDriver;		
import org.openqa.selenium.chrome.ChromeDriver;		
import java.util.List;		
import java.util.concurrent.TimeUnit;		
import org.openqa.selenium.*;		

public class P1 {				
    		
    public static void main(String[] args) {									
        String baseUrl = "https://demo.guru99.com/test/newtours/";					
        System.setProperty("webdriver.chrome.driver","G:\\chromedriver.exe");					
        WebDriver driver = new ChromeDriver();					
        		
        String underConsTitle = "Under Construction: Mercury Tours";					
			driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);					

			driver.get(baseUrl);					
        List<WebElement> linkElements = driver.findElements(By.tagName("a"));							
        String[] linkTexts = new String[linkElements.size()];							
			int					i = 0;					

			//extract the link texts of each link element		
			for (WebElement e : linkElements) {							
			linkTexts[i] = e.getText();							
			i++;			
        }		

			//test each link		
			for (String t : linkTexts) {							
			driver.findElement(By.linkText(t)).click();					
			if (driver.getTitle().equals(underConsTitle)) {							
                System.out.println("\"" + t + "\""								
                        + " is under construction.");			
            } else {			
                System.out.println("\"" + t + "\""								
                        + " is working.");			
            }		
			driver.navigate().back();			
        }		
			driver.quit();			
    }		
}

输出应与下面所示的类似。

访问图像链接使用 By.cssSelector() 和 By.xpath() 方法完成。

故障排除

在一个孤立的案例中，代码访问的第一个链接可能是“主页”链接。在这种情况下，driver.navigate.back() 操作将显示一个空白页面，因为第一个操作是打开浏览器。驱动程序将无法在空白浏览器中找到所有其他链接。因此 IDE 将抛出异常，其余代码将不会执行。这可以通过使用 If 循环轻松处理。