PowerShell 技能连载 - 分析 WEB 页面内容

PowerShell 内置了一个 WEB 客户端,它可以获取 HTML 内容。对于简单的 WEB 页面分析,使用 -UseBasicParsing 参数即可。该操作将原原本本地获取原始的 HTML 内容,例如,包含嵌入的链接和图像的列表:

1
2
3
4
5
6
$url = "http://powershellmagazine.com"
$page = Invoke-WebRequest -URI $url -UseBasicParsing

$page.Content | Out-GridView -Title Content
$page.Links | Select-Object href, OuterHTML | Out-GridView -Title Links
$page.Images | Select-Object src, outerHTML | Out-GridView -Title Images

如果忽略了 -UseBasicParsing 参数,那么该 cmdlet 内部使用 Internet Explorer 文档对象模型,并返回更详细的信息:

1
2
3
4
$url = "http://powershellmagazine.com"
$page = Invoke-WebRequest -URI $url

$page.Links | Select-Object InnerText, href | Out-GridView -Title Links

请注意 Invoke-WebRequest 需要您实现设置并且至少打开一次 Internet Explorer,除非您指定了 -UseBasicParsing

PowerShell 技能连载 - 分析 WEB 页面内容

http://blog.vichamp.com/2018/11/08/analyzing-web-page-content/

作者

吴波

发布于

2018-11-08

更新于

2022-07-06

许可协议

评论