R语言爬虫：CSS方法与XPath方法对比，表格介绍

2023-06-11 06:23•数据库•阅读 1357

目标	匹配节点	CSS 3	XPath
所有节点	`~`	`*`	`//*`
查找一级、二级、三级标题节点	`<h1>`,`<h2>`,`<h3>`	`h1`,`h2`,`h3`	`//h1`,`//h2`,`//h3`
所有的P节点	`<p>`	`p`	`//p`
p节点的所有子节点	`<p>`标签下的所有节点	`p > *`	`//p/*`
查找所有包含attr属性的li标签	`<li attr="~">`	`li[attr]`	`li[@attr]`
查找所有attr值为value的li标签	`<li attr="value">`	`li[attr=value]`	`//li[@attr=\'value\']`
查找id值为item的所有div节点	`<div >`	`div#item`	`//div[@item\']`
查找class值中包含foo的所有标签	`<* class="foo blahblah">`	`.foo`	`//*[contains(@class,\'foo\')]`
第一个P节点	众多`<p>`中的第一个 `<p>`	`p:first-child`	`//p[1]`
第n个P节点	众多`<p>`中的第n个 `<p>`	`p:nth-child`	`//p[n]`
拥有子节点a的所有P节点	`<p><a></p>`	css无法实现	`//p[a]`
查找文本内容是“Web Scraping”的p节点	`<p>Web Scraping</p>`	css无法实现	`//p[text()="Web Scraping"]`