R语言爬虫:CSS方法与XPath方法对比,表格介绍
- css 选择器与 xpath 用法对比
目标 | 匹配节点 | CSS 3 | XPath |
---|---|---|---|
所有节点 | ~ | * | //* |
查找一级、二级、三级标题节点 | <h1> ,<h2> ,<h3> | h1 ,h2 ,h3 | //h1 ,//h2 ,//h3 |
所有的P节点 | <p> | p | //p |
p节点的所有子节点 | <p> 标签下的所有节点 | p > * | //p/* |
查找所有包含attr属性的li标签 | <li attr="~"> | li[attr] | li[@attr] |
查找所有attr值为value的li标签 | <li attr="value"> | li[attr=value] | //li[@attr=\'value\'] |
查找id值为item的所有div节点 | <div > | div#item | //div[@item\'] |
查找class值中包含foo的所有标签 | <* class="foo blahblah"> | .foo | //*[contains(@class,\'foo\')] |
第一个P节点 | 众多<p> 中的第一个 <p> | p:first-child | //p[1] |
第n个P节点 | 众多<p> 中的第n个 <p> | p:nth-child | //p[n] |
拥有子节点a的所有P节点 | <p><a></p> | css无法实现 | //p[a] |
查找文本内容是“Web Scraping”的p节点 | <p>Web Scraping</p> | css无法实现 | //p[text()="Web Scraping"] |