HTML 防止爬虫抓取方法

HTML About 193 words

robots.txt

设置robots.txt爬虫抓取规则,一般放置在域名根目录。

如:不允许抓取/admin下的路径及子路径。

User-agent: *
Disallow: /admin/

meta 爬虫控制指令

<meta name="robots" content="NONE">

单页面应用

单页面应用也能应对爬虫,使用JavaScript动态切换HTML页面。

Views: 680 · Posted: 2023-09-13

————        END        ————

Give me a Star, Thanks:)

https://github.com/fendoudebb/LiteNote

扫描下方二维码关注公众号和小程序↓↓↓

扫描下方二维码关注公众号和小程序↓↓↓


Today On History
Browsing Refresh