Cloudflare刚干了一件大事:全球20%的网站,一夜之间对AI敞开了大门

# Cloudflare刚干了一件大事:全球20%的网站,一夜之间对AI敞开了大门

2月12号,Cloudflare悄悄上线了一个功能,叫Markdown for Agents。

用人话说就是:AI爬虫来抓你的网页时,Cloudflare自动把HTML转成Markdown喂给它。

你啥也不用改,后台开个开关就行。

Cloudflare覆盖了全球大概20%的网站哈,五分之一的互联网,一夜之间就能让AI爬虫吃得明明白白。

听着挺好对吧?

别急,这件事远没有这么简单。今天我就把这个事情掰开了跟大家聊聊,到底是好事还是坑。

Cloudflare Markdown for Agents

先搞清楚一个事:AI爬虫现在吃的都是垃圾

Cloudflare自己做了个测试,拿他们博客的一篇文章来对比:

HTML格式,16,180个token。

转成Markdown,3,150个token。

token用量直接砍掉80%。

那你可能问了,token是什么?

简单说就是AI处理文字的计费单位,token越多,AI公司花的钱越多。

你网页上那些导航栏、侧边栏、页脚、JavaScript、CSS样式表,对AI来说全是噪音。

它就想要你的正文,其他全是垃圾。

看一眼这张图就明白了:

AI爬虫获取的内容类型分布:HTML占75.2%,Markdown不到0.1%

现在AI爬虫从网上拿到的内容,75.2%是HTML,Markdown连0.1%都不到。

等于说几乎所有AI爬虫都在硬啃HTML,吃进去一堆没用的代码,再自己费劲把正文扒出来。

效率极低。

Cloudflare说:我帮你转,你直接吃干净的。

对AI公司来说,同样的预算能抓5倍的内容。

对网站主来说,你的内容被AI理解和引用的概率大幅提升。

双赢,对吧?

先别急着高兴。


技术原理其实很简单

用的是HTTP协议里早就有的东西:内容协商(Content Negotiation)。

AI爬虫请求你的页面时,在请求头里加一句 Accept: text/markdown

Cloudflare一看这个请求头,就知道来的是AI,然后实时把HTML转成Markdown再返回。

普通用户来访问?看到的还是正常网页,完全不受影响。

同一个URL,AI看到Markdown,人看到HTML。

Cloudflare Markdown转换流程:AI爬虫请求→Cloudflare边缘转换→Markdown返回

看到这里,做SEO的人应该已经警觉了。

同一个URL,不同访客看到不同内容。

这不就是cloaking吗?


SEO圈直接炸了

Cloaking这个词在SEO里是脏词,意思是给搜索引擎看一套内容,给用户看另一套。

Google明确说过这是违规行为,抓到直接惩罚,没得商量。

SEO顾问David McSweeney第一个跳出来:这个功能让AI cloaking变得太容易了。

为啥呢?

因为 Accept: text/markdown 这个请求头会被转发到你的源服务器。

你的服务器能知道”哦,这是AI爬虫来了”。

然后你可以怎么干?

给AI返回一个精心优化过的HTML——塞满关键词、隐藏指令、虚假产品信息——Cloudflare再帮你把这个”特供版”转成Markdown喂给AI。

普通用户永远看不到这些东西。

说白了,Cloudflare无意间给了所有人一个AI cloaking的基础设施。

这就有意思了。


Google和微软罕见地站到了一起

这两家平时互相看不顺眼,但在这件事上态度出奇一致。

Google的John Mueller说:LLM从一开始就在读HTML,处理HTML完全没问题,为什么要单独给它们一个人类看不到的版本?

微软的Fabrice Canel更直接:你真的想让我们爬两遍?我们反正会去抓HTML版本来核对的,多此一举。

两家的态度很明确:别搞这些花活。

但问题来了,Cloudflare这个功能跟”单独做一个Markdown页面”还不完全一样。

它不是创建新URL,是在同一个URL上做格式转换。

这个灰色地带,目前没人给出明确答案。


有个人说了句大实话

技术SEO专家Jono Alderson,我觉得他说得最到位:

“当你把一个页面压缩成Markdown的时候,你不只是去掉了杂乱,你也去掉了判断和上下文。”

“你发布了一个机器专属的页面版本,就等于创造了第二个’现实’。不管你怎么保证这是从同一个源生成的,系统面对的就是两个版本,它必须决定哪个才是真的。”

这段话值得反复读。

你给同一个页面搞出两个版本,信任问题就出来了。

AI系统会怀疑:到底哪个是真的?你是不是在骗我?

一旦信任链断了,后面什么优化都白搭。


那你到底该怎么做?

用了Cloudflare的:

这个功能现在是可选的,后台能开。

Cloudflare后台AI爬虫管理面板

但我的建议是先别急着开。

等一等,看Google对这个功能到底什么态度。

目前Google只是说”不推荐单独的Markdown页面”,但对Cloudflare这种”同URL不同格式”的做法还没明确表态。

如果你是内容型网站,靠优质内容获取流量,这个功能长期来看可能是正面的——AI更容易读到你的内容,引用概率提高。

但千万不要动歪心思,想用这个功能给AI喂不同的内容。Google和微软都说了会交叉核对,被抓到就是cloaking处罚,TMD真的别冒这个险。

没用Cloudflare的:

影响是间接的,但不能忽略。

20%的网站突然对AI更友好了,如果你的竞争对手在里面,你在AI搜索结果里的相对可见度可能会下降。

长期来看,Markdown作为AI的标准输入格式是大趋势。

你不一定要用Cloudflare,但你的网站得往AI友好的方向走:清晰的标题层级、结构化段落、HTML源码里有干净完整的正文。


我的判断

Cloudflare这步棋很聪明,它在赌AI流量是下一个大入口。

谁先让AI爬虫吃得舒服,谁就在AI搜索结果里占便宜。

但这也等于打开了潘多拉的盒子。

同一个URL两个版本,这个口子一开,信任问题、滥用问题、监管问题会一个接一个冒出来。

对做SEO的人来说,现在最理性的做法就两个字:观望

不要冲动去开这个开关,也不要完全无视。

你现在真正该做的事情是:按F12打开你网站的HTML源码,看看里面到底有没有你想让AI看到的内容。

如果你的核心内容全靠JavaScript渲染,源码里是空的,那不管Cloudflare怎么转,AI也抓不到东西。

这一步比什么Markdown转换开关都重要。

先把地基打好,再想上面盖什么房子。


觉得有用的话,转发给你做SEO的朋友,这个信息差现在知道的人还不多。

有问题评论区聊,我会回。

Leave a comment

Your email address will not be published. Required fields are marked *

Add Comment *

Name *

Email *