最好的办法 是在 谷歌搜索 后面加上 < -网友 -网 -云 -转载 -原网站 >.就可以了…​..

清理「内容农场」,还你清爽的 Google 中文搜索体验 SHY SHY 2021 年 10 月 19 日 如果你习惯使用 Google 搜索中文关键词,想必早已发现,近来排在搜索结果前列的总有那么几个东拼西凑、前言不搭后语的垃圾页面:前几天惹了众怒的小 X 知识、小 Y 百科;去年一度肆虐的兰州养生、热备资讯;甚至还包括国内几家头部互联网公司的那一堆云社区……

这些网站自己不产出内容,却凭借针对性的 SEO 极力提升在搜索引擎中的权重并从中牟利。不论标题和风格如何,它们其实都有一个共同的名字:内容农场(Content farm)。

🖕 内容农场是什么梗?让小编来告诉你 内容农场是什么意思?内容农场从何而来?请问在 Google 搜索时,频繁遇到内容农场是怎么回事?为什么一瞬间就有好多内容农场出现?大家可能会很惊讶,内容农场怎么会排在 Google 搜索结果第一页呢?但事实就是这样,小编也感到非常惊讶。

如何在搜索结果中屏蔽内容农场,相信大家都很好奇要怎么做到。不少同学都很想了解内容农场,下面就让小编来为大家介绍一下内容农场的详细内容,快来一起看看吧!

这段话就是一种典型的内容农场文风,俗称「小编体」。其特征是通篇复读同一关键词,围绕热点话题,套用固定格式,车轱辘话扯上千字,以浪费读者时间为己任,往往还伴随着剽窃行为。自媒体平台的营销号们这么做,是为了使文章更容易被搜索,以提高阅读量,榨取更多收入。

将这里的「小编」替换成网站,就是所谓的内容农场了:快速产出大量低质内容、不择手段吸引流量、借此牟取暴利的网站。放任甚至鼓励小编体营销号生长的部分国内平台,个人认为应当同样归类为内容农场。

让我们先从「快速产出大量低质内容」说起,点开一家内容农场的主页,往往只能看到少量正常文章,与普通网站无异,但若使用 site: 语法检索全站,Google 很可能会在几毫秒的时间内返回数百万条结果。

这是什么概念?

少数派开张九年有余,几百作者共同创作,迄今只有不到七万篇文章;而一个内容农场站群所掌握的域名数量可能数以千计,如果把每个页面都打印后连起来,内容农场的内容产出速度很可能会超越光速——但这并未推翻狭义相对论,因为其中不传递任何信息。

一二三四五六七位数 此等更新速度,显然不是因为雇了一个集团军的写手团队。内容农场的文章通常直接爬取自其它平台,用自动化程序实现从采集到发布的一整套流程:比较不讲究的,就是聚合下社交网络热门关键词,拼凑生成网页,主动推送至各大搜索引擎,能骗一个是一个;稍微先进点的,会扒下整篇文章,掐头去尾,再加上自己的水印,甚至直接复刻一个李鬼网站;技术力再高一点,可能从 Stack Overflow、GitHub 等外国网站搜刮热门内容,机器翻译后当成自家原创,或者干脆中翻英再翻中,让读者难以找到原文出处。

某机翻 Stack Overflow 的内容农场 辛辛苦苦搭建网站,维护爬虫,还要搭上不少直系亲属,显然不是为了普及百科知识或宣传兰州养生文化,从中榨取到的流量才是重头戏。在这方面,最具代表性的内容农场是屹立数年不倒、一般人根本察觉不了的「每日頭條」。据 SimilarWeb 数据,其在 2021 年 9 月的访问量超过三千万次,每位访客平均浏览 1.9 个网页,90% 的流量均来自站外搜索引擎。即使按最保守估计,仅凭借网站上的 Google AdSense 广告,站长也早就财务反复自由了。

五倍杀少数派 惊天内幕!内容农场总在前列的秘诀 内容农场罪大滔天,搞到网民怨声载道,各路搜索引擎何故视而不见?其中自有玄机。

还是以每日頭條为例,其绝大部分内容都直接抓取自微信公众平台、今日头条等致力于构建「生态闭环」的内地网站,而上述平台对通用搜索引擎极其不友好。因此,如果你发表了一篇公众号独占的原创文章,除搜狗外的搜索引擎只能索引到盗文的内容农场。在极端情况下,若原文被和谐,这些网站甚至可能成为唯一参考来源。

换句话说,在 Google 等搜索引擎看来,每日頭條的文章均属原创,而且量大管饱,精品频出,不排第一简直对不起作者。

关联阅读:7000 字告诉初学者 2022 Google SEO 怎么玩

这 就 是 原 创 内容钻了简中互联网信息孤岛的空子之外,每日頭條堪称一位守法公民。网站布局简洁,加载速度喜人,广告投放克制,文章交叉关联,HTML 头部标签齐全,AMP、响应式设计等对 SEO 有帮助的技术全不落下,哪家搜索引擎会不喜欢这样的好网站呢?当然,Google 在 版权常见问题解答 中明确指出,依据《数字千年版权法案》,所有侵犯版权的网页都会被移除,还提供了 移除向导 和 申诉表单。然而只有相应的版权拥有者或代理人才能提出申诉,并需要提供详细说明。

本表单具有法律效力哦 好在千万被侵权的作者中总有几个愿意花费大量时间和精力维权的。为了不留隐患,每日頭條早年间主动屏蔽了中国大陆的 IP 地址,专心做港台和其它华人地区的生意,而任何异常行为都可能导致你的 IP 被封禁,包括但不限于使用代理、开启浏览器隐身模式、访问频率过高等。此外,每日頭條还将 robots 属性设置为 noarchive,即允许搜索引擎收录但不允许快照。再加上严格的反爬策略,各种网页存档工具都很难获取正文,也让取证成为难事。

大陆 IP 禁止访问 更多的内容农场只是靠更新频率制胜,短时间内冲一波权重,捞够就换皮跑路,君不见小 X 知识的主域名现在就已经挂牌出售了。对于这种没有实质内容,意图操纵搜索排名的网站,Google 的打击力度一直比较大,直接访问 Google 垃圾网页举报工具,如实填写网址和被污染的搜索关键词即可。如果网站还展示了 Google 广告,不妨顺路 报告违反合作规范的情况,没准就把对方的广告联盟账户整没了。

Google 垃圾网页举报工具 净化搜索结果的妙招,地球人都哭了 内容农场往往手握众多域名,一个被降权、套娃立刻上线,-example.com 等 搜索语法 也只能作为临时措施。

更恼火的是,蜻蜓计划 等重返大陆的方案被搁置后,Google 对中文搜索已经基本进入了放养状态,在桌面端优先展示移动版网页都是常有之事。短期内我们很难指望 Google 优化相关算法,也不太可能通过人工手段干预搜索结果。如果你不想切换到其它搜索引擎(当然其它搜索引擎也不会好到哪去),更实际的方案是设法将内容农场从搜索结果中剔除。

下面介绍几种可行方案:

这两个结果都是移动版网页 uBlacklist 眼不见为净,最直接的方式当然是避免搜索结果中出现内容农场。uBlacklist 这款浏览器扩展就能自动屏蔽 Google 搜索页面中出现的低质量结果,支持 Chrome、Firefox 和 Safari 等主流平台。安装后,搜索结果的网址后面就会出现「加入黑名单」按钮,允许你通过域名、标题和正则表达式屏蔽不想看到的站点。例如,规则 /^https:\/\/www\.example\./ 将匹配所有以 https://www.example. 开头的 URL。

规则的进阶用法,不妨参阅 MDN 文档对 匹配模式 和 正则表达式 的讲解,uBlacklist 官网也给出了 部分范例。

编辑屏蔽规则 成功创建规则后,下次搜索时,uBlacklist 便会帮你隐藏已屏蔽的域名,并在顶部显示屏蔽数量。如果没搜到想要的结果,也可以暂时取消屏蔽,检查是否有误伤,uBlacklist 会高亮展示这些条目。对了,在扩展的选项页中,能够自定义高亮的颜色模式,还可以单独高亮指定搜索结果。例如,规则 @1*://.sspai.com/ 将以设置的「颜色 1」高亮所有少数派文章,一眼认出优质结果。

不要问我为啥转载比原文排名靠前 uBlacklist 默认仅为 Google 搜索结果启用,你可以在扩展的选项页中手动开启支持必应、DuckDuckGo、Ecosia 和 Startpage 四款搜索引擎,需要同意「存取相关网页数据」的额外权限。同页面还提供更多自定义选项,手动编辑、导入、导出规则,使用 Google 云端硬盘或 Dropbox 云端同步数据等功能。

但最实用的还属「订阅黑名单列表」,让我们在下一段详细道来。

uBlacklist 选项页 内容农场茫茫多,单靠自己添加,怕是得把这当成全职工作才行。这种时候,就有必要借助社区的力量了,一份由全球网友贡献并维护的优质规则列表可以极大地节约我们的时间。

目前更新最及时、社区最活跃的中文项目是 Google Chinese Results Blocklist,自 2016 年不断完善至今,已覆盖数千网址,提供 精确匹配 和 模糊匹配 两种规则,复制订阅链接后直接添加即可。uBlacklist subscription compilation 是一个较为激进的项目,整合网络上大部分订阅列表,通过 GitHub Actions 自动更新。如果你经常搜索编程关键词,我推荐尝试针对 机翻 Stack Overflow 和 GitHub 采集站的规则列表。也欢迎你参与上述项目,分享遇到的垃圾站点,让更多人受益。

中文搜索结果黑名单项目 用户脚本 如果你正在使用 Tampermonkey 等用户脚本管理器,不妨试试 Google Hit Hider by Domain 这款脚本,支持 Google、百度、必应、DuckDuckGo、Yandex、Yahoo 等主流搜索引擎。其使用方式与 uBlacklist 类似,点击标题后的 block 按钮屏蔽相应域名,可选择最小化为一行灰色摘要或彻底移除。

尽管只是脚本,Google Hit Hider by Domain 却提供了不少定制选项,同样支持导入和导出规则,前文介绍的 Google Chinese Results Blocklist 也提供了相应格式的 配置文件,下载后在工具栏内点击 Import 按钮即可。

Google Hit Hider by Domain 屏蔽效果 主业是去除搜索结果重定向、美化网页样式的知名脚本 AC-baidu 也内置了「自主拦截域名」附加功能,只是需要手动启用,其屏蔽规则格式与 Google Hit Hider by Domain 一致,复制上述列表内容后手动粘贴保存即可。

Ban Bad Websites 脚本不仅能标记低质量博客、下载站等,而且适用于所有网站上的超链接,但要求用户手动编辑源代码修改配置,门槛较高。

「翻译垃圾再利用」脚本则可以从机翻 Stack Overflow 的网站自动重定向至原文地址,省时省力。

AC-baidu 屏蔽效果 终结内容农场 只屏蔽搜索结果,有时还是难免一脚踏入陷阱,被某个看似无害的超链接带进内容农场的地盘。「终结内容农场」这款扩展就是对付它们的利器,不论身处何方,它都能在每个指向内容农场的链接前加上醒目的红色感叹号标志,与正常链接区分,并在进入农场前再次贴心提醒。

若依然执迷不悟,不妨点击「查看」按钮,浏览屏蔽多媒体内容和内嵌脚本后的纯净版页面,不让农场主骗取一分钱广告收益;想浏览完整网页,只能通过「解锁」按钮,但必须输入验证码,而且有冷却时间,避免频繁使用失去屏蔽的意义。

Judgment Day 「终结内容农场」扩展自然也支持订阅网络屏蔽列表,除了预设的 标准内容农场清单,在 GitHub 项目资料库,还提供了较为主观的 类内容农场清单、聚焦社交网站账户的 社群内容农场清单、报道罔顾事实的 假新闻网站清单 和谋财害命的 诈骗网站清单 等,可以根据自己的实际情况导入使用。

屏蔽名单的语法在扩展选项页有详细说明,支持正则表达式匹配和通用转换规则。用户还能填写 Google 表单,报告新发现的内容农场或被误杀的正规网站,让扩展更加完善。

「终结内容农场」选项页 除了专用扩展,uBlock Origin、AdGuard 等现代广告过滤工具同样支持自定义拦截规则列表,亦可用来屏蔽内容农场;在 Android 设备上,将 内容农场检查器 设为默认浏览器,即可在打开内容农场前收到提示;不过我更推荐使用 Firefox、Kiwi Browser 等支持安装扩展的浏览器,再借助上文介绍的方法提升搜索体验。

自 iOS 15 开始,移动端 Safari 浏览器也支持安装扩展,目前 uBlacklist 已经适配,相信未来会出现更多实用工具。

uBlock Origin 屏蔽效果 以下就是结语了,希望能够帮助大家 个人抵制内容农场的最佳方法,是无视它。不点击、不阅读、不分享,不给对方贡献任何流量,唯有令运营者无利可图,才可能甘愿退出。如果你是内容创作者,可以开设属于自己的博客,或者在对搜索引擎友好的平台撰文,好内容不应当是微信公众号独享。

每个人都做力所能及之事,改善严峻的简中互联网环境,才是根绝弊病的治本之道。

以上就是关于内容农场的全部事情了,希望能够帮助到大家。喜欢本文的话,不要忘记点赞分享关注,您的支持就是小编继续前进的动力。更多更快更新精彩内容,尽在【少※數※蒎 🆂SPA|。C0M】。大家对内容农场又有什么想法呢,欢迎在评论区告诉小编一起讨论哦!

下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰

实用、好用的 正版软件,少数派为你呈现 🚀

「内容农场」属实在玷污 Google 搜索结果 2021-10-15 笔记本 文章目录 前言 它叫「内容农场」 面对内容农场,可以做什么 对于搜索者 对于创作者 对于所有人 后记 「内容农场」包括且不限于各类采集站、StackOverflow 机翻站、爬取各大网站的展示站。这些「农场」不仅不愿自己耕种作物,还窃取他人果实。再由于窃取的手段十分粗糙,要么借助机器大规模作业要么请素质一般的某生物简单摘抄拼接,最终展现内容的质量往往不敢恭维,甚至内容都不堪入目。

除了给始作俑者带来不干净但可观的收益外,「内容农场」也就只能给希望在互联网上汲取养分的初学者猛地喂一坨 shit 罢了。

前言 准备在 Google 上搜索关于 Windows 11 正式版推出后的一些信息,结果最上面却是一个奇怪的网站。这个网站力压知乎、cnBeta、Bilibili、IT 之家、网易号等老牌、流量大、更新频繁、SEO 权重绝不会低的网站。

sunnews.cc

点进去,排版就看傻眼了。整个版面只有不到 20% 在显示正文内容,往下 7 页都是指向站内的链接,还全都是当天发布的。点开首页、各个分类下面,发现他们更是勤勉,每天更新百余篇文章……当然不是他们写的,有的文章末尾标注了公众号(估计是原文就标注了),可更多压根找不到来源标注。

无独有偶,曾经臭名昭著的「兰州养生网」,再到最近简直疯狂的「小XXX网」。V2EX 论坛上就在这周冒出许多吐槽的帖子,据说收集到的分身域名有多达 2500 个,后续又更新到 5 千、6 千个,丧心病狂。

小xxx网

它叫「内容农场」 这种充斥着劣质信息的采集站,有个专门的名字——内容农场,Wikipedia 就有一个词条专门介绍它。

「内容农场」是指为了牟取广告费等商业利益或出于控制舆论、带风向等特殊目的,快速生产大量网络文章来吸引流量的网站。此类网站通常找不到作者、管理者、网站负责人,也不会主动管理产出的内容,对侵权或错误内容投诉的处理也很消极。其产出内容多半都是缺乏原创性且真实性无法保证的内容,且有极高比例是盗用、盗译自他人的原创图文,或由非专业写手胡乱拼凑网络文章而来,因而多半缺乏可靠来源、质量低劣、不具参考价值、传播误导讯息,也经常掺杂大量广告或恶意程序。

这些网站偏偏抓住搜索引擎无法自行衡量内容价值,单用及其频繁的更新速度来套取搜索引擎的青睐并给到一个比较高的权重,甚至不用太关注 SEO,只要更新频繁 Google 自己就会主动会来爬取。由于真人一眼就能看出这是垃圾桶,所以内容农场也不会自讨没趣通过社交媒体转播,而单单扣住搜索引擎获取流量并走到极致。而且这种行为是有利可图的,身处流量时代,流量变现的门槛实在不高,接入广告平台就可以躺着收钱了。

你贪图利益与我无关,但妨碍到我正常搜素那可不能坐视不管。本来有网友热心撰写文章,却被垃圾文章挤占原本该属于前者的搜索结果高位。真正创造价值的人得不到应有的报酬,倒是垃圾的制造者赚的盆满钵满。

如果你搜索内容所在的领域恰有大量爱好者、从业者自发聚集并创建了领域内的论坛、博客等,被采集的概率也会更大。比如程序员社区,各种机翻 Stackoverflow、爬 GitHub 的 gitMemory 等网站层出不穷,许多「面向 Google 编程」的 Coder 没有太多精力甄别便为其送上流量。某些互联网大厂还带头干过这种事。

其实不仅中文搜索结果被下毒,其它语言的搜索结果也会时不时冒出内容农场来。但是开放精神不同程度缺失的中文互联网,各大公司迫切地将流量盘在一个个信息孤岛内。比如说公众号,不仅禁止搜索引擎爬取、不提供 RSS 输出、不允许文章聚合工具整理。想要发现更多优秀的公众号?请在社群中随缘相遇吧。对全局检索、发现新内容极不友好。 而事实上,公众号还是有不少不错的内容的,既然搜索引擎直接检索是检索不到的,那用点别的手段骗过公众号拿到内容,然后再整理放到一个网站开放给谷歌检索,补齐公众号文章本应从搜索引擎进来的这部分流量,然后借这些流量变现。 这类想法甚至还有点自然。所以,从某种程度上来说,国内互联网生态封闭的特点倒是在给内容农场筑势。

除了往你的搜索结果中倾倒垃圾内容,这种网站有时甚至不满足于你贡献的点击流量,还在页面中植入恶意代码……它们百害而无一利。

面对内容农场,可以做什么 放着内容农场不管,一直让他恶心自己不成?比起等待 Google 的动作,不如自己动手处理来得实在。

对于搜索者 等待搜索引擎清理站点过于漫长,但我们可以在搜索显示结果前自行过滤结果。目前像浏览器插件 uBlacklist、Personal Blocklist 等、油猴脚本 Google Hit Hider by Domain 等都能胜任过滤器的职责。

几个过滤器中较为推荐 uBlacklist——同时支持规则订阅和标题匹配,还能借助 Google Drive 或 Dropbox 在多设备之间同步配置。你可以在以下渠道获取 uBlacklist:Chrome Web Store、Firefox Add-ons、Mac App Store。

插件默认支持处理 Google 中的搜索结果,你也可以赋予插件「读取和修改网页数据」权限后也支持修改必应、DuckDuckGo、Startpage 等搜索引擎。安装后就可以通过搜索结果后面的「加入黑名单」让这个域名下的内容不再出现在你的 Google 搜索结果里。

uBlacklist 加入黑名单

同时,你也可以点击上面的「显示」来暂时显示已经屏蔽的域名下的条目,这些条目还会被显眼的颜色标注。

uBlacklist 暂时显示

uBlacklist 暂时显示的条目

加入你有多态设备,也无需在每台设备中配置一次,可以在插件选项中设置同步选项。

uBlacklist 同步

对于像上面「小XXX网」有数千个分身域名的内容农场来说,指望用户一个个添加显然是不太现实的。众人拾柴火焰高,我们可以订阅社区维护的规则列表来更方便快捷地过滤掉很多域名。这份订阅按需求更新即可,并不需要太频繁。

uBlacklist 订阅

关于规则订阅,我暂且只推荐几个,欢迎各位路过大佬评论给出更多。

中文搜索结果黑名单:一个维护了 4 年的规则,截止本文写作时 GitHub 已拥有 4.4k Star。 「小 X 知识百科网」清单:针对 g.penzai.com 及其数千个分身域名的规则,可以用于处理最近突然爆发的「小XXX网」。 针对 机翻 Stack Overflow 和 GitHub 采集站的规则。 这种方案的缺点也很明显,除了 iOS 15 的 Safari 目前已经支持插件,其它移动端主流浏览器几乎都不支持插件,在移动设备中搜索可能还是只能忍受劣质内容充斥首页。哦不,Firefox、Kiwi Browser 等浏览器支持安装扩展,如果你舍得抛弃 Chrome 及其背后的谷歌生态,拥抱可能割裂的移动端浏览器体验,倒也不失为一种选择。

对于创作者 首先感谢你们的存在,正因你们才使得中文互联网不至于那么槽,你们不可谓不是无尽黑夜中的点点星光。

为了不让你们的辛苦成果被他人窃取,自然是要采取一些手段防备的。

robots.txt 肯定是无效的,它更像一种君子协议,知名的爬虫一般会遵守。但这些没底线的抄袭者做的爬虫还是别指望了。也可以对 IP 访问设置阈值,若 IP 频繁访问就拉清单。但其实也挺好绕过的,毕竟 IP 不值钱。

这种时候非专业人士最好还是借助互联网公司提供的方案,自己估计折腾不出什么。假如你的域名托管在 Cloudflare,可以通过 Firewall 基于 IP、User Agent 判断是否为品行端正的爬虫并由此决定是否放行。不妨打开「Bot Fight Mode」,至于会不会影响搜索引擎收录,Cloudflare 对此的解释是「不会影响符合规范的爬虫」,但这个规范为何没有很明确地指明,也只举例 Google 一个。所以请自行权衡,开启与否取决于你是否非常在意各个搜索引擎、各种榜单的收录了。

Cloudflare Bot Fight Mode

还可以尝试常驻 5 秒盾、hCaptcha 等,恶意爬虫倒是能比较好地挡住了,只不过会一定程度上影响真人读者体验。

Cloudflare 5s盾

我并非此方面专业,自然说不出什么有价值的内容,此部分权当抛砖引玉,欢迎各位补充。

对于所有人 上面介绍内容农场的时候提到,假如人工介入,这种网站是很容易被 kill 的。所以,如果有空,不妨动动手在 Google 举报网络垃圾。尽管有点杯水车薪的味道,但总是添上一砖一瓦了的。

然而,做内容农场的人自然明白这一点。所以他们往往消极处理投诉,而更多的直接转战新域名。总之,把能做的先做了吧。

后记 通过备案查到 广东领讯网络科技有限公司,当然了,毕竟很少有非中文中主题运营中文内容农场的。天下内容农场共一石,中文独占八斗。

有人说,要养成使用英文搜索的习惯。诚然,编程上遇到问题我确实也更倾向于使用英文搜索,那很大程度上也是被 CSDN、阿里云社区、腾讯云社区逼的。而如今,随便搜个饮食、医疗相关的词条都有许多内容农场「从善如登,从恶如崩」般冒出。受限于地方差异,中文下对饮食的理解、描述很难被其它语言中的替代——下位替代都称不上。难道这方面的内容也要养成使用英文搜索的习惯?「开水白菜」怎么用英文说?

每次中文环境下出了问题,总是自然而然地切换到别的语言。我不知道这算不算一种背叛,但或多或少算得上逃避。从一开始互联网上完全没有中文内容,竭尽一代人努力后让中文成为互联网上第二多内容的载体,而如今却又不得不纷纷逃离。兴衰更迭,不禁唏嘘。

(简体)中文搜索会好起来吗?

不知道,但希望如此。

内容农场

条目 讨论 汉漢

大陆简体 阅读 编辑 查看历史

工具 维基百科,自由的百科全书

本条目存在以下问题,请协助改善本条目或在讨论页针对议题发表看法。 此条目需要精通或熟悉相关主题的编者参与及协助编辑。 请邀请适合的人士改善本条目。更多的细节与详情请参见讨论页。 此条目论述以部分区域为主,未必有普世通用的观点。 请协助补充内容以避免偏颇,或讨论本文的问题。 此条目介绍的是专门发布行销内容、虚假新闻等内容的网站。关于在互联网平台上发布营销内容、虚假新闻等内容的社交媒体账号,请见“营销号”。 内容农场(英语:content farm)是指为了牟取广告费等商业利益或出于控制舆论、带风向等特殊目的,快速生产大量网络文章来吸引流量的网站[1],通常,其也利用搜索引擎来达到吸睛点击[2];农场文则是此类网站制造的文章。

内容农场这类网站通常找不到作者、管理者、网站负责人,也不会主动管理产出的内容,对侵权或错误内容投诉的处理也很消极。其产出内容多半都是缺乏原创性且真实性无法保证的内容,且有极高比例是盗用、盗译自他人的原创图文,或由非专业写手胡乱拼凑网络文章而来,因而多半缺乏可靠来源、质量低劣、不具参考价值、传播误导讯息、翻译不正确,也经常掺杂大量广告或恶意程序[3]。

概述 部分内容农场由其他语言的内容农场或博客文章翻译而来,尤其是医学类文章等,较著名的一例便是美国博客Psychology Spot上一篇以《Did you know that intelligence is inherited from mothers?》(你知道智商的遗传是来自于母亲吗?)为题的文章,而此文章发布后便随即出现中文版本,也流传到许多内容农场里,然而讽刺的是,这篇文章被指内容不为所引用的论文支持,“智商基因”的说法也未得到任何医师或遗传学家的认可,此篇文章更曾引来台湾医界人士的强烈质疑,与对其缺乏数据论证的批判[4][5]。

有些内容农场的内容贡献者每天生产数篇文章,得到的薪水便足以维持生活。以Demand Media为例,据报导该内容农场的内容贡献者通常是受过教育的有小孩的妇女,在家工作赚取额外收入[6]。某些被视为内容农场的网站含有大量的文章,而且估值数以百万美元计。2009年Demand Media每月发表一百万篇文章,是英文维基百科的四倍[7];另一个网站Associated Content在2010年5月被Yahoo!以9000万美元收购[8]。

特征 以下是内容农场的常见特征:

大量剽窃:大量盗用他人原创内容,包括但不限于如下方式:[9] 有些内容农场会从其他网站盗用图文放入自己的网站,并移除原作者的名称及文章来源,甚至宣告为自行创作或在图片加上自己的水印。[10][11] 台湾、香港、澳门的一些内容农场会以人工或自动化程序大量盗用中国大陆社群服务(如微信公众号)的文章。由于这些网络社区较为封闭,其中很多文章也未曾出现在公开网络,即使用搜索引擎搜索关键词也不易发现此种剽窃行为。[12]但是这些文章经常只做简单的自动化简转繁处理,因此可看到大量中国大陆惯用语及简体字转繁体字的错误。 内容农场会用自动化程序大量查找国外网站的热门文章,经简单机器翻译后张贴在自家网站。另一些则是由写手在未经作者授权下翻译(或夹带改写)国外热门文章、图片,且隐蔽来源,令读者以为是原创。[13] 亦有内容农场会大量盗用网络文章,搭配盗来的廉价图片、音乐,拼凑成“农场视频”大量散播。[14][15][16] 二手转载:大量从其他内容农场转载文章。无论是否获得另一家内容农场的授权,由于未获原作者授权,因而仍属侵权行为。[17] 垃圾内容:以人工或自动化程序堆砌大量关键词,以达营销目的。这些堆砌的内容多为罐头文字且不通顺、不连贯、与上下文无关。[18]例如Pixnet、Xuite、Udn等平台可看到大量的“假开箱文”博客。[19] 劣质内容:不做内容管理[20],任由非专业写手挑选吸睛主题抄袭、改写、拼凑、杜撰文章[21],因而内容多无可靠来源且常有错误。 免洗网站:在不同网域建立大量网站复本,这些复本可能使用相似的标题或图标,共享Google分析追踪ID或Adsense发布商ID,或者用相同的身份注册网域[22]。网站本身多半缺乏文章列表、网站地图、RSS、留言板等一般内容网站会提供的功能,也没有“关于我们”、“联系我们”等页面交代网站背景、营运有关的信息、联系方法等,一旦被发现或被屏蔽就立即抛弃。[23][24][25] 社群导流:大量雇用“导流者”在社交网站转贴自产内容。[26][27] 夸大标题:使用夸大耸动的标题或吸睛的图片引诱读者点阅[28][29],但与内容关系性甚低,因而常被称作“骗点阅”、“标题党”。但由于读者已逐渐对夸大标题反感,此种标题操作手法已逐渐减少[26]。 匿名作者:作者通常全为匿名或免洗网名(与作者的真实姓名或常用笔名、网名无关),也缺乏作者的个人信息。[30] 广告营销:夹杂大量广告或营销内容,甚至有虚假宣传。[31] 恶意程序:透过各种转址机制把进入的用户自动跳转至钓鱼、色情、赌博等网站,或以各种名义诱骗用户下载恶意软件。[32] 批评 评论家批评内容农场提供的内容质量低劣[33],而且借由生产质量普通,而非优质的文章来获利[34]。文章通常是人写的而不是自动生成,但并非由专家撰写。有些内容农场的作者也承认,对自己文章内容相关的领域所知有限[35]。搜索引擎将内容农场视为一个问题,因为用户可能会被带往较不相关而且质量较差的搜索结果[36]。这种文章质量缩水、快速的生产方式被拿来和速食产业[37]还有污染作比较:

“ 信息消费者最后得到的是较不相干、没价值的资源。真正相关的资源的制造者得到较少的现金报酬(因为点阅率较低),而垃圾的制造者得到较多现金。有种方法可以形容这件事,那就是“污染”。这些虚拟垃圾增加噪声,污染了网络世界。其他人为网络污染付出了代价:搜索引擎效果变差,用户浪费宝贵的时间和注意力在垃圾网站上。诚实的出版者失去了收入,污染者摧毁了网络世界。 ” ——詹姆斯·荷勒 内容农场也被指造成假新闻泛滥。一些新闻媒体未有适当查证便根据内容农场的失实文章发布“新闻”,尤其是追求速度的“即时新闻”,只要有一个“较可信”的新闻媒体成功受骗,其他媒体就会误以为该“新闻”可信而跟着报导,让更多人误信假新闻[38][39]。

有人批评内容农场的成功模式吸引一些“较可信”媒体仿效,为了以低成本吸引点击而变得“内容农场化”[40]。

对内容农场的抵制 大型企业 Google曾多次调整算法,以避免内容农场量产的劣质内容呈现在Google搜索结果较前面的位置,例如2011年开始的Panda[41]及2017年的Fred[42]。Google于其《网站管理员指南》提到,自动产生的内容、没有原创内容或极少原创内容的网页、伪装、幕后重定向、隐藏式文字或链接、入口网页、抄袭的内容、无法有效增值的联盟计划、含有无关的关键字的网页、具恶意行为的网页(如网络钓鱼,或植入病毒、木马程序或其他恶意程序)等行为,会调整算法或人工介入降低搜索排名。[43]

Facebook于2016年下半年透过改变算法大幅限制有关的垃圾内容传播率,但因有大量“农场打手”在各专页转贴垃圾内容,一直禁之不绝。[44]香港亦有网民在Facebook开设“抵制内容农场”专页,希望可将“网络垃圾”赶绝网络。

相关工具 Personal Blocklist 2011年,Google在其开发的Chrome浏览器提供“Personal Blocklist”扩展,让用户自行加入网站名单,名单中的网站会从Google搜索结果隐藏,同时会发送到Google服务器以改善搜索引擎。此扩展于2018年因不知名原因下架,只剩网友重制的替代品。[45]

屏蔽内容农场 2015年10月,香港网友Ben Lau发布了名为屏蔽内容农场(Content Farm Blocker)的Google Chrome扩展,此程序设有内容农场黑名单,亦允许用户自定义黑、白名单,当用户进入黑名单中的网站,会显示紫色画面提示即将进入内容农场,用户可选择离开,或选择“继续”浏览原网页(屏蔽内容农场会暂停运作10分钟)。[46][47]有台湾网友于2017年制作Firefox版的屏蔽内容农场。

终结内容农场 台湾网友Danny Lin于2017年9月发布了支持Firefox及Chromium系浏览器的浏览器包“终结内容农场”。终结内容农场是重新撰写的程序,接口参考及改良自屏蔽内容农场,并集成了多款类似软件工具的功能,也加入了若干原创功能。其特色包括自动在网页中标示连往内容农场的超链接,浏览去除广告及代码的内容农场网站,订阅网络黑名单,开放用户举报内容农场且举报信息亦全面开放等等。[48][49]

uBlacklist 日本网友iorate于2018年6月发布了类似"Personal Blocklist"的浏览器插件,可以从Google、Bing、DuckDuck等搜索引擎的搜索结果中隐藏列入黑名单的网站。可订阅网络黑名单或透过云端硬盘服务同步自定义黑名单。[50][51][52]

内容农场终结者 2019年,Hyperbola发布了名为内容农场终结者(The Content Farm Terminator!)的Google Chrome扩展,这个包会使Google搜索结果出现灰色的“终结内容农场”按钮。按此按钮能将网站加入名单,并且该条目的网站会从Google搜索结果隐藏。