不败君

前端萌新&初级后端攻城狮

博客文章被采集(爬取)搬运

博客文章被采集(爬取)搬运

2020-06-08 18:05:00

围观(2185)

博客最高访问量的一篇文章: 简单使用 Laravel-admin 构建一个功能强大的后台管理

因为这篇文章很多的流量都是从百度和谷歌进来的, 所以博主心血来潮就在百度了一下, 看看排名是多少.


直接从百度搜索 "Laravel-admin" 到第三页还没有发现博主的文章, 当然这不是重点.

重点是在第三页, 可以发现这篇文章:

1.png


看到这个标题, 感觉很熟悉. 点进去一看. 发现就连内容的文字及图片都是一样的.

2.png


然后稍微仔细一看, 发现图片也是照搬了. 因为那个 Windows 的用户名是博主的 QQ 号开头(以前装系统随便打的一个用户名 用的就是 QQ 号开头).

3.png


这个是博主的文章截图:

4.png

这是完全的一模一样, 有些采集还会稍微改一下内容.


再看看文章发布时间吧, 博主的文章是 2019-02-17 18:53:42 精确到了时分秒, 还记得写那篇文章的时候, 在出租房写了一个下午, 到晚上快七点才写好, 这篇文章也是博主写过最多图片的一篇. 截图是真的很累.

再看看被搬的时间, 还好搬文章的人用的是博客园而不是自己的程序, 不然他是可以随便修改文章发布时间的:

5.png

说一下那篇文章的背景吧, 那篇文章是博主在刚出来工作(实习), 而且还没实习结束的时候, 将自己的所见所闻, 学习到的一点点 Laravel admin 的知识写出来.

没想到就这样就被搬走了. 其实博主并不反对搬文章, 而是更应该放上原文链接. 这是对原作者的尊重.


其实这样采集搬运文章的人还真不少, 例如博主所在的一个QQ群就有人这样做:

6.png

由于一些搜索引擎的算法, 会导致一些采集文章的博客权重会更高, 而真的努力在写每一篇博文的博客无论是收录还是权重都比不过.

所以这样会导致很多专门采集文章的博客.


正如博主现在这个, 百度搜索 Laravel-admin 到第三页了还没看到博主写的原创文章, 但是却能看到被搬走的文章, 因为博客园的权重比博主这个只有一点点流量的博客要强太多. 

但是百度也更不应该因为网站权重高就忽视了一些搬文章的存在.


互联网很大, 其实很可能并不止是这篇文章被搬走了, 并且很多博客都有被搬走文章的情况.

如果都不重视的话, 可能会导致一些原创博主就不公开自己写的文章了. 


虽然博主也经常写一些讲述怎么自动采集之类的文章, 但是博主并没有将采集用于任何系统.

自动采集可以学习, 或者用于一些数据的统计. 但是这种直接搬走文章的行为还是令人愤怒的. 而且连个原文地址链接都没有.


最后说一下可以通过技术方式避免被搬运文章的方式.

如果是手动复制然后再到自己博客上发布的, 基本上拦不住.

如果是用了自动采集(爬虫), 可以限制一下访问频率之类的, 当然如果对方仅仅只是爬取一篇文章的话, 同样是无法感知的无法避免.


最重要的是, 将每个图片都进行水印处理. 推荐使用对象存储(好像现在市面上的云服务商都有提供这个, 腾讯和阿里都有, 七牛应该也有).

不会破坏原图, 只需要加访问样式就行了.

比如博主使用了阿里的:

7.png

当然了, 加了水印也并不是百分百能避免了被采集的, 因为水印也是可以利用技术手段去除的. 除非整个图都是水印.

本文地址 : bubaijun.com/page.php?id=187

版权声明 : 未经允许禁止转载!

评论:我要评论
发布评论:
Copyright © 不败君 粤ICP备18102917号-1

不败君

首 页 作 品 微 语