您现在的位置是:首页 > 文章详情

Univer Clipsheet:一款功能超全面还超简单的 Chrome 开源爬虫插件

日期:2025-02-17点击:34

Clipsheet是一款完全开源的Chrome爬虫插件, 通过易用的交互界面以所见即所得的方式, 快速的从页面中采集到你想要的表格,且可以通过简单配置将采集工作自动化。

如何安装 Clipsheet ?

可以直接访问上面的 Chrome商店链接安装,如果无法访问外网,可以通过该下载链接 Docs,下载插件的压缩包安装。

​[插件压缩包安装教程]:Univer clipsheet 下载链接

快速开始

安装插件成功后,以亚马逊的列表页作为展示, 可以看到Clipsheet插件已经在该网页中自动检测到 4 个表格,此时插件内 快速采集 的按钮也是高亮的, 直接点击按钮就可以通过插件采集到我们的第一个表格

 

高级功能教程:

仅通过所见即所得的方式从网页中采集表格可能是不够的,Clipsheet插件还提供各种高级功能以便我们将采集这一过程自动化,我们这里列出了插件高级功能的教程,如果使用上还有任何问题,欢迎及时联系我们反馈

采集器讲解-执行操作

操作步骤:

1、先打开要采集的网站,并点击右上角的小插件

 

2、通过滚动页面,可以获取更多元素哦,查看右上角的×行元素知道大概的采集行数

 

3、根据不同网页加载数据的方式在采集器内设置对应的操作

  • 数据量较大时建议将间隔时间设置的稍微长一些

 

4、想要采集标题对应的内容时可以设置下钻,选择想要的内容区域

 

5、可以通过查看预览页自定义调整列

 

6、运行采集器时会打开一个新的页面,可以通过该页面确定采集的进度

 

7、采集完成后通过侧边栏 - 数据查看文档并导出​编辑​编辑

 

工作流讲解:定时采集&定时更新采集

操作步骤:

1、新增工作流,会展示选择数据源选项

  • 选择数据源时,会往对应的表格内新增数据
  • 未选择数据源时,会自动采集生成一个文档

 

2、在数据合并页面绑定要运行的采集器(教程见采集器讲解) ,自定义调整列后点击下一步

  • 可以绑定多个采集器,数据会统一汇总的到表格内

 

3、默认去重(比较所有的列),如不需要去重可以点击反选取消

 

4、在数据筛选页面可以设置过滤规则,采集想要的关键词数据等

 

5、上面都设置完成后,我们就可以设置定时并保存运行啦

  • 到时间点后会自动采集数据,在侧边栏的数据内可查看数据并导出

看完想要开发开发自己的爬虫插件?我教你!

开发插件的内容较多,单独开了新的文章去更新这部分内容,请通过以下文章阅读~

https://my.oschina.net/u/6977969/blog/17119015

联系我们

Clipsheet插件使用中有任何问题或者优化建议,欢迎通过github来提交issue上报问题,或通过以下方式来联系我们

原文链接:https://www.oschina.net/news/334334
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章