火车采集器(LocoySpider)
v10.2.22.228 免费版- 软件大小:33.3 MB
- 更新日期:2022-06-15
- 软件语言:简体中文
- 软件类别:下载工具
- 软件授权:免费软件
- 软件官网:http://www.locoy.com/product
- 适用平台:WinXP, Win7, Win8, Win10, WinAll
- 软件厂商:合肥乐维信息技术有限公司
软件介绍人气软件相关文章网友评论下载地址
火车采集器提供网页内容采集功能,用户可以通过这款软件快速采集多个网页内容,可以对文本内容采集,可以对图像内容采集,可以对视频内容采集,不限制采集内容,您需要的网页资源都可以通过这款软件快速采集,并且支持过滤设置,可以自定义过滤方案,不符合规则的内容不会被采集,对于采集完毕的内容可以选择直接保存为本地文件,也可以选择将采集的内容立即发布到web,也支持保存采集的内容到数据库,提供的操作方案还是非常多的,满足大部分用户采集网页资源的需求,官方也提供了详细的帮助教程,让新用户快速学会采集网页资源!
软件功能
1、规则自定义 - 通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
2、多任务,多线程 - 可以同时进行多个信息获取任务,每个任务可以使用多个线程。
3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
4、数据保存 - 数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
5、断点续采 - 信息收集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。
6、网站登录 - 支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。
7、计划任务 - 通过这个功能可以让你的采集任务定时、定量或者一直循环执行。
8、采集范围限制 - 可以根据采集的深度和网址的标识来限制采集的范围。
9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
10、结果替换 - 可以将采集的结果根据规则替换成你定义的内容。
11、条件保存 - 可以根据某个条件来决定那些信息保存,那些信息过滤。
12、过滤重复内容 - 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
13、特殊链接识别 - 运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。
14、数据发布 - 可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
15、预留编程接口 - 定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
软件特色
1、火车采集器提供网页资源快速采集,可以自定义采集规则
2、软件提供新建任务规则设置,可以按照提示添加采集规则
3、支持起始网址设置,在软件设置您需要采集的网址范围
4、可以自己粘贴网址到软件采集,可以一次粘贴多个地址
5、您可以选择批量模式快速生成采集的地址,可以选择从本地导入采集的地址
6、支持通过mssql数据库导入采集的地址,登录数据库就可以导入采集内容
7、设置分页,记得设置内容标签的数据来源:在默认页和内容分页一源码中
8、支持循环功能,可以循环添加新的内容为新记录,可以用分割符连接在上条记录后循环
9、支持关联多页功能,可以在软件从默认页面获取地址
10、支持关联区域,可以在软件添加多个区域,先指定区域,再按提取方式获取数据
11、可以设置最大内容分页数量、每次最大采集数量、提取数据时忽略大小写
使用说明
1、将火车采集器安装到电脑,一直点击下一步就可以完成安装
2、启动软件提示登录界面,可以注册新的账号登录
3、进入软件会自动检测内核版本,可以选择升级到新版
4、软件使用还是比较复杂的,您可以到官方网站查看帮助教程
5、如图所示,添加新的采集任务,可以在这里设置网址,设置获取内容的方式
6、提示网址添加功能,将需要采集的网址直接复制到软件,也可以选择批量模式
7、也支持将文本中的地址直接导入到软件,也可以从数据库添加采集的网址
8、内容采集规则设置,数据获取方式:从源码中获取数据、生成固定格式的数据、已有标签组合
9、发布规则,可以选择将采集到的内容直接在web发布,可以选择导入到数据库,可以保存为本地文件
10、任务运行线程及时间:该项内的设置任务运行时,可以在任务运行管理窗口内动态修改,实时生效
11、http请求设置:默认设置(列表页,内容页,分页,关联多页均使用该配置)
12、文件图片下载设置,支持同步和异步:同时文件下载数3,注:若需同时下载较多文件,请将下载模式设置为“异步”
13、您可以在主界面管理批量任务,可以远程管理资源,可以运行统计,可以同义词替换内容
14、新用户不知道如何使用软件采集直接进入官方教程查看详细帮助,官方教程地址是:http://www.locoy.com/index/guide#获取内容网址.html
官方教程
开始菜单-计划任务
1、点击“ +分组 ” ,添加计划分组
2、选择一个分组,点击“ +计划任务 ” ,添加计划任务到选择分组
3、勾选任务,设置定时方案(可选择每间隔,每天,每周,仅一次,Cron表达式)
4、保存即可看到计划状态
下面为Cron表达式语法说明:
如下图,每天15点触发运行:
同义词替换
通过设置替换词库,来批量实现同义词替换
第一步:设置同义词替换词库
工具 -- 同义词替换
1.添加词库
2.删除词库
3.导入词库,词库为TXT文本,一行一个,逗号为半角逗号。 格式为:
4.打开同义词目录 ,软件的Configuration\Synonym 目录
5.同义词录入框
第二步,在规则里调用
数据处理-高级功能-同义词替换
采集页地址
采集默认页或者多页等页地址。通过设置数据来源来选择默认页或多页。
提取方式:正则提取,^(?[\s\S]*?)$
内容过滤
有时有些采集的数据不需要怎么办?火车采集器的内容过滤功能可以完成这个工作。
第二步:采集内容规则---数据处理---内容过滤
内容过滤有以下几个处理方法:
1.内容不得包含和内容必须包含:
可以设置多个词,支持选择 a.所有条件都必须满足 或 b.满足其中一个条件即可
2.采集结果不得为空:该功能可以让某个字段不出现空内容。
3.采集结果不得重复:该功能可以让某个字段不出现重复内容。设置此项前请确保您没有采集过数据,或者请先清空采集数据。
4.当内容长度小于(大于,等于,不等于)N时过滤:一个符号或一个字母或一个数字或一个汉字都算一个。
不符合要求的数据将被删除。
更新日志
1.新增:User-Agent支持从文本读取并随机切换。教程:http://faq.locoy.com/q-1348.html。
2.新增:自动识别手机号功能支持14、15、16、17、19开头的新号段。
3.优化:文件下载完毕插件接口优化。
4.优化:探测文件下载时正式下载文件,提升下载速度。
5.修复:http请求头“Header或设置名”以数字开头的名称报错的问题修复。
6.修复:发布到word文档,如果数据包含特殊字符或本地图片异常会导致发布失败问题修复。
7.修复:拷贝任务时,任务备注未拷贝问题修复。
8.修复:标签引用支持调用“列表页”标签。
9.修复:json提取时如果json对象的“键”是整型导致提取有误。
10.优化:网址解析替换html问题。
11.修复:get、post分页问题处理。
12.修复:生成固定格式的数据中“系统时间”选中“06-16”生成时间格式“yyyy-MM”
13.新增:数据库发布模块支持replace into语句。
下载地址
-
火车采集器(LocoySpider) v10.2.22.228 免费版
其他版本下载
- 查看详情火车采集器(LocoySpider) v10.2.22.228 免费版33.3 MB简体中文22-06-15
- 查看详情覃道明网文采集器 v1.0 免费版63.7 MB简体中文22-07-26
人气软件
BitTorrent(种子下载器)27.0 MB
/简体中文MusicTools(音乐免费下载软件)5.11 MB
/简体中文文献党下载器5.12 MB
/简体中文神奇网页图片下载机112 MB
/简体中文夸克网盘65.4 MB
/简体中文Gihosoft TubeGet Pro(视频下载工具)205 MB
/简体中文All Video Downloader Pro(视频下载工具)34.3 MB
/英文阿里云盘92.4 MB
/简体中文BitComet(比特彗星)1.87 MB
/简体中文Vovsoft M3U8 Downloader(M3U8下载器)15.4 MB
/简体中文
相关文章
查看所有评论>>网友评论共0条
热门关键词
精彩评论