一、应用背景
AI爬虫软件可以帮助审计人员快速获取网页中的信息,并整理成表格便于查阅,通过搜集相关部门官方网站公示信息,如公共资源交易平台上公示的项目报建、招标公告、评标结果公示等信息,可以在审计项目正式实施前,初步分析疑点,核对被审计单位填报的信息,有利于审计人员更有针对性地制定审计实施方案。
二、应用步骤
目前常用的免费AI爬虫软件有八爪鱼、EasySpider等,它们工作原理和操作方式基本相同,可用于舆情监控、网页数据获取等,八爪鱼比EasySpider更加智能,并且内嵌“全国公共资源交易平台-交易公开”模板可以直接使用。下面以八爪鱼软件为例,浅述应用步骤。
(一)数据准备
八爪鱼软件可以直接在官网网站中下载安装,某市(县)公共资源交易中心网站可以通过百度搜索直接找到,以某县公共资源交易中心网站为例,我们在网站中找到“中标结果公告”栏点击进入,并复制网址。
(二)建立模型
1.新建任务。打开八爪鱼软件,选择“新建”“自定义任务”,将网址粘贴至网址栏,点击保存设置。
2.生成采集设置。进入网站后,软件会自动识别网页数据,点击“切换识别结果”,将数据选取为我们想进入的二级链接。然后点击“生成采集设置”。这时我们可以看到软件自动提取的网页数据链接。是我们想进入的数据链接。
3.进入下级页面。我们所需要的详细数据还需要点击链接进入才能显示,因此我们点击“进入下一级页面”,再点击“确定”,等待软件自动识别网页内容完成。
4.字段设置。软件自动识别下级页面数据后,点击“生成采集设置”,这时我们可以筛选出我们需求的数据,为了数据导出后便于查询,我们需要重新设置下字段。首先我们点击右侧垃圾桶,将不需要的字段删除;然后点击“+”,添加字段,在网页中点选我们需要的信息,如果点选的是图片,则需要选择“提取数据”中的“文本内容”。本次审计我们需要项目名称、招标时间、中标人名称、中标价等信息。
5.数据采集。我们将所需的字段都设置好后。如果我们所需某几年度的数据,我们可以点击右侧的“循环翻页”进行设置,勾选设置“循环次数”为我们想要翻页次数,再点击右上角的“采集按钮”,软件会自动翻页采集所有数据。
6.数据导出。数据采集好后,我们点击导出数据,数据格式可以为XLSX ,方便我们利用电子表格进一步筛查分析。
(三)数据整理
将数据导出后,我们打开电子表格,删除掉不需要的列,将表头改为对应的内容,我们就可以开始分析、比对数据的工作了。
(四)数据分析
1.比对被审计单位上报数据。一是通过比对项目个数,分析是否存在部分项目未按要求在相关网站发布中标公告等信息;二是核实被审计单位填报的招标时间、中标单位名称、中标金额等信息是否存在错误。
2.筛选重复出现的中标单位。通过电子表格可快速筛选重复中标的企业,进一步分析一是该企业是否在同一时间中标多个项目,该企业是否有能力同时承担多个重大项目建设;二是分析该企业长期中标项目的时间,是否与领导干部任职、离职时间相吻合,找出存在的疑点。
3.结合审计方案初步筛查疑点。一是筛查关键字“老旧小区”“公园”等,初步查看该地区十大民生实事项目是否已经招标实施;二是筛查中标金额5000万元以上的重大项目,与被审计单位提供的台账比对,初步判断重大项目是否都已及时实施;三是筛查“中心”“服务站”等关键字,查看是否存在违规新建楼堂馆所的疑点。
三、应用效果
(一)发现某老旧小区增补项目未按要求开工
审计组通过前期收集省住建厅下达的该地区老旧小区任务数,通过搜索“老旧小区”等关键字,发现该地区无相关项目招标信息,初步判定该项目未按时开工实施。
(二)被审计单位填报数据存在缺失
审计组通过筛查5000万元以上的重大项目,发现项目个数多于被审计单位填报的项目数。通过关键字对比重复项,发现被审计单位漏报2个项目。
(三)发现某施工企业长期中标的疑点
审计组通过筛查施工企业名称,发现某本地施工企业在2024年10月至12月,中标了4个重大项目,中标总金额达2.28亿元,通过查询四库一平台中企业信息,审计组初步判断该企业中标的规模、个数与企业规模、人员力量不相匹配。
(四)存在违规新建楼堂馆所的疑点
审计组通过关键字筛查项目名称,发现了该地区新建了某畜牧中心项目,从投资规模和建设内容来看,存在违规新建楼堂馆所的疑点,将列为审计期间关注的重点项目。
四、应用前景
AI爬虫软件可以在审计正式开展前,从各种渠道收集更多相关信息进行分析,提前帮助审计人员筛查疑点,锚定审计重点,
(一)舆情分析。可以从贴吧、论坛中采集数据,利用关键词搜索,实现舆情分析,此前笔者在某地建设项目审计中,利用EasySpider软件,发现了某论坛中有农民工举报某施工企业拖欠农民工工资、违法转包项目的舆情,从而在审计进点后,快速查证了该问题。
(二)多层级数据比对。可以收集多部门多层级的公示信息,互相印证信息的真实性与完整性,在与被审计单位前期填报的基本情况信息比对核查。
(三)与deepseek技术相结合。利用各部门网站公示信息,可以有效避免内部信息泄漏风险,结合本地部署的deepseek,建立并训练AI审计模型,将搜集到的信息输入至deepseek,得到相关建议。