任务详情
1.目前有大量的中文文章,需要从中提取出一些结构化信息。数据源:从公开网络抓取的国内政策文章,通常几百到几千字,可能内含doc或pdf附件。要提取的目标信息:城市,行业,标签(具体待定),政策开始/结束时间,申报条件(文字描述),优惠政策(文字描述)2.数据源可以参考这里:https://zcb-admin.xabsk.com里面的政策管理->事务中心目标结构参考这里:https://zhengce.qizhidao.com/project/332564278529753088.html?source=noSeo3.再补充一点信息3.1,目前基础数据量预估在600w左右,其中有效的估计只有不到5%,也就是只需要能给企业申报补助的政策,所以第一步是要洗数据3.2,关于政策的起止时间,结构化以后可能有几种,有明确的年月日、周期性,这个如果纯正则可能搞不定,还得通过语言理解提取的方式3.3,文中的补贴方式和申报条件,是从正文中摘录的一段话,但是需要对段落编号进行重新处理3.4这是一个有效数据的原文http://xakj.xa.gov.cn/zwgk/zcwj/bmwj/1318498398413369345.html处理后的结果是https://appweb.qizhidao.com/project/projectDetail?id=332564278529753088