pdf表格提取，解析至特定格式

您的位置：首页 > 任务详情

招标模式 pdf表格提取，解析至特定格式

雇主：mike
发布时间：2022-09-03
分类：程序开发

¥ 2500 元

免责声明该外包需求信息来源于站外平台，本站仅提供公开信息部分字段展示与订阅服务，更多请查看免责声明。

任务详情

1. 根据给定的pdf，提取pdf中的部分文字内容（可用正则表达式匹配或用你习惯的方式），以及表格中的内容，并将内容整合成需要的字段（所以字段的计算方式已有），例子参见附件。 2. 不同pdf可能会含有多种表格类型，需要适配几种不同的表格类型（10种左右，大部分字段是类似的，有小部分的差异)，适配效果将直接体现到解析成功率上。3. 交付结果是一个函数，函数的输入为pdf路径和相关字段dict(用来和pdf中字段整合成最终结果)，输出为一个包含目标字段的dict。 4. 因项目其他部分是python，所以这个部分也需要使用python完成。 5. 我们有之前的python代码，已实现80%左右的表格内容提取，你也可以拿之前的代码做二次开发。 6. 验收方式：在总数据中随机抽500个pdf（测试数据我会在项目开始发一份给你)，解析成功率90%以上合格。7. 请注意，该项目中验收重点为解析成功率，请预留时间调试。8. 该项目为长期项目，后续的功能增加会长期合作。

任务附件 (0)