您的位置:首页 > 任务详情
招标模式 用JAVA将几百个PDF文件解析成TXT并生成新的PDF、XML文件
  • 雇主:mike
  • 发布时间:2023-03-24
  • 分类:程序开发

¥ 300

免责声明 该外包需求信息来源于站外平台,本站仅提供公开信息部分字段展示与订阅服务,更多请查看免责声明。

任务详情

1)用JAVA将几百个PDF文件解析成TXT1、将某文件夹下所有PDF解析;2、生成同名的TXT文件;3、仅对PDF文件的正文解析,页码、页眉、页脚不解析;4、正文中的图片、表格跳过;5、正文的段落要完整,解析到TXT文件中,不可以分行;6、要提供附带程序的JAVA工程包;7、如果使用收费插件,需要指明注册网站,优先选择免收费的实现方案。8、需要有成熟的代码,估计也就1、2个JAVA文件。2)PDF文件、XML文件的生成器,XML文件的解析器1、PDF文件、XML文件的数据来源:1.1、TXT文件text1.txt中某些固定的段落;1.2、图片文件,文件名有固定的模式名称:AA_1.jpg、BB_20.jpg2、数据文件:“1.1、TXT文件text1.txt中某些固定的段落”:2.1、去掉指的是text1.txt文件中的固定内容:如:以"abcd123"开头段落的之前的行;以"efghi456"开头段落之后的行2.2、剩下的是正文,单独保存到text2.txt中;2.3、对text2.txt中段落文字进行整合,比如:小于15个字宽度的行,以句号结尾,算为段落,整合上一个句号之后的行。2.4、对该段落进行编号,并生成text3.txt2.5、生成列表文件text3.txt,包括段落编号、每段前30个字。3、根据列表文件text4.txt,生成PDF文件:3.1、列表文件text4.txt,包括:段落编号、对应目标PDF文件的段落编号、其他文章内容、图片文件名称等;3.2、按PDF文件自己的段落编号 顺序,生成PDF文件,具体内容从text4.txt中获取。4、根据列表文件text4.txt,生成XML文件,同第3点。3)解析生成XML文件,将数据存入到数据库中:1、此为独立的JAVA程序;2、解析XML文件,形成类似于insert into 的SQL;3、通过配置文件实现XML中元素与数据库字段的对应关系,并按照这个对应关系,完成insert into 的SQL;4、数据库字段后续再提供。4)样例数据保密,需要确定实施方后提供。

任务附件 (0)

暂无稿件哦!

预期中标

已中标

0

快去分享,提高任务的曝光率吧

  • 发布需求     2023.03.24
  • 服务商报价    
  • 选择服务商并托管资金    
  • 服务商工作    
  • 验收付款    
  • 评价