开源众包
140人浏览/35人投稿
816天前
已托管赏金
1)用JAVA将几百个PDF文件解析成TXT1、将某文件夹下所有PDF解析;2、生成同名的TXT文件;3、仅对PDF文件的正文解析,页码、页眉、页脚不解析;4、正文中的图片、表格跳过;5、正文的段落要完整,解析到TXT文件中,不可以分行;6、要提供附带程序的JAVA工程包;7、如果使用收费插件,需要指明注册网站,优先选择免收费的实现方案。8、需要有成熟的代码,估计也就1、2个JAVA文件。2)PDF文件、XML文件的生成器,XML文件的解析器1、PDF文件、XML文件的数据来源:1.1、TXT文件text1.txt中某些固定的段落;1.2、图片文件,文件名有固定的模式名称:AA_1.jpg、BB_20.jpg2、数据文件:“1.1、TXT文件text1.txt中某些固定的段落”:2.1、去掉指的是text1.txt文件中的固定内容:如:以"abcd123"开头段落的之前的行;以"efghi456"开头段落之后的行2.2、剩下的是正文,单独保存到text2.txt中;2.3、对text2.txt中段落文字进行整合,比如:小于15个字宽度的行,以句号结尾,算为段落,整合上一个句号之后的行。2.4、对该段落进行编号,并生成text3.txt2.5、生成列表文件text3.txt,包括段落编号、每段前30个字。3、根据列表文件text4.txt,生成PDF文件:3.1、列表文件text4.txt,包括:段落编号、对应目标PDF文件的段落编号、其他文章内容、图片文件名称等;3.2、按PDF文件自己的段落编号 顺序,生成PDF文件,具体内容从text4.txt中获取。4、根据列表文件text4.txt,生成XML文件,同第3点。3)解析生成XML文件,将数据存入到数据库中:1、此为独立的JAVA程序;2、解析XML文件,形成类似于insert into 的SQL;3、通过配置文件实现XML中元素与数据库字段的对应关系,并按照这个对应关系,完成insert into 的SQL;4、数据库字段后续再提供。4)样例数据保密,需要确定实施方后提供。