请问有什么可以将PDF转换成HTML的开源工具推荐的?

想要将PDF转成标签语义比较明确的HTML页面,目前找到的开源框架PDFBox和iText都只支持对划定坐标区域的表格进识别转换而不能自动识别,因为PDF文件格式不一,坐标区域不确定,所以这种方案不。而pdf2h工具tmlEX这个开源项目,转换成的HTML页面虽然看起来格式是跟原来的PDF文件最相似的,但是他的表格那些都是通过背景图片的形式呈现,也就无法实现后续通过程序提取表格标题和内容的需求。所以想问问有什么好的其他的开源项目推荐,或者关于这个几个开源项目我没接触到的特殊的功能可以实现解析格式这个需求的。

回答

技术跟不上需求就html代码直接pass掉,或者简化、删减功能。再或者就是另开源阅读谋他法

回复
@节节草 : o(╥﹏╥)o回复
@文小杰 : 那就把需求人开源工具员拖过来,用鞭子使劲抽想哭o(╥﹏╥)o需求不是我定的

另外PDF.js也是一样没法做到内容格式识别

HTML转开源工具PDF技术比较成熟,反过来,就比较难了

pdf转word免费的软件这样没错pdf有多种格式,比如图片格式的,怎么转化成html?用图像识别搞一下?现在的技术貌似难以实现,html转pdf还是很容易的,iText就可以弄不考虑扫描版本的,只考虑文字可复制的版本的。主要开源工具介绍是需要分工具人男配他觉醒了析提取数据

我最近也在处理这些事情 Adobe 手动转出来的效果 接口和SDK库还是没有。后来测试了PDhtml文件怎么打开Fix 收费的效果其次。

今天的大多数 PDF 文档都是非结构化的,没有很好地标记或根本没有标记。PDFix 使您能够自动重新发现丢失的结构。在包括机器学习在内的先进技术的html个人网页完整代码支持下,我们能够检测pdf怎么编辑逻辑元素,如段落、标题、图像、表格、列表、页眉/页脚、目录等。