虽然PDF文件适用于打印和发布,但不适用于所有类型的文件。例如,包含复杂图表和图形的文档可能无法在PDF中很好地呈现。但HTML文件可以在任何可操作浏览器的计算机上阅读和显示。而且HTML还具有占用服务器资源少、易于收录搜索引擎的特点。所以今天的文章将展示如何通过Java应用程序将PDF文档转换为HTML格式。以下是我整理的具体步骤和方法,并附上Java代码供您参考。
- 将PDF文档转换为HTML文件
- 将PDF文档转换为嵌入SVG的HTML文件
- 将PDF文档转换为HTML流
IntelliJIDEA 2019(jdk 1.8.0)
PDFJar包:FreeSpire.PDF for Java 5.1.0
引入jar包
导入方法1:
手动介绍。将Free Spire.PDF for Java下载到本地,减压,找到lib文件夹下的Spire.PDF.jar文件。在IDEA打开以下界面,打开当地路径中的界面jar文件引入Java程序:
导入方法2:假如你想通过Maven可以安装pom.xml 在文件中添加以下代码导入JAR 文件。
<repositories> <repository> <id>com.e-iceblue</id> <url>https://repo.e-iceblue.cn/repository/maven-public/</url> </repository> </repositories><dependencies> <dependency> <groupId>e-iceblue</groupId> <artifactId>spire.pdf.free</artifactId> <version>5.1.0</version> </dependency></dependencies>
将PDF文档转换为HTML文件我们可以使用Pdfdocument.saveToFile(String filename,FileFormat.HTML) PDF文档可直接转换为HTML文件。具体步骤如下。
- 创建Pdfdocument的对象。
- 使用Pdfdocumentent.loadFromFile() 加载PDF文件的方法。
- 使用Pdfdocumentent.saveToFle() 该方法将PDF文件另存为HTML文件。
Java
import com.spire.pdf.*;public class convertPDFToHTML { public static void main(String[] args) { ////创建Pdfdocument的对象 PdfDocument pdf = new PdfDocument(); //加载PDF文件 pdf.loadFromFile("郁金香.pdf"); ////保存PDF文件作为HTML文件 pdf.saveToFile("PDFToHTML.html",FileFormat.HTML); pdf.close(); }}
将PDF文档转换为嵌入SVG的HTML文件使用Pdfdocumentent.getConvertOptions().setPdfToHtmlOptions(true) 转换时可以嵌入SVG。将PDF文件转换为嵌入SVG的HTML文件的详细步骤如下。
- 创建Pdfdocument的对象。
- 使用Pdfdocumentent.loadFromFile() 加载PDF文件的方法。
- 使用Pdfdocumentent.getConvertOptions().setPdfToHtmlOptions(true) 该方法启用嵌入式SVG。
- 使用Pdfdocumentent.saveToFle() 该方法将PDF文件另存为HTML文件。
Java
import com.spire.pdf.*;public class convertPDFToHTMLEmbeddingSVG { public static void main(String[] args) { ////创建Pdfdocument的对象 PdfDocument doc = new PdfDocument(); //加载PDF文件 doc.loadFromFile("郁金香.pdf"); //设置嵌入SVG doc.getConvertOptions().setPdfToHtmlOptions(true); ///将PDF文件存储在HTML文件中 doc.saveToFile("PDFToHTMLEmbeddingSVG.html", FileFormat.HTML); doc.close(); }}
将PDF文档转换为HTML流Free Spire.PDF for Java还支持将PDF文档转换为HTML流。具体步骤如下。
- 创建Pdfdocument的对象。
- 使用Pdfdocumentent.loadFromFile() 加载PDF文件的方法。
- 使用Pdfdocumentent.saveToStream() 该方法将PDF文件保存为HTML流。
Java
import com.spire.pdf.*;import java.io.*;public class convertPDFToHTMLStream { public static void main(String[] args) throws FileNotFoundException { ////创建Pdfdocument的对象 PdfDocument pdf = new PdfDocument(); //加载PDF文件 pdf.loadFromFile(示例文档.pdf"); ///将PDF文件单独存储流动HTML File outFile = new File("PDFToHTMLStream.html"); OutputStream outputStream = new FileOutputStream(outFile); pdf.saveToStream(outputStream, FileFormat.HTML); pdf.close(); }}
效果图—本文完—