当前位置: 首页 > 图灵资讯 > 技术篇> 如何通过Java代码将 PDF 转为 HTML 格式

如何通过Java代码将 PDF 转为 HTML 格式

来源:图灵教育
时间:2023-05-24 09:23:39

虽然PDF文件适用于打印和发布,但不适用于所有类型的文件。例如,包含复杂图表和图形的文档可能无法在PDF中很好地呈现。但HTML文件可以在任何可操作浏览器的计算机上阅读和显示。而且HTML还具有占用服务器资源少、易于收录搜索引擎的特点。所以今天的文章将展示如何通过Java应用程序将PDF文档转换为HTML格式。以下是我整理的具体步骤和方法,并附上Java代码供您参考。

  • 将PDF文档转换为HTML文件
  • 将PDF文档转换为嵌入SVG的HTML文件
  • 将PDF文档转换为HTML流
编码环境:

IntelliJIDEA 2019(jdk 1.8.0)

PDFJar包:FreeSpire.PDF for Java 5.1.0

引入jar

导入方法1

手动介绍。将Free Spire.PDF for Java下载到本地,减压,找到lib文件夹下的Spire.PDF.jar文件。在IDEA打开以下界面,打开当地路径中的界面jar文件引入Java程序:

如何通过Java代码将 PDF 转为 HTML 格式_Java

导入方法2:假如你想通过Maven可以安装pom.xml 在文件中添加以下代码导入JAR 文件。

<repositories>        <repository>            <id>com.e-iceblue</id>           <url>https://repo.e-iceblue.cn/repository/maven-public/</url>        </repository>    </repositories><dependencies>    <dependency>       <groupId>e-iceblue</groupId>       <artifactId>spire.pdf.free</artifactId>        <version>5.1.0</version>    </dependency></dependencies>

将PDF文档转换为HTML文件

我们可以使用Pdfdocument.saveToFile(String filename,FileFormat.HTML) PDF文档可直接转换为HTML文件。具体步骤如下。

  • 创建Pdfdocument的对象。
  • 使用Pdfdocumentent.loadFromFile() 加载PDF文件的方法。
  • 使用Pdfdocumentent.saveToFle() 该方法将PDF文件另存为HTML文件。
完整代码

Java

import com.spire.pdf.*;public class convertPDFToHTML {    public static void main(String[] args) {        ////创建Pdfdocument的对象        PdfDocument pdf = new PdfDocument();        //加载PDF文件        pdf.loadFromFile("郁金香.pdf");        ////保存PDF文件作为HTML文件        pdf.saveToFile("PDFToHTML.html",FileFormat.HTML);        pdf.close();    }}

将PDF文档转换为嵌入SVG的HTML文件

使用Pdfdocumentent.getConvertOptions().setPdfToHtmlOptions(true) 转换时可以嵌入SVG。将PDF文件转换为嵌入SVG的HTML文件的详细步骤如下。

  • 创建Pdfdocument的对象。
  • 使用Pdfdocumentent.loadFromFile() 加载PDF文件的方法。
  • 使用Pdfdocumentent.getConvertOptions().setPdfToHtmlOptions(true) 该方法启用嵌入式SVG。
  • 使用Pdfdocumentent.saveToFle() 该方法将PDF文件另存为HTML文件。
完整代码

Java

import com.spire.pdf.*;public class convertPDFToHTMLEmbeddingSVG {    public static void main(String[] args) {        ////创建Pdfdocument的对象        PdfDocument doc = new PdfDocument();        //加载PDF文件        doc.loadFromFile("郁金香.pdf");        //设置嵌入SVG        doc.getConvertOptions().setPdfToHtmlOptions(true);        ///将PDF文件存储在HTML文件中        doc.saveToFile("PDFToHTMLEmbeddingSVG.html", FileFormat.HTML);        doc.close();    }}

将PDF文档转换为HTML流

Free Spire.PDF for Java还支持将PDF文档转换为HTML流。具体步骤如下。

  • 创建Pdfdocument的对象。
  • 使用Pdfdocumentent.loadFromFile() 加载PDF文件的方法。
  • 使用Pdfdocumentent.saveToStream() 该方法将PDF文件保存为HTML流。
完整代码

Java

import com.spire.pdf.*;import java.io.*;public class convertPDFToHTMLStream {    public static void main(String[] args) throws FileNotFoundException {        ////创建Pdfdocument的对象        PdfDocument pdf = new PdfDocument();        //加载PDF文件        pdf.loadFromFile(示例文档.pdf");        ///将PDF文件单独存储流动HTML        File outFile = new File("PDFToHTMLStream.html");        OutputStream outputStream = new FileOutputStream(outFile);        pdf.saveToStream(outputStream, FileFormat.HTML);        pdf.close();    }}

效果图

如何通过Java代码将 PDF 转为 HTML 格式_Java_02

—本文完—