通过 Python 将 PDF 转换为 TXT

PDF 到 TXT 的 Python 转换。程序员可以使用此示例代码通过 COM Interop 将 PDF 导出到任何 .NET 框架、.NET Core 以及 PHP、VBScript、C++ 中的 TXT。

在 Python via .NET 中将 PDF 转换为 TXT

如何将 PDF 转换为 TXT?您可以使用现代文档处理 Python API,轻松地以编程方式将文档从 PDF 转换为 TXT 格式。只需几行代码即可高质量地转换文件。Aspose.PDF 库允许任何开发人员使用 Python 轻松完成 PDF 到 TXT 的转换任务。

有关代码片段和其他可能的转换格式的更详细说明,请参阅文档页面。此外,您还可以查看我们库支持的其他格式转换

使用 Aspose.PDF for Python via .NET 库,您可以通过编程方式将 PDF 转换为 TXT。 Aspose 的 PDF 软件非常适合个人、小型企业和大型企业。它能够处理大量信息,快速高效地执行转换并保护您的数据。Aspose.PDF 的一个独特功能是提供将 PDF 转换为 TXT 的 API。此方法的特点是,您只需打开 PyPI 包管理器,搜索aspose-pdf,然后安装即可,无需任何复杂的特殊设置。为了验证该库的优势,请尝试使用将 PDF 转换为 TXT 的代码片段。您也可以从控制台或终端使用以下命令:

Console

pip install aspose-pdf

如何将 PDF 转换为 TXT


Python via .NET 开发人员只需几行代码即可轻松加载 PDF 个文件并将其转换为 TXT。

  1. 从 aspose.pdf 库导入所需的模块,包括用于加载 PDF 文件的文档类。在继续操作之前,请确保安装和导入必要的库。
  2. 通过将 indir 与 infile 连接来指定输入 PDF 文档的路径,从而确保正确的目录结构以正确定位输入文件。
  3. 创建文档对象的实例并加载指定的输入 PDF 文件。此步骤是访问 PDF 内容以进行进一步处理所必需的。
  4. 创建 TextDevice 对象的实例,该实例将用于从 PDF 文档中提取文本。此设备类型适用于从 PDF 文件中提取纯文本。
  5. 使用 TextDevice 对象处理加载的 PDF 文档的第二页(索引 1),并使用指定的输出文件名将提取的文本作为文件保存到指定的输出目录中。
  6. 通过将 outDir 与 outfile 连接来设置输出目录路径,确保生成的文本文件保存在正确的位置。
  7. 打印一条成功消息,表明输入的 PDF 已转换为提取的纯文本。

以下示例演示了如何在 Python 中将 PDF 转换为 TXT。你可以按照以下简单步骤将你的 PDF 文件转换为 TXT 格式。首先,上传你的 PDF 文件,然后将其保存为 TXT 文件。您可以使用完全限定的文件名进行 PDF 读取和 TXT 写入。输出 TXT 的内容和格式将与原始 PDF 文档相同。

示例:通过 Python 将 PDF 转换为 TXT

此示例代码显示 PDF 到 TXT Python 的转换

Input file:

File not added

Output format:

TXT

Output file:

import aspose.pdf as apdf

from os import path

path_infile = path.join(self.data_dir, infile)
path_outfile = path.join(self.data_dir, outfile)

document = apdf.Document(path_infile)
device = apdf.devices.TextDevice()
device.process(document.pages[1], path_outfile)

print(infile + " converted into " + outfile)

使用 Python via .NET 将 PDF 转换为 TXT

通过.NET API 的 Python Aspose.PDF 支持大多数成熟的 PDF 标准和 PDF 规范。它允许开发人员在 PDF 文档中插入表格、图表、图像、超链接、自定义字体等。此外,也可以压缩 PDF 文档。通过.NET 的 Python Aspose.PDF 为开发安全的 PDF 文档提供了出色的安全功能。通过.NET API 为 Python 开发的 Aspose.PDF 的一些关键功能包括:

  • 能够以多种图像格式读取和导出 PDF,包括 BMP、GIF、JPEG 和 PNG。
  • 设置 PDF 文档的基本信息(例如作者、创建者)。
  • 转换功能:将 PDF 转换为 Word、Excel 和 PowerPoint。将 PDF 转换为图像格式。将 PDF 文件转换为 HTML 格式,反之亦然。将 PDF 转换为 EPUB、文本、XPS 等。

你可以在我们关于如何使用 API 的 文档 上通过.NET API 找到有关 Aspose.PDF for Python 的更多信息。

OSZAR »