在实际工作中,我们可能经常需要从PDF文档中获取相关内容。在没有安装Adobe Acrobat的情况下,我们可以使用Microsoft Office 2007套件中的Microsoft Office文档影像组件,实现PDF和Doc之间的转换,具体步骤如下:
步骤1:打印为图像文件
使用Adobe Reader打开相关的PDF文档,并从“文件”菜单中执行“打印”命令。此时,将弹出打印对话框。由于大多数默认打印机是真实的物理打印机,而不是虚拟打印机,请从打印机下拉列表框中选择Microsoft Office Document Imaging Writer,然后单击“确定”按钮。确认后,PDF文档可以输出为TIFF格式的图像文件。
第二步:读取图像文件
运行微软办公文档图像。这个组件可以在Office程序组的Office工具子例程组下找到。打开刚打印的图像文件,选择“工具”“向Word发送文本”命令。此时会弹出一个对话框。如果不需要更改输出文件夹,只需单击“确定”,系统会提示您在执行此操作之前必须重新运行OCR。这可能需要一些时间。“确认后,就可以开始转换操作了。各位,请稍等。转换完成后,系统会自动打开Word窗口,显示从PDF文档转换而来的文档内容。但是,如果PDF文档很复杂,某些内容(如图像和表格)可能无法完美显示。
如果只需要获取PDF文档中的文本内容,那么操作非常简单。首先使用Adobe Reader打开相关的PDF文档,然后从“文件”菜单中执行“另存为文本”命令,在弹出的对话框中指定保存路径和文件名。确认后需要等待一段时间,节省的时间取决于当前文档的页码。)我们很快就会得到一个完整的文本文件。至于原文档中的图像内容,只能另想办法了。