📜  如何在Android中从PDF文件提取数据?

📅  最后修改于: 2021-05-10 14:37:27             🧑  作者: Mango

PDF是一种便携式文档格式,用于表示图像,表格等数据。如今,PDF在不同领域中的使用正在迅速增加。许多应用已切换为过度使用PDF文件来表示数据。因此,某些应用程序需要从PDF文件中提取数据并在我们的应用程序中显示该数据。在本文中,我们将创建一个应用程序以从PDF文件提取数据并将其显示在我们的应用程序中。

我们要建立什么?

在本文中,我们将构建一个简单的应用程序,在该应用程序中,单击按钮即可从PDF提取数据,并在“文本视图”中显示提取的数据。

分步实施

步骤1:创建一个新项目

要在Android Studio中创建新项目,请参阅如何在Android Studio中创建/启动新项目。请注意,选择Java作为编程语言。

第2步:将依赖项添加到build.gradle(Module:app)

导航到Gradle脚本> build.gradle(Module:app)并将以下依赖项添加到“依赖项”部分。

添加依赖项后,单击立即同步选项并同步您的项目。添加依赖关系后,让我们开始在您的应用程序内部添加PDF文件。

步骤3:在您的应用中添加PDF文件

由于我们正在从PDF文件提取数据,因此我们将在我们的应用程序内部添加PDF文件。要将PDF文件添加到您的应用程序,我们必须首先创建原始文件夹。请参考Android Studio中的Resource Raw Folder在Android中创建原始文件夹。创建新的原始目录后,将PDF文件复制并粘贴到该“原始”文件夹中。在您的应用中添加了PDF文件之后,现在我们将着手于XML部分的实现。

步骤4:使用activity_main.xml文件

转到activity_main.xml文件,并参考以下代码。以下是activity_main.xml文件的代码。

XML


  
    
          
        
        
  
    
  
    
    


Java
import android.os.Bundle;
import android.view.View;
import android.widget.Button;
import android.widget.TextView;
  
import androidx.appcompat.app.AppCompatActivity;
  
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
  
public class MainActivity extends AppCompatActivity {
      
    // creating variables for
    // button and text view.
    private Button extractPDFBtn;
    private TextView extractedTV;
  
    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);
          
        // initializing variables for button and text view.
        extractedTV = findViewById(R.id.idPDFTV);
        extractPDFBtn = findViewById(R.id.idBtnExtract);
          
        // adding on click listener for button
        extractPDFBtn.setOnClickListener(new View.OnClickListener() {
            @Override
            public void onClick(View v) {
                // calling method to extract
                // data from PDF file.
                extractPDF();
            }
        });
    }
      
    private void extractPDF() {
        try {
            // creating a string for 
            // storing our extracted text.
            String extractedText = "";
              
            // creating a variable for pdf reader 
            // and passing our PDF file in it.
            PdfReader reader = new PdfReader("res/raw/amiya_rout.pdf");
              
            // below line is for getting number
            // of pages of PDF file.
            int n = reader.getNumberOfPages();
              
            // running a for loop to get the data from PDF
            // we are storing that data inside our string.
            for (int i = 0; i < n; i++) {
                extractedText = extractedText + PdfTextExtractor.getTextFromPage(reader, i + 1).trim() + "\n";
                // to extract the PDF content from the different pages
            }
              
            // after extracting all the data we are 
            // setting that string value to our text view.
            extractedTV.setText(extractedText);
              
            // below line is used for closing reader.
            reader.close();
        } catch (Exception e) {
            // for handling error while extracting the text file.
            extractedTV.setText("Error found is : \n" + e);
        }
    }
}


添加XML代码后,现在我们将转向Java部分。

步骤5:使用MainActivity。 Java文件

转到MainActivity。 Java文件并参考以下代码。下面是MainActivity的代码。 Java文件。在代码内部添加了注释,以更详细地了解代码。

Java

import android.os.Bundle;
import android.view.View;
import android.widget.Button;
import android.widget.TextView;
  
import androidx.appcompat.app.AppCompatActivity;
  
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
  
public class MainActivity extends AppCompatActivity {
      
    // creating variables for
    // button and text view.
    private Button extractPDFBtn;
    private TextView extractedTV;
  
    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate(savedInstanceState);
        setContentView(R.layout.activity_main);
          
        // initializing variables for button and text view.
        extractedTV = findViewById(R.id.idPDFTV);
        extractPDFBtn = findViewById(R.id.idBtnExtract);
          
        // adding on click listener for button
        extractPDFBtn.setOnClickListener(new View.OnClickListener() {
            @Override
            public void onClick(View v) {
                // calling method to extract
                // data from PDF file.
                extractPDF();
            }
        });
    }
      
    private void extractPDF() {
        try {
            // creating a string for 
            // storing our extracted text.
            String extractedText = "";
              
            // creating a variable for pdf reader 
            // and passing our PDF file in it.
            PdfReader reader = new PdfReader("res/raw/amiya_rout.pdf");
              
            // below line is for getting number
            // of pages of PDF file.
            int n = reader.getNumberOfPages();
              
            // running a for loop to get the data from PDF
            // we are storing that data inside our string.
            for (int i = 0; i < n; i++) {
                extractedText = extractedText + PdfTextExtractor.getTextFromPage(reader, i + 1).trim() + "\n";
                // to extract the PDF content from the different pages
            }
              
            // after extracting all the data we are 
            // setting that string value to our text view.
            extractedTV.setText(extractedText);
              
            // below line is used for closing reader.
            reader.close();
        } catch (Exception e) {
            // for handling error while extracting the text file.
            extractedTV.setText("Error found is : \n" + e);
        }
    }
}

添加此代码后,现在运行您的应用程序并查看代码的输出。

输出:

运行该应用程序后,单击“从PDF提取数据”按钮,您将看到从PDF文件中提取了文本。

想要一个节奏更快,更具竞争性的环境来学习Android的基础知识吗?
单击此处,前往由我们的专家精心策划的指南,以使您立即做好行业准备!