Apache TikaでPDFをテキスト抽出したら同じ文字が連続して読み込まれる現象を解決する

markdown

はじめに (対象読者・この記事でわかること)

この記事は、JavaでPDFファイルからテキストを抽出する際にApache Tikaを使用している開発者を対象としています。特に、抽出したテキストに「同じ文字が連続して読み込まれる」という現象に悩まされている方におすすめです。

この記事を読むことで、Apache TikaでPDFからテキストを抽出する際の文字化けの原因と、それを防ぐための具体的な対策方法がわかります。また、PDFの内部構造とTikaの処理の関係性についても理解を深めることができます。

前提知識

この記事を読み進める上で、以下の知識があるとスムーズです。

Javaの基本的な文法とプログラミング経験
MavenまたはGradleを使った依存関係の管理
PDFファイルの基本的な知識

PDFテキスト抽出で遭遇する「文字連続」現象の正体

Apache Tikaは、様々な形式のドキュメントからテキストを抽出する優れたライブラリです。しかし、PDFファイルからテキストを抽出する際に、時として「同じ文字が連続して出力される」という現象に遭遇することがあります。

例えば、「こんにちは」という文字が「こここんんんににちちちははは」のように、本来の文字数より多く出力されるケースです。この現象は、PDFの内部構造とTikaのテキスト抽出ロジックの相性によって発生します。

PDFファイルは、私たちが見ているテキストの順番通りにデータが格納されているわけではありません。PDFは表示用に最適化されたフォーマットで、文字の配置情報を個別に持っているため、同じ文字が複数回抽出されることがあるのです。

原因を特定して解決策を実装する

それでは、実際にコードを見ながら、この問題の解決方法を詳しく解説していきます。

問題の再現：シンプルな抽出コード

まず、一般的なApache Tikaを使ったPDFテキスト抽出のコードを見てみましょう。

Java

import org.apache.tika.Tika;
import org.apache.tika.metadata.Metadata;
import java.io.File;
import java.io.FileInputStream;

public class SimplePdfExtractor {
    public static void main(String[] args) {
        Tika tika = new Tika();
        File pdfFile = new File("sample.pdf");

        try (FileInputStream stream = new FileInputStream(pdfFile)) {
            String content = tika.parseToString(stream, new Metadata());
            System.out.println(content);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

このコードでPDFを読み込むと、特定のPDFファイルで文字の重複が発生することがあります。

原因の特定：PDFParserの設定を見直す

この問題の主な原因は、PDFParserのデフォルト設定にあります。Apache TikaのPDFParserには、文字の重複を防ぐための設定があります。

Java

import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import java.io.FileInputStream;

public class ImprovedPdfExtractor {
    public static void main(String[] args) {
        PDFParser parser = new PDFParser();
        ParseContext context = new ParseContext();
        Metadata metadata = new Metadata();
        ContentHandler handler = new BodyContentHandler(-1); // 文字数制限なし

        // PDFParserの設定をカスタマイズ
        context.set(PDFParser.class, parser);

        try (FileInputStream stream = new FileInputStream("sample.pdf")) {
            parser.parse(stream, handler, metadata, context);
            String content = handler.toString();

            // 重複文字を除去
            content = removeDuplicateCharacters(content);
            System.out.println(content);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    // 連続する重複文字を除去するメソッド
    private static String removeDuplicateCharacters(String text) {
        if (text == null || text.isEmpty()) {
            return text;
        }

        StringBuilder result = new StringBuilder();
        char prevChar = '\0';

        for (char currentChar : text.toCharArray()) {
            if (currentChar != prevChar) {
                result.append(currentChar);
                prevChar = currentChar;
            }
        }

        return result.toString();
    }
}

より高度な解決策：PDFBoxの設定を活用する

Apache Tikaは内部でApache PDFBoxを使用しているため、PDFBoxの設定を活用することでより精度の高い抽出が可能になります。

Java

import org.apache.tika.config.TikaConfig;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.pdf.PDFParserConfig;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import java.io.FileInputStream;
import java.io.InputStream;

public class AdvancedPdfExtractor {
    public static void main(String[] args) throws Exception {
        // TikaConfigを使用してカスタム設定を適用
        TikaConfig config = TikaConfig.getDefaultConfig();
        Parser parser = new AutoDetectParser(config);

        // PDFParserConfigで詳細な設定
        PDFParserConfig pdfConfig = new PDFParserConfig();
        pdfConfig.setExtractInlineImages(false);
        pdfConfig.setSortByPosition(true); // 位置情報でソート
        pdfConfig.setExtractUniqueTextOnly(true); // 重複テキストを除外

        ParseContext context = new ParseContext();
        context.set(PDFParserConfig.class, pdfConfig);

        Metadata metadata = new Metadata();
        ContentHandler handler = new BodyContentHandler(-1);

        try (InputStream stream = new FileInputStream("sample.pdf")) {
            parser.parse(stream, handler, metadata, context);
            String content = handler.toString();

            // 日本語の重複文字を考慮した処理
            content = removeConsecutiveDuplicates(content);
            System.out.println("抽出されたテキスト:");
            System.out.println(content);

            // メタデータも表示
            System.out.println("\nメタデータ:");
            for (String name : metadata.names()) {
                System.out.println(name + ": " + metadata.get(name));
            }
        }
    }

    // 日本語を考慮した重複除去
    private static String removeConsecutiveDuplicates(String text) {
        if (text == null || text.length() < 2) {
            return text;
        }

        StringBuilder result = new StringBuilder();
        int i = 0;

        while (i < text.length()) {
            char current = text.charAt(i);
            result.append(current);

            // 現在の文字と同じ文字をスキップ
            while (i + 1 < text.length() && text.charAt(i + 1) == current) {
                i++;
            }
            i++;
        }

        return result.toString();
    }
}

ハマった点やエラー解決

実際の開発で私が遭遇した問題をいくつか紹介します。

1. 文字エンコーディングの問題

日本語のPDFで文字化けが発生した場合、以下のようにエンコーディングを明示的に指定する必要があります。

Java

// メタデータにエンコーディングを設定
metadata.set(Metadata.CONTENT_ENCODING, "UTF-8");

// または、BodyContentHandlerに文字セットを指定
ContentHandler handler = new BodyContentHandler(
    new OutputStreamWriter(System.out, "UTF-8")
);

2. メモリ不足エラー

大きなPDFファイルを処理する際にOutOfMemoryErrorが発生することがあります。

Java

// BodyContentHandlerに文字数制限を設定
// 1000000文字まで
ContentHandler handler = new BodyContentHandler(1000000);

// JVMのヒープサイズを増やす
// java -Xmx2g -cp yourapp.jar MainClass

3. 特殊なフォントを使用したPDF

特殊なフォントを使用したPDFでは、フォントの埋め込み設定が重要です。

Java

PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractBookmarkText(true);
pdfConfig.setExtractFontNames(true);
pdfConfig.setExtractInlineImages(true);

実践的なユーティリティクラスの完成

最後に、これらの知識を活用した実践的なユーティリティクラスを作成します。

Java

import org.apache.tika.config.TikaConfig;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.pdf.PDFParserConfig;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.nio.charset.StandardCharsets;

public class PdfTextExtractor {
    private final PDFParserConfig pdfConfig;

    public PdfTextExtractor() {
        this.pdfConfig = new PDFParserConfig();
        configurePdfParser();
    }

    private void configurePdfParser() {
        pdfConfig.setExtractInlineImages(false);
        pdfConfig.setSortByPosition(true);
        pdfConfig.setExtractUniqueTextOnly(true);
        pdfConfig.setExtractBookmarkText(true);
        pdfConfig.setExtractFontNames(false);
    }

    public String extractText(File pdfFile) throws IOException {
        return extractText(pdfFile, -1);
    }

    public String extractText(File pdfFile, int maxLength) throws IOException {
        TikaConfig config = TikaConfig.getDefaultConfig();
        Parser parser = new AutoDetectParser(config);

        ParseContext context = new ParseContext();
        context.set(PDFParserConfig.class, pdfConfig);

        Metadata metadata = new Metadata();
        metadata.set(Metadata.CONTENT_ENCODING, StandardCharsets.UTF_8.name());

        ContentHandler handler = new BodyContentHandler(maxLength);

        try (FileInputStream stream = new FileInputStream(pdfFile)) {
            parser.parse(stream, handler, metadata, context);
            String content = handler.toString();
            return postProcessText(content);
        } catch (Exception e) {
            throw new IOException("PDFのテキスト抽出に失敗しました: " + pdfFile.getName(), e);
        }
    }

    private String postProcessText(String text) {
        if (text == null) {
            return "";
        }

        // 連続する空白文字を単一のスペースに
        text = text.replaceAll("\\s+", " ");

        // 連続する同じ文字を除去
        text = removeConsecutiveDuplicates(text);

        // 前後の空白を削除
        text = text.trim();

        return text;
    }

    private String removeConsecutiveDuplicates(String text) {
        if (text == null || text.length() < 2) {
            return text;
        }

        StringBuilder result = new StringBuilder();
        char[] chars = text.toCharArray();

        for (int i = 0; i < chars.length; i++) {
            result.append(chars[i]);

            // 現在の文字と同じ連続する文字をスキップ
            while (i + 1 < chars.length && chars[i + 1] == chars[i]) {
                i++;
            }
        }

        return result.toString();
    }

    // 使用例
    public static void main(String[] args) {
        PdfTextExtractor extractor = new PdfTextExtractor();

        try {
            File pdfFile = new File("sample.pdf");
            String text = extractor.extractText(pdfFile);

            System.out.println("=== 抽出されたテキスト ===");
            System.out.println(text);
            System.out.println("=== 文字数: " + text.length() + " ===");

        } catch (IOException e) {
            System.err.println("エラーが発生しました: " + e.getMessage());
            e.printStackTrace();
        }
    }
}

まとめ

本記事では、Apache TikaでPDFからテキストを抽出する際に発生する「同じ文字が連続して読み込まれる」現象の原因と解決策を解説しました。

PDFの内部構造とTikaの処理の関係性
PDFParserConfigを使用した詳細な設定方法
日本語PDFでの文字重複を防ぐための後処理方法
実践的なユーティリティクラスの実装

この記事を通して、PDFテキスト抽出における文字重複問題を解決し、より精度の高いテキスト抽出ができるようになりました。今後は、他のドキュメント形式（Word、Excel等）での同様の問題や、大量のPDFを効率的に処理する方法についても記事にする予定です。

Apache TikaでPDFをテキスト抽出したら同じ文字が連続して読み込まれる現象を解決する📄