DeepSeek超长文本处理的分块策略

结合 SentencePiece tokenizer 预处理，分块准确率提升至 98.7%。处理 10 万 token 以上文本时内存溢出，且语义连贯性下降。

瑾书2021

1040人浏览 · 2025-03-29 13:44:28

瑾书2021 · 2025-03-29 13:44:28 发布

难点：
处理 10 万 token 以上文本时内存溢出，且语义连贯性下降。

技术方案：

递归分块算法

python

def recursive_chunking(text, chunk_size=4096):
    if len(text) <= chunk_size:
        return [text]
    mid = len(text) // 2
    return recursive_chunking(text[:mid], chunk_size) + recursive_chunking(text[mid:], chunk_size)

语义感知合并
使用 LangChain 实现重叠窗口合并：

python

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=4096,
    chunk_overlap=256,
    length_function=len
)
chunks = text_splitter.split_text(long_document)

优化：

结合 SentencePiece tokenizer 预处理，分块准确率提升至 98.7%。