Разработка большой языковой модели для извлечения данных из текстовых неструктурированных документов на примере отчетов промыслово-геофизических исследований

UDK: 681.518:622.276
DOI: 10.24887/0028-2448-2025-9-108-111
Ключевые слова: технология дополненной генерации с извлечением данных (Retrieval-Augmented Generation (RAG)), большая языковая модель (Large Language Model (LLM)), промыслово-геофизические исследования (ПГИ), геофизика, искусственный интеллект
Авт.: Б.М. Латыпов, к.т.н. (Уфимский гос. нефтяной технический университет); Е.В. Юдин, к.ф.-м.н. (Группа компаний «Газпром нефть»); Р.А. Бондоров (Уфимский гос. нефтяной технический университет); Н.А. Зырянов (Санкт-Петербургский гос. университет)

В статье представлена методология и результаты разработки прототипа системы для автоматизированного извлечения структурированной информации из неформализованных текстовых отчетов промыслово-геофизических исследований (ПГИ) нефтяных скважин. В основе решения лежит использование большой языковой модели LLM (Large Language Model) Qwen в сочетании с технологией дополненной генерации с извлечением данных (Retrieval-Augmented Generation (RAG)) для доступа к внешним базам знаний. Проведено сравнительное тестирование базовых архитектур LLM (Qwen2.5-7B-Instruct и ruGPT-3.5-13B), в котором модель Qwen продемонстрировала значительное преимущество как по точности, так и по скорости обработки данных. Ключевым результатом работы является интеграция подхода RAG, которая позволила повысить точность классификации геолого-технических осложнений с 45 % у базовой модели до 83 % для девяти классов. Разработанный программный комплекс выполняет полный цикл обработки: от предобработки текста и выделения сущностей до классификации осложнений и генерации структурированных данных для интеграции в корпоративные информационные системы. Среднее время обработки одного отчета составило 30 с. Предложенное решение предназначено для автоматизации инженерного анализа, поддержки планирования мероприятий и повышения операционной эффективности при эксплуатации нефтяных месторождений.

Список литературы

1. Определение параметров продуктивного пласта с помощью анализа промысловых данных работы добывающих скважин / В.А. Краснов, И.В. Судеев,

Е.В. Юдин, А.А. Лубнин // Научно-технический вестник ОАО «НК «Роснефть». – 2010. – № 1. – С. 30–34. – EDN: MMABIV

2. Автоматизация анализа нефтепромысловых замеров / Р.Н. Асмандияров, А.Е. Кладов, А.А. Лубнин [и др.] // Нефтяное хозяйство. – 2011. – № 6. – С. 58–61. – EDN: NVASTX

3. Применение интеллектуальных методов анализа высокочастотных промысловых данных для решения задач нефтяного инжиниринга / А.М. Андрианова, Е. В. Юдин, Т. А. Ганеев [и др.] // Нефтяное хозяйство. – 2021. – № 9. – С. 70–75. – https://doi.org/10.24887/0028-2448-2021-9-70-75. – EDN: SDBLUX

4. Intelligent Methods for Analyzing High-Frequency Production Data to Optimize Well Operation Modes / E. Judin, A. Andrianova, T. Ganeev [et al.] // SPE Annual Caspian Technical Conf., Nur-Sultan, Kazakhstan, Nov. 15–17. – 2022. – https://doi.org/10.2118/212118-MS

5. Whiteside J. large language model speeds up wells data retrieval but must be used with care // Drilling Contractor [Электронный ресурс]. – 2023. – Режим доступа: https://drillingcontractor.org/ai-enabled-large-language-model-speeds-up-wells-data-retrieval-but-mu... (дата обращения: 12.08.2025).

6. Rachmanto R. Utilizing large language models for information retrieval from reports in the oil and gas industry // Plain English AI. – 2023. – https://ai.plainenglish.io/utilizing-large-language-models-for-information-retrieval-from-reports-in...

7. Ghorbanfekr H., Kerstens P.J., Dirix K. Classification of geological borehole descriptions using a domain adapted large language model // arXiv preprint arXiv:2407.10991. – 2024. – https://doi.org/10.48550/arXiv.2407.10991

8. Information extraction from historical well records using a large language model / Zhiwei Ma, J.E. Santos, G. Lackey [et al.] // Scientific Reports. – 2024. – V. 14. –

No 1. – P. 15634. – https://doi.org/10.1038/s41598-024-81846-5. – EDN: WZSLKC

9. GeoGalactica: A large language model for geoscience knowledge retrieval and reasoning / Zhouhan Lin, Cheng Deng, Le Zhou [et al.] // arXiv preprint arXiv:2401.00434. – 2024. – https://doi.org/10.48550/arXiv.2401.00434

10. A survey of large language models / Wayne Xin Zhao, Kun Zhou, Junyi Li [et al.] // 10.48550/arXiv.2303.18223. – 2023. – https://doi.org/10.48550/arXiv.2303.18223

11. Retrieval augmented language model pre-training //International conference on machine learning / Guu K. [et al.]. – PMLR, 2020. – Р. 3929–3938.



Внимание!
Купить полный текст статьи (русская версия, формат - PDF) могут только авторизованные посетители сайта.