Метод автоматизированного пополнения базы знаний о составах и свойствах стекол на основе данных из научных публикаций
Автоматизация извлечения данных о составах и свойствах стекол из научной литературы критически важна для ускорения разработки новых материалов. В работе представлен метод, интегрирующий: 1) сбор полнотекстовых статей с помощью Elsevier Research Products APIs, 2) предобработку текста, 3) контекстно-зависимое извлечение структурированных данных с помощью большой языковой модели (LLM) и доменно-специфичного промпта, 4) пополнение базы знаний о стеклах. Ключевым достижением стала разработка промпта, обеспечивающего точность F1 = 0,99 для извлечения химических составов и их свойств, а также корректного установления связей между ними на выборке из 50 статей. Предлагаемый метод значительно упрощает автоматическое создание и непрерывное обновление баз знаний о стекле, тем самым устраняя традиционную зависимость от вручную отобранных, потенциально устаревших ресурсов и обеспечивая надежную, управляемую данными основу для эффективного проектирования стекол с заданными свойствами с помощью машинного обучения.