李翛然 (2025-05-30 21:13):
#paper NMRExtractor: leveraging large language models to construct an experimental NMR database from open-source scienti c publications† DOI: 10.1039/D4SC08802F 中国科学院上海药物研究所郑明月团队开发了NMRExtractor工具,基于微调的大型语言模型(Mistral-7b)从570万篇PubMed开源文献中自动提取实验核磁共振(NMR)数据,构建了目前规模最大的公开NMR数据库NMRBank,包含225,809条高质量记录。 1. 高效提取流程 ◦ 通过正则表达式筛选含NMR的段落(380,220条),利用LLM精准提取化合物IUPAC名称、1H/13C NMR化学位移及实验条件。 ◦ 引入置信度评分机制(0-1分),高置信度(>0.8)数据准确率达97%,媲美人工标注水平。 最近在看各种仪器数据处理
NMRExtractor: leveraging large language models to construct an experimental NMR database from open-source scientific publications
翻译
Abstract:
NMRExtractor is a large language model-powered pipeline that automatically extracts experimental NMR data from massive open-access publications, resulting in the construction of NMRBank—the largest open-access NMR dataset available to date.
翻译
回到顶部