文献收藏与分享平台

李翛然 (2025-05-30 21:13):

#paper NMRExtractor: leveraging large language models to construct an experimental NMR database from open-source scienti c publications† DOI: 10.1039/D4SC08802F 中国科学院上海药物研究所郑明月团队开发了NMRExtractor工具，基于微调的大型语言模型（Mistral-7b）从570万篇PubMed开源文献中自动提取实验核磁共振（NMR）数据，构建了目前规模最大的公开NMR数据库NMRBank，包含225,809条高质量记录。 1. 高效提取流程 ◦ 通过正则表达式筛选含NMR的段落（380,220条），利用LLM精准提取化合物IUPAC名称、1H/13C NMR化学位移及实验条件。 ◦ 引入置信度评分机制（0-1分），高置信度（>0.8）数据准确率达97%，媲美人工标注水平。最近在看各种仪器数据处理

Chemical Science, 2025. DOI: 10.1039/D4SC08802F

NMRExtractor: leveraging large language models to construct an experimental NMR database from open-source scientific publications

翻译

Qinggong Wang, Wei Zhang, Mingan Chen, Xutong Li, Zhaoping Xiong, Jiacheng Xiong, Zunyun Fu, Mingyue Zheng

Abstract:

NMRExtractor is a large language model-powered pipeline that automatically extracts experimental NMR data from massive open-access publications, resulting in the construction of NMRBank—the largest open-access NMR dataset available to date.

翻译

Related Links:

https://doi.org/10.1039/D4SC08802F