Vincent
(2026-02-28 17:53):
#paper https://www.nature.com/articles/s41551-025-01587-2 Nature Biomedical Engineering 2025. Making large language models reliable data science programming copilots for biomedical research. 这篇文章首次系统评估了大语言模型在真实生物医学数据科学任务中的代码可靠性,并构建了专用基准 BioDSBench(39 篇研究,293 个分析任务)。结果表明,即使是最先进模型,在中高难度任务上的正确率仍然较低,作者指出问题核心不在语法能力,而在于模型对分析目标与数据结构语义理解不足。为此,论文提出“analysis plan 优先”的结构化策略:先生成并迭代优化自然语言分析计划,再转换为代码。基于该思想构建的 DSWizard agent 显著提升准确率(中高难度任务提升 30%+ 绝对值),而更自由的 ReAct 式 agent 并未带来稳定改进。该工作表明,在高风险科研场景中,结构化计划驱动的推理比单轮代码生成更关键,为构建可控透明的人机协作数据科学系统提供了重要方向。
Nature Biomedical Engineering,
2026-1-22.
DOI: 10.1038/s41551-025-01587-2
Making large language models reliable data science programming copilots for biomedical research
翻译
Abstract:
No abstract available.
Related Links: