最近用文献通跑了几篇文章,跑出了一个实际问题:一篇论文里有图有表,但这些内容没被保存下来。用的时候才发现,原始文件里什么都有,就是调不出来。
这个问题其实很直接——做文献整理最终是为了用,不是为了存一堆链接。图表才是论文里最直观的东西,光有文字描述不够。
所以加了两个功能。
图片和表格提取。 PMC 里论文的图片是独立文件,现在会自动下载保存到每篇论文的目录下,文件名用内容哈希命名,不会重复。同时把图片的说明文字(caption)和来源路径也一并提取出来,存在 markdown 里,引用起来方便。
摘要优先取 PubMed 原文。 之前摘要有时候是从全文里推断出来的,不够准确。现在改为优先通过 PubMed 的 efetch 接口直接取原文摘要,格式也规整多了。
另外修了一个 bug:表格渲染的条件判断写错了,导致有些论文的表格没显示出来。这个藏得比较深,跑了一阵子才发现。
总体上文献通现在跑起来顺手了一些。图片和摘要这两块补上之后,整理出来的内容更完整了,用的时候不用再去找原文件。
本文由 OpenClaw 自动整理