第20周：模型算账、62万字OCR与钉钉自动化

这一周，信息量有点大。

从模型成本算账，到一本461页的肝脏外科专著OCR整理，再到两个急诊和临床会诊，最后在周末摸到了钉钉自动化的门槛。每一件事都值得单独写一篇，但串在一起，才是一整周真实的模样。

Medical technology overview

Photo by Igor Omilaev on Unsplash

模型成本：DeepSeek V4 Flash来了

周一，DeepSeek V4 Flash的1M上下文成了讨论焦点。我掏出过去30天的MiniMax用量记录，让AI给我算了一笔账。

MiniMax套餐29元/月，DeepSeek按量计费——粗估下来，如果全切过去，费用会贵5-6倍。单纯从价格看，MiniMax完胜。

Financial data analysis

Photo by Jakub Żerdzicki on Unsplash

但1M上下文真的有诱惑力。医学文献综述场景里，动辄几十页的PDF塞进上下文，4K窗口转眼就用完了。1M意味着可以把一整本指南塞进去，不需要切片、不需要排序。

最后怎么决定的？双模型并行。MiniMax处理日常对话和碎片任务，DeepSeek专门留给需要超长上下文的文献分析场景。这个组合策略比单纯切换更合理。

AI neural network model

Photo by Solen Feyissa on Unsplash

肝胆书OCR：一个通宵，62万字

周二到周三，有一件憋了很久的事终于落地了。

《肝脏外科要点与盲点》，461页，62万字。书的PDF扫描质量很差，直接文字识别准确率惨不忍睹。前两轮调试都不理想——PIL预处理反而降低质量，超时设置60秒根本不够。

第三轮，换了思路：去掉所有预处理，超时拉到300秒。凌晨开跑，睡醒去看结果。

Code programming screen

Photo by Lavi Perchik on Unsplash

461页全部完成，没有一页超时。OCR之后的内容被切分成批次，调用MiniMax API逐批提取知识卡片——这一步还在进行中，等全部跑完，准备整理成Anki记忆库。

最大的教训：有时候减法比加法管用。

急诊：种植牙卡在十二指肠

周四下午，急诊来了一个吞异物的病例。种植牙，CT定位十二指肠水平部，腹痛不明显。消化内科说胃镜取不出，让外科来看。

我值班二唤，先问了一句：刚吞下去多久。答案是不久。

这个细节很重要。异物还在近端，理论上还有机会往下走。但种植牙有螺纹根，10-14mm长，嵌顿风险不低。更麻烦的是十二指肠水平部就在腹膜后，一旦穿孔，后果严重。

Gastrointestinal surgery

Photo by Piron Guillaume on Unsplash

不建议单纯保守观察。给了两个建议：先复查CT判断异物位置是否有移动；如果CT显示没动或者出现腹痛加重，手术取出的窗口不能拖。

这个病例后来怎么样了，我没收到后续消息。希望只是虚惊一场。

临床会诊：胰十二指肠术后尿频

同一天稍晚，又来了一个会诊。60多岁女性，胰十二指肠切除术后第二天，拔除导尿管后出现明显尿频。胃管还在，口服用药暂时还用不了。患者拒绝重新插管。

这不算复杂的情况，但能讨论的点不少。

Medical literature research

Photo by Abdulai Sayni on Unsplash

术后尿频的常见原因包括：麻醉后膀胱功能障碍、液体输入量大、泌尿道感染、电解质紊乱。处理思路首先要排除感染和代谢问题，然后对症处理——但在没有口服途径的情况下，选择很有限。

这个病例让我反思了一件事：主流临床指南网站（EAU、AUA、NICE、UpToDate）几乎都对AI爬虫关闭了访问权限。我希望AI给出的建议是循证的，但循证来源的获取本身就成了障碍。扒来综合分析，说起来容易做起来难。

周记系统上线

周六，建立周记skill这件事终于提上了日程。

需求很简单：现有的每日日记流程基础上，把时间窗口扩展到周一到周日，配图密度提高到每200字一张。运行时间调整到周日22:30，和日记22:00错开。

Weekly planning calendar

Photo by Walls.io on Unsplash

第一次测试就撞上了429限流，连着两次都失败。第三次终于跑通了，生成了周记草稿和配图。草稿同步备份到了WSL目录，这件事之前漏了，这次补上了。

以后每周日22:30会自动生成周记初稿，配图自动搜索下载，不需要手动干预。

钉钉自动化：摸到了门槛

周日晚上，用户问了一个意料之外的问题：能不能模仿鼠标点击来操作电脑软件，目标是钉钉里的小程序和应用。

Mobile app automation

Photo by Jakub Żerdzicki on Unsplash

用的是腾讯应用宝模拟器打开的安卓版钉钉。模拟器环境对于自动化来说是个有意思的思路——有屏幕像素、有鼠标事件，理论上可以做GUI自动化。

这件事还没来得及深入，但方向很有意思。钉钉作为工作入口，里面的小程序和轻应用如果能做自动化，想象空间不小。医院场景下，排班查询、审批流程、消息推送都可以自己做。

值得花时间研究。

本文由Hermes自动整理