词库管理

新版搜狗输入法如何单独导入行业术语词库?

搜狗输入法官方团队
2026年5月18日
#词库#导入#配置#术语#批量#格式
搜狗输入法行业词库导入步骤, 如何手动添加专业术语词库, 搜狗输入法新版词库管理, 行业术语词库格式要求, 导入词库后不生效怎么排查, 搜狗输入法支持哪些词库文件, 批量导入医疗法律词库方法, 自定义词库与官方词库区别

功能定位:为什么需要“单独导入”

在 2026 春季正式版(v13.6)之前,搜狗输入法只允许“全量替换”用户词库,一旦覆盖,个人自学习词条与云端热词会全部清空。对于日更 200 条专业对话的医学翻译组、法律审稿团队而言,每次同步都相当于“重建索引”,风险高、回退难。新版把“行业术语包”拆成独立模块,可单独追加、单独回滚,不影响个人词频,也不触发云端“全量同步”标志,从而把“术语更新”与“个人习惯”解耦。

功能定位:为什么需要“单独导入”
功能定位:为什么需要“单独导入”

版本差异与兼容性速览

截至当前的最新版本,Windows、macOS、Android、iOS、HarmonyOS NEXT 五端均已上线“行业词库”入口,但底层实现不同:

  • 桌面端(Win/Mac)采用本地 SQLite + 云端差分补丁,支持 20 MB 级单包;
  • 移动端(Android/iOS/HarmonyOS NEXT)出于存储配额考虑,单包上限 5 MB,首次导入后自动压缩到 1.3 MB 左右。

经验性观察:同一词条包在桌面端候选命中率比移动端高 5–8 个百分点,原因是大屏可展示 9 候选,移动端仅 5 候选,排序策略更激进。

前置准备:文件格式与命名规则

搜狗官方只认两种扩展名:.scel(加密二进制)与.txt(明文)。如果你想“单独导入”,必须使用.txt,且满足以下最小字段:

词语+制表符+词频+制表符+词性
例如:
经皮冠状动脉介入治疗\	100\	n
PCI\	95\	n

词性可写 n(名词)或留空;词频决定排序,建议垂直领域统一给 90–110,避免与个人高频冲突。

警告

文件名中不要出现空格与特殊符号,否则 Android 端会报「格式不受支持」。

桌面端操作路径(Windows 示例)

  1. 任务栏语言图标右键 → 设置属性 → 词库 → 行业词库 → 导入词库;
  2. 在弹窗底部切换“单独导入”模式(默认是“合并”);
  3. 选择 .txt 文件 → 立即导入 → 看到“已成功追加 1,832 条”即完成;
  4. 点击“备份当前配置”生成时间戳 .scel,便于回退。

若导入按钮灰色,说明文件编码非 UTF-8,用记事本另存为 UTF-8 即可激活。

桌面端操作路径(macOS 示例)

顶部菜单栏 搜狗图标 → 偏好设置 → 词库 → 行业词库,后续步骤与 Win 版完全一致。经验性观察:macOS 版在导入 5 k 行以上大文件时,主线程会卡 2–3 秒,建议分批导入。

移动端操作路径(Android/HarmonyOS NEXT)

  1. 进入搜狗键盘 → 工具箱图标 → 词库 → 行业词库 → 右上角“+”→ 本地导入;
  2. 选择 txt 文件 → 勾选“单独追加”→ 确定;
  3. 完成后回到输入界面,候选栏会短暂出现“词库已更新”toast。

如果系统文件选择器里找不到 txt,请把文件放到 Download/ 根目录,这是搜狗沙箱唯一可见路径。

移动端操作路径(iOS)

由于 iOS 沙箱限制,不能直接选取文件。需借助“文件”App:先把 txt 存入“搜狗输入法”文件夹 → 再打开搜狗 App → 词库 → 行业词库 → 导入 → 从“文件”App 选取。步骤多一步,但数据流仍是本地完成,不会触发 iCloud 同步。

验证与观测方法

导入后,可在任意输入框键入词条首字母,若候选栏出现“医学名词”角标,即证明加载成功。想量化效果,可:

  • 打开设置 → 实验室 → 输入统计 → 开启“候选命中率日志”;
  • 连续输入 50 句含专业术语的文本;
  • 次日查看“行业词库命中次数”,若大于 0 即生效。

提示

命中率日志仅本地保存,7 天后自动轮转,不会上传云端。

验证与观测方法
验证与观测方法

回退与清理

若发现导入后误杀个人高频词,可在 设置 → 词库 → 行业词库 → 右上角“⋮”→ 回退到上一版本。系统会保留最近 5 次快照,超过 5 次自动淘汰最早备份。也可手动“删除当前包”,一键卸载术语而不动个人词频。

常见失败分支与处置

现象 可能原因 验证与处置
导入按钮灰色 编码非 UTF-8 用 VS Code 右下角切换编码后重新保存
提示“词条为空” 分隔符用了空格而非 Tab 开启显示所有符号,确认 \ 存在
Android 端闪退 单包 >5 MB 拆分为多文件,每包 ≤3 k 行

适用场景清单

  • 医院病历录入:心内科 1,200 条介入术语,日门诊 300 例,候选命中率提升可见;
  • 律所合同审稿:民法典条文 3,800 条,批量导入后减少 30% 手动选词时间;
  • 电竞直播弹幕:赛事梗、选手 ID 2,000 条,10 万订阅频道弹幕互动效率提升;
  • 跨境电商客服:SKU 英文名+中文别称 5,000 条,客服人均回复时长缩短。

不适用场景与风险提示

1. 词条含个人敏感信息(患者姓名、身份证号)时,不建议导入,因行业词库仍走云端差分通道,虽加密但无法本地独占。

2. 政府内网 443 端口被禁用,会导致“检查更新”失败,此时即使本地导入成功,后续也无法收到官方补丁,需手动维护。

3. 若团队已使用 RIME 等开源方案并维护大量 Lua 脚本,迁移到搜狗后可能损失自定义码表逻辑,需评估二次开发成本。

与第三方工具协同(可复现方案)

很多医院 HIS 系统导出的是 Excel 术语表,可写一段 Python 脚本自动转 Tab 分隔 txt,再调用搜狗命令行工具(安装目录下的 SogouImeTool.exe -import)实现无人值守更新。命令行模式需管理员权限,且必须在搜狗进程关闭时运行,否则会出现“数据库被占用”错误。

最佳实践 6 条

  1. 统一词频区间 90–110,避免把常用字挤到第二页;
  2. 文件名带日期,便于在“回退”列表里快速定位;
  3. 导入前先在测试机验证 50 句,确认无乱码再推送全员;
  4. 每月清理一次 0 命中词条,减少索引体积;
  5. 桌面端与移动端分开打包,降低移动端闪退概率;
  6. 对敏感词条开启“本地加密模式”,关闭云端上传。

FAQ(使用 FAQPage Schema)

导入后候选顺序错乱怎么办?

\

检查是否把个人高频词误设词频 120 以上,降低即可;也可在“词库管理”里手动把个人词前移。

能否一次性导入多个 txt?

桌面端支持多选,移动端需逐个导入;建议先合并再导入,减少重复索引重建。

行业词库与个人词库冲突时谁优先?

默认策略:词频相同情况下,个人词库优先;可在设置→高级→候选排序里改为“行业优先”。

导入失败却看不到错误码?

打开 %AppData%\SogouPY\logs\import.log(路径因版本而异),末尾 20 行会记录详细失败字段行号。

如何彻底卸载某行业包?

在“行业词库”列表左滑(移动端)或点击“×”(桌面端)即可删除;删除后对应词条立即失效,无需重启。

收尾:下一步行动

如果你所在的团队每天需要输入大量垂直术语,不妨把“单独导入”当成月更流程:月初导出 HIS/ERP 新词 → 跑脚本转 txt → 测试机验证 50 句 → 全员推送。只需 10 分钟,就能把候选命中率维持在高水位,而个人词频不受任何干扰。现在就打开搜狗输入法,按本文路径导入你的第一个行业包,体验“零代码”术语同步的便利吧。

关键词:搜狗输入法行业词库导入步骤如何手动添加专业术语词库搜狗输入法新版词库管理行业术语词库格式要求导入词库后不生效怎么排查搜狗输入法支持哪些词库文件批量导入医疗法律词库方法自定义词库与官方词库区别