43 thoughts on “[Android] 困于 Gboard 孱弱的中文拼音词库,整理制作了一份一百万词汇量的词库

  1. @jianzhao123

    确定完整目录正确吗?按理说这种地址应该是通用的吧……
    如果还是没有,可能得做一下相关的搜索了

  2. @haozi1986 /data/data/com.google.android.inputmethod.latin/databases/PersonalDictionary.db
    第一个 data 无法找到,找到的是 Android/data/com.google.android.inputmethod.latin/里面只有一个 cache,手动新建文件夹也不行,手机已 root 。

  3. @jianzhao123

    你安卓版本和 Gboard 版本是多少啊?

    我这边看了一下,我主力机 Android 11 + Gboard 10.0.01 还有副机 Android 5.1.1 + Gboard 9.0.10 ,数据库目录都是在那里,莫不是氧 OS 改了什么路径?

  4. @jianzhao123 因为我没有用双拼,所以没加这方面的数据,另外也考虑过非全拼,比如仅仅用首字母进行输入,但这样数据就会增加很多,所以暂时也没这个打算

  5. 用上了,但出现了一些奇奇怪怪的候选词优先级问题
    ![]( https://i.niupic.com/images/2020/11/01/8WoT.jpg)
    “不是”甚至直接失去了出现在首选词和第一页候选词的权利…
    ![]( https://i.niupic.com/images/2020/11/01/8WoU.jpg)
    ”但是“被奇怪的词语抢先
    ![]( https://i.niupic.com/images/2020/11/01/8WoV.jpg)
    “词语”
    ![]( https://i.niupic.com/images/2020/11/01/8WoX.jpg)
    “首选词”被强行拆分…
    ![]( https://i.niupic.com/images/2020/11/01/8WoZ.jpg)
    总之…用户词典优先级过高,很多时候会冲散正常的连祠和名词,或者降低它们的出先权重,不太适合用于拓展词库。还世感谢 lz 对改善 gboard 词库的努力,但词库这东西还是自记养比较合适。。

  6. @haozi1986 刚开始替换完成没出现异常,但也没感受到词库的变化,就重启了一下手机。生效后直接变得很奇怪,一个词拼音即使被完全命中,也会被词库里另一个部分命中的词替代。而且输入的分词也发生了改变,几乎每一个词都被拆成了单字命中比如上面我的“不是”,在不用词典的情况下是 bu shi,用了词典却变成了 b u s h i……

  7. @haozi1986 奇怪了。这不应该和版本有关系吧。但从理论上,用户词典是用来添加一些私有的词语,在匹配时优先级是最高的,用来补充平时输入的词语词典可能确实不太合适

  8. @sky96111

    我也发现用了词典之后很多时候的输入字符都会分开,应该是用的逐字符识别,很蠢,但也能用……

  9. @miku831 @imn1 @PhyllisLin
    因为我手上没有未 root 的设备,我没办法测试不用 root 能否替换,所以不太确定,只能说“以下操作可能需要 root”
    按常理,如果要替换 data 目录下的文件,应该是需要 root 的

    @imn1
    同文输入法我也用过一段时间,感觉不太顺手,后来就放弃了

    @PhyllisLin
    直接导入可能会假死甚至失败,所以我直接把数据库替换了

  10. @sky96111

    如果可以找到 Gboard 自带的词库,然后结合自带词库再做一次去重,应该就可以很完美的使用了,现在是有很多词重复,但也没办法一一查证,还拖慢了速度

  11. @haozi1986 #23
    同文输入法,或者说 rime,这种“完全匹配”式的输入法,是老旧输入法的延伸,基本没什么算法可言,对于输入法依赖重度用户来说,特别是整句输入,体验是比较糟糕的,我属于轻度用户(三天打不够三个汉字的人),无联网权限更重要,

  12. @sky96111 #19

    问个问题,在你 Gboard 设置 > 高级 > 学习 中,个性化设置 和 改进语音和输入功能…… 这两个选项是打开还是关闭的啊?我这边测试了一下,如果是打开的,某些词语的确会出现如你所说的问题,我之前用的时候一直是关闭的,如果不嫌麻烦,能否验证一下呢,谢谢

  13. @haozi1986 我都是开着的,可能是这个问题了…不过我昨晚已经把词库养回来了,不太想再删一遍…不能测试了,不好意思啦

  14. @sky96111 #32

    我确定是可以用这个数据库的,因为我在开始制作这个数据库前就是关闭的

    之前输入的时候,Gboard 提供的很多词语我都发现了有问题,比如“的地得”不分,很多成语也出现了谐音错字的问题,我当时猜测会不是这联想功能被带偏了,比如可能有很多用户大量的使用错误的词汇,提高了它们在整个词库中的权重值,造成系统默认它们是正确的于是推送给了更多的用户

    于是就把它们都关闭了,而后我这边就很少出现这些问题了

    当然,也可能是我前段时间升级系统丢失了所有数据后整个重置的原因,我现在不确定,所以希望有谁可以帮忙测试一下是不是与这几个选项有关

    目前因为这个数据库收录的都是全拼,在匹配的时候肯定也是有很大问题的,一切都有待进一步测试

  15. 还有好多同拼音的词
    yibigouxiao 一笔勾消 zh-CN
    yibigouxiao 一笔勾销 zh-CN

    yibimosha 一笔抹杀 zh-CN
    yibimosha 一笔抹煞 zh-CN

    qichizhiqu 七尺之躯 zh-CN
    qichizhiqu 七尺之驱 zh-CN

    qizongqiqin 七纵七擒 zh-CN
    qizongqiqin 七纵七禽 zh-CN

    认真的吗?同拼音的是不是再排查下?

发表评论

电子邮件地址不会被公开。 必填项已用*标注