的词库不只是单纯的根据词频排序的文本文件,其中还有简单的关系数据库的内容。像是“文琦”这个名字,就会和“男”、“能源与动力工程学院”、“核工41班”等词语发生关联,而“能源与动力工程学院”又会与“能动学院”、“能动学院院徽”、赵祺(能动学院院长)等词语发生关联。
传统的词频排序算法,只能根据词语累计输入次数与词语最近输入时间这两个数据调整候选词排序,而蜜蜂输入法引入的这些关联数据可以大大补充单纯词频排序算法的不足,使得蜜蜂输入法的输入效果更加智能更加方便。
在0。9公测版的蜜蜂输入法里面,关系排序算法就被应用到人名候选词的排序里面。
文琦试着打班上同学名字时,发现几个姓李姓刘的同学,名字也不需要翻页,在一大堆刘xx、李xx的候选词里面排名非常靠前。其原理就是蜜蜂输入法的关系排序算法,这些同学和他一个班,都和“能源与动力工程学院”、“核工41班”两个词发生关联,所以词序被大大提高,也拥有同样的背景色。
其实学生名字的背景色是经过特殊算法严重变形的院徽图片,完全看不出校徽的形状,只剩下平均色。只有安装了“蜜蜂输入法江大专用版皮肤套装。skin”文件,取得里面的校徽图标素材,输入法才会在学生和老师名字下面放置校徽色标记。当然,没有安装江大专用词库的话,输入法虽然会根据自动生成的关系数据库放置校徽色标记以及其他标记,但是出错率就要高很多了。
因为是全自动收集整理生成,并且使用了一些暴力破解密码的手段,这个词库里面其实是包含了一些江大的秘密信息的,比如校长会议的会议记录以及一些还未公布的文件的部分内容等。但是因为词库经过词频排序,那些秘密信息通常都很少在文件上出现,词频很低,并不容易被人发现,因此也没引起他人注意,马竞自己也并不知道还有这样的问题。
还要到今年暑期招生的时候,有人发现个别新生的名字可以
-->>(第3/4页)(本章未完,请点击下一页继续阅读)