返回第四章 小试牛刀(1 / 2)我是11山的那一天的到来首页

接下来的日子,齐浩初经常在公司和数据局两边跑,天气更加炎热,变得更累了。“面纱”的事情也变成了日常工作,和以前也没什么区别,只是处理的数据更敏感了而已。数据里面其实也基本没有姓名、身份证号码,有也是处于加密状态。人员信息是通过虚拟id关联起来的,所以最初那点紧张感也早就荡然无存了。看来这套系统还是经过了非常完善设计的,之前领导们表情严肃,说得那么吓人,应该只是怕被普通人知道后,听不进官方的解释,到时候闹得不好看。

倒是有件事情让齐浩初比较开心,因为项目管理部有一个新的活,是公安网警的一个智能舆情分类系统,数据采集由其他方式获取到,希望根据文章内容自动分类。自动分类这个事情,需要一点“智能”参与。这个正好是齐浩初这边的事情,虽然不如吕天和那么厉害,但是自己有过不少AI模型训练的开发经验。只要有合适的样本数据,加上bert-base-ese这个自然语言模型,可以像人一样理解文章内容,就能高效地构建出一个高准确率的文本分类模型。之前参加了一个“华山论剑创新大赛”,对新闻文章进行智能分类,还得了全国二等奖。数据部门只要做好这个分类接口即可,其他前后端的开发由研发部门去做。

齐浩初正想着接下来要怎么找赵语丽搭话,这不正好就有正当理由了。8月14日(周三),齐浩初在聊天工具里和赵语丽说:“你们部门那个智能分类系统,是你在对接吗?”

“是我这边对接的,这个事情你也参与了?”

“嗯,最核心的智能分类是我这边做的,我训练一个AI模型,做成接口,然后研发部做前后端页面来对接。不过我需要你们提供些数据,就是你们过往人工分类好的那些文章数据。”

“好的啊,我整理下,你什么时候要?”

“你什么时候准备好就行,我随时都在。”还附带了一个可爱的表情包。齐浩初发完这句话,怎么感觉有点暧昧。但又舍不得撤回,就这么着吧。

之后的事情也比较顺利,对样本做了些预处理,然后做各种微调,比如学习率、学习率的调度策略之类的,找出一个评估结果最好的组合,准确率、精确率这些都达到了0.98以上。之后又用ti进行模型蒸馏,减小模型文件大小,提高了4倍的分类速度,这个智能分类的模型就训练好了。

最后再做成调用接口服务,写好文档材料给研发部门去对接,齐浩初这边的工作就算完成了。