第四章小试牛刀_我是11山的那一天的到来

接下来的日子，齐浩初经常在公司和数据局两边跑，天气更加炎热，变得更累了。“面纱”的事情也变成了日常工作，和以前也没什么区别，只是处理的数据更敏感了而已。数据里面其实也基本没有姓名、身份证号码，有也是处于加密状态。人员信息是通过虚拟id关联起来的，所以最初那点紧张感也早就荡然无存了。看来这套系统还是经过了非常完善设计的，之前领导们表情严肃，说得那么吓人，应该只是怕被普通人知道后，听不进官方的解释，到时候闹得不好看。

倒是有件事情让齐浩初比较开心，因为项目管理部有一个新的活，是公安网警的一个智能舆情分类系统，数据采集由其他方式获取到，希望根据文章内容自动分类。自动分类这个事情，需要一点“智能”参与。这个正好是齐浩初这边的事情，虽然不如吕天和那么厉害，但是自己有过不少AI模型训练的开发经验。只要有合适的样本数据，加上bert-base-ese这个自然语言模型，可以像人一样理解文章内容，就能高效地构建出一个高准确率的文本分类模型。之前参加了一个“华山论剑创新大赛”，对新闻文章进行智能分类，还得了全国二等奖。数据部门只要做好这个分类接口即可，其他前后端的开发由研发部门去做。

齐浩初正想着接下来要怎么找赵语丽搭话，这不正好就有正当理由了。8月14日（周三），齐浩初在聊天工具里和赵语丽说：“你们部门那个智能分类系统，是你在对接吗？”

“是我这边对接的，这个事情你也参与了？”

“嗯，最核心的智能分类是我这边做的，我训练一个AI模型，做成接口，然后研发部做前后端页面来对接。不过我需要你们提供些数据，就是你们过往人工分类好的那些文章数据。”

“好的啊，我整理下，你什么时候要？”

“你什么时候准备好就行，我随时都在。”还附带了一个可爱的表情包。齐浩初发完这句话，怎么感觉有点暧昧。但又舍不得撤回，就这么着吧。

之后的事情也比较顺利，对样本做了些预处理，然后做各种微调，比如学习率、学习率的调度策略之类的，找出一个评估结果最好的组合，准确率、精确率这些都达到了0.98以上。之后又用ti进行模型蒸馏，减小模型文件大小，提高了4倍的分类速度，这个智能分类的模型就训练好了。

最后再做成调用接口服务，写好文档材料给研发部门去对接，齐浩初这边的工作就算完成了。