美国时间8月4日—8日在阿拉斯加州召开的KDD2019(国际数据挖掘与知识发现大会)上,我国数据挖掘领域的创新技术以论文的形式获得发表。

  “很多时候静态文本无法充分表达人们内心最深层的需求,而动态交互行为的文本偏好信息恰能辅助你理清内心真实的需求。”北京大学计算机科学技术研究所研究员严睿表示,为了更好地为求职者和岗位之间达成匹配,北大团队与BOSS直聘自然语言处理中心通过引入记忆模块,首次利用简历文档和岗位描述文档历史交互行为下的信息来学习潜在偏好的信息,把人类求职经历中的“偏好”体现在数据的“记忆”中。

  人类的记忆是有偏好的,让数据也长出“记忆”,能更准确地挖出大数据中有用的信息。之前的研究集中于对比“简历与岗位”在文本上的匹配度,而在现实世界中,除了静态文本信息外,动态行为交互信息(例如求职招聘双方各自的面试历史记录)中蕴含着对预测匹配更有帮助的因素。

  “我们发现,双方的偏好也决定着匹配的准确度。”宋洋表示,团队利用记忆网络对面试历史记录这一外部知识进行学习,并加入到模型参数中去,从而提升人岗匹配效果。

  让数据长出“记忆”,是不是符合人类群体的“记忆”?这个方法究竟能不能提高匹配准确度呢?这些都需要实践检验。

  “我们基于数据集采用5个评测指标对模型进行验证。”宋洋解释,社会公共类的调查没有真人实验,但可以固定一个时间窗口来取求职者和招聘者双方的历史面试记录,用来预测之后一段时间样本集合内的求职者和招聘者双方是否发生匹配,这与实际情况是一致的,实验结果也证明全新的数据挖掘技术优于当前最优的人岗匹配方法。

     相关专家认为,中国由于人口基数大、互联网应用发展成熟等特点,是大数据的主要产出国,如何有效地利用数据,提高现有诸如职位对接、商务对接等的有效率,将真实世界的特点融入到大数据向知识的转化中,亟待大数据挖掘技术的创新。例如,互联网上存在着数亿规模的求职者简历以及岗位招聘信息,有效的数据挖掘技术将大大提升人岗匹配效率,减少耗费比,对国民经济带来良性作用的同时,让每个人都能发挥出自己的价值。(记者 张佳星