E-mail / Google scholar / DBLP
曾任阿里巴巴资深算法专家(花名达卿),本硕均毕业于南京大学计算机系,师从周志华教授,从事机器学习相关的研究工作。2015 年初,于博士二年级退学,加入当时的阿里巴巴搜索推荐事业部,从事搜索推荐算法相关的工作至今。
在阿里期间,除了本职工作之外,对内承担了一些算法新人培训的工作,2019 年集团新人课程《搜索推荐广告-算法体系概论》作者之一,杭州场主讲人,亦承担了次年(2020 年)搜索推荐事业部算法新人班的班主任;对外则担任了 TNNLS、AAAI、IJCAI、ICML 等领域期刊会议的审稿人等。
教育经历
本科:南京大学,计算机科学与技术系,2006-09 至 2010-06
- 全国大学生数学建模大赛全国一等奖,第一完成人,2008
- 教育部-Sun 大学生创新实验计划杰出项目(Outstanding project),第一完成人,2009
- 南京大学本科优秀毕业论文(设计)一等奖,2010
- 保送至本系继续攻读研究生学位(Rank 1st)
硕士:南京大学,计算机科学与技术系,机器学习与数据挖掘研究所(LAMDA),2010-09 至 2013-06
- PAKDD 数据挖掘竞赛公开组冠军,第五完成人,2012.
- 首届“中国云·移动互联网创新大奖赛”,一等奖 1 项,二等奖 1 项,三等奖 2 项,第一完成人,2013. [央视新闻]
- 硕士毕业论文,《基于直接策略搜索的强化学习方法研究》.
博士:南京大学,计算机科学与技术系,机器学习与数据挖掘研究所(LAMDA),2013-09 至 2015-01,肄业
- 博一期间以一作身份分别发表 CCF A 类一篇[2006-2],CCF B 类一篇[2006-3],博士生中期考核中优秀(Rank 1st).
- 博二上学期因个人原因退学进入工业界.
职业经历
2015.01 – 2016.06: 资深算法工程师 搜索事业部 阿里巴巴
- 从事淘宝搜索算法相关工作
- 通过和工程团队的配合,上线第一版基于 parameter server 的大规模在线学习模型,推动了在线学习在手淘搜索的遍地开花,相关工作《基于在线矩阵分解的淘宝搜索实时个性化》获得集团 2015 年十大算法奖
- 首次将最优分配+PID 在线调节的技术引入双十一红包的发放,该技术已成为目前集团内权益发放+流量调控的基础通用方案,并沉淀了专利《一种通过关键词发放红包出售流量的方式》
- 2015 年搜索事业部最佳新人奖,双 11 疯狂搜索人奖,技术卓越奖团队成员
- 集团内部算法竞赛奖项若干:新浪微博互动预测大赛亚军;简历智能评分大赛亚军,菜鸟-需求预测&分仓规划优胜奖(rank 4)
2016.07 – 2017.12: 算法专家 搜索事业部 阿里巴巴
- 首次将强化学习引入电商搜索排序中,并且在 2016 年双十一进行上线应用,相关工作被多家媒体报道。[机器之心报道]
- 设计实现了搜索内部的强化学习框架 AI4B-RL,在多个业务线尝试进行强化学习应用,包括搜索排序[2018-2]、锦囊展示学习[2018-3]、引擎性能优化[2021/2022-6]、卖家分层调控、流量调控、虚拟淘宝[2019-3]等工作,相关工作已经整理发表在 KDD,AAAI,ECML 上。
- 组织集团内所有相关算法团队,发布电子书《强化学习在阿里的技术演进与业务创新》,其内容包含搜索、推荐、广告、物流、智能客服等广泛领域,次年其实体书由电子工业出版社出版发行。
2018.01 – 2020.07: 高级算法专家 AI 国际事业部 阿里巴巴
- 带队参加 OpenAI 举办的强化学习算法竞赛,获得全球总冠军,第一完成人。[OpenAI 官网新闻][阿里技术报道]
- 2018 年 8 月开始担任 AliExpress 搜索算法负责人角色,开始组建团队和技术升级,同时针对国际化业务特点进行技术创新。目前从 2-3 人的种子团队成长为 20+的算法团队,覆盖搜索相关性、搜索效率、搜索导购产品、流量调控等 4 个子方向。在先后2 个财年内,搜索转化率在原先优化了 8 年的 baseline 基础上,分别提升了 30%和20%,同时在搜索相关性、搜索导购产品等相关业务上也有较大幅度的提升和改进。
- 针对国际化业务的多语言问题,在 facebook 的 XLM 提出来同期就开始研究跨语言的向量模型,目前覆盖英、俄、西、法、葡,并最终全量上线,用于搜索的语义向量召回[2021/2022-3];针对国际卖家标题填写困难的问题,通过建立图像和关键词的关系,完成标题的辅助填充,相关工作整理到发表PAKDD[2021/2022-2]。
- 针对单一模型很难捕捉到全球国家用户的行为差异,将经典的 MOE 结构升级为层次MOE 结构,并通过场景子网络和场景梯度隔断来保障最后的融合效果,相关工作已经全量上线,并被 CIKM’20 录取[2020-2]。
- 针对重排序场景,为了捕捉用户对商品整体排列的行为偏好,提出了基于评估器-生成器架构的 learning to rank 框架,该框架可以直接生成一个商品排列,以最优化全页面的用户行为,相关工作已经全量上线,并且被 TKDE 收录[2023-1],以及相关领域媒体报道。
2020.08 – 2021.09 : 资深算法专家 AE 技术部 阿里巴巴
- 设计并产品化了 AliExpress 的流量调控系统,用于商业策略和效率策略的高效整合,其中涉及的相关工作:online matching[2021/2022-7]已经在 AAAI’10 发表,其余部分还在整理投稿中[2021/2022-10]。
- 目前除了担任 AliExpress 搜索算法负责人外,还兼任 AliExpress 算法架构师,负责AliExpress 整体搜索、推荐、广告、用增等多条业务算法线的横向能力建设。
书籍出版
- 笪庆,曾安祥主编,《强化学习实战:强化学习在阿里的技术演进和业务创新》,电子工业出版社,2018
推荐系统开源环境
- VirtualTaobao[AAAI’19], Github.
本项目提供了基于淘宝实际数据训练得到的VirtualTaobao模拟器,尝试解决传统推荐系统模型学习范式中,用有偏离线数据评估学习策略的问题。在淘宝,当客户输入某个查询词时,推荐系统会根据查询词和客户信息返回一系列商品。系统期望返回的商品列表能让客户有较高点击概率。通过VirtualTaobao模拟器,用户可以访问一个与真实淘宝环境类似的“实时”环境。每次会产生一个虚拟客户,虚拟客户开始进行查询,推荐系统需要返回一系列商品。虚拟客户会决定是否点击返回列表中的商品,这与真实客户类似。VirtualTaobao是如何进行训练的描述见原文:
- Jing-Cheng Shi, Yang Yu, Qing Da, Shi-Yong Chen, An-Xiang Zeng. Virtual-Taobao: Virtualizing real-world online retail environment for reinforcement learning. In: Proceedings of the 33rd AAAI Conference on Artificial Intelligence (AAAI’19), Honolulu, HI, 2019. PDF