Qing Da (笪庆)’s Homepage

E-mail / Google scholar / DBLP

曾任阿里巴巴资深算法专家(花名达卿),本硕均毕业于南京大学计算机系,师从周志华教授,从事机器学习相关的研究工作。2015 年初,于博士二年级退学,加入当时的阿里巴巴搜索推荐事业部,从事搜索推荐算法相关的工作至今。

在阿里期间,除了本职工作之外,对内承担了一些算法新人培训的工作,2019 年集团新人课程《搜索推荐广告-算法体系概论》作者之一,杭州场主讲人,亦承担了次年(2020 年)搜索推荐事业部算法新人班的班主任;对外则担任了 TNNLS、AAAI、IJCAI、ICML 等领域期刊会议的审稿人等。

教育经历

本科:南京大学,计算机科学与技术系,2006-09 至 2010-06

硕士:南京大学,计算机科学与技术系,机器学习与数据挖掘研究所(LAMDA),2010-09 至 2013-06

  • 硕士毕业论文,《基于直接策略搜索的强化学习方法研究》.

博士:南京大学,计算机科学与技术系,机器学习与数据挖掘研究所(LAMDA),2013-09 至 2015-01,肄业

  • 博一期间以一作身份分别发表 CCF A 类一篇[2006-2],CCF B 类一篇[2006-3],博士生中期考核中优秀(Rank 1st).
  • 博二上学期因个人原因退学进入工业界.

职业经历

2015.01 – 2016.06: 资深算法工程师 搜索事业部 阿里巴巴

  • 从事淘宝搜索算法相关工作
  • 通过和工程团队的配合,上线第一版基于 parameter server 的大规模在线学习模型,推动了在线学习在手淘搜索的遍地开花,相关工作《基于在线矩阵分解的淘宝搜索实时个性化》获得集团 2015 年十大算法奖
  • 首次将最优分配+PID 在线调节的技术引入双十一红包的发放,该技术已成为目前集团内权益发放+流量调控的基础通用方案,并沉淀了专利《一种通过关键词发放红包出售流量的方式》
  • 2015 年搜索事业部最佳新人奖,双 11 疯狂搜索人奖,技术卓越奖团队成员
  • 集团内部算法竞赛奖项若干:新浪微博互动预测大赛亚军;简历智能评分大赛亚军,菜鸟-需求预测&分仓规划优胜奖(rank 4)

2016.07 – 2017.12: 算法专家 搜索事业部 阿里巴巴

  • 首次将强化学习引入电商搜索排序中,并且在 2016 年双十一进行上线应用,相关工作被多家媒体报道。[机器之心报道]
  • 设计实现了搜索内部的强化学习框架 AI4B-RL,在多个业务线尝试进行强化学习应用,包括搜索排序[2018-2]、锦囊展示学习[2018-3]、引擎性能优化[2021/2022-6]、卖家分层调控、流量调控、虚拟淘宝[2019-3]等工作,相关工作已经整理发表在 KDD,AAAI,ECML 上。
  • 组织集团内所有相关算法团队,发布电子书《强化学习在阿里的技术演进与业务创新》,其内容包含搜索、推荐、广告、物流、智能客服等广泛领域,次年其实体书由电子工业出版社出版发行。

2018.01 – 2020.07: 高级算法专家 AI 国际事业部 阿里巴巴

  • 2018 年 8 月开始担任 AliExpress 搜索算法负责人角色,开始组建团队和技术升级,同时针对国际化业务特点进行技术创新。目前从 2-3 人的种子团队成长为 20+的算法团队,覆盖搜索相关性、搜索效率、搜索导购产品、流量调控等 4 个子方向。在先后2 个财年内,搜索转化率在原先优化了 8 年的 baseline 基础上,分别提升了 30%和20%,同时在搜索相关性、搜索导购产品等相关业务上也有较大幅度的提升和改进。
  • 针对国际化业务的多语言问题,在 facebook 的 XLM 提出来同期就开始研究跨语言的向量模型,目前覆盖英、俄、西、法、葡,并最终全量上线,用于搜索的语义向量召回[2021/2022-3];针对国际卖家标题填写困难的问题,通过建立图像和关键词的关系,完成标题的辅助填充,相关工作整理到发表PAKDD[2021/2022-2]。
  • 针对单一模型很难捕捉到全球国家用户的行为差异,将经典的 MOE 结构升级为层次MOE 结构,并通过场景子网络和场景梯度隔断来保障最后的融合效果,相关工作已经全量上线,并被 CIKM’20 录取[2020-2]。
  • 针对重排序场景,为了捕捉用户对商品整体排列的行为偏好,提出了基于评估器-生成器架构的 learning to rank 框架,该框架可以直接生成一个商品排列,以最优化全页面的用户行为,相关工作已经全量上线,并且被 TKDE 收录[2023-1],以及相关领域媒体报道

2020.08 – 2021.09 : 资深算法专家 AE 技术部 阿里巴巴

  • 设计并产品化了 AliExpress 的流量调控系统,用于商业策略和效率策略的高效整合,其中涉及的相关工作:online matching[2021/2022-7]已经在 AAAI’10 发表,其余部分还在整理投稿中[2021/2022-10]。
  • 目前除了担任 AliExpress 搜索算法负责人外,还兼任 AliExpress 算法架构师,负责AliExpress 整体搜索、推荐、广告、用增等多条业务算法线的横向能力建设。

书籍出版

推荐系统开源环境

  1. VirtualTaobao[AAAI’19], Github.

本项目提供了基于淘宝实际数据训练得到的VirtualTaobao模拟器,尝试解决传统推荐系统模型学习范式中,用有偏离线数据评估学习策略的问题。在淘宝,当客户输入某个查询词时,推荐系统会根据查询词和客户信息返回一系列商品。系统期望返回的商品列表能让客户有较高点击概率。通过VirtualTaobao模拟器,用户可以访问一个与真实淘宝环境类似的“实时”环境。每次会产生一个虚拟客户,虚拟客户开始进行查询,推荐系统需要返回一系列商品。虚拟客户会决定是否点击返回列表中的商品,这与真实客户类似。VirtualTaobao是如何进行训练的描述见原文:

  • Jing-Cheng Shi, Yang Yu, Qing Da, Shi-Yong Chen, An-Xiang Zeng. Virtual-Taobao: Virtualizing real-world online retail environment for reinforcement learning. In: Proceedings of the 33rd AAAI Conference on Artificial Intelligence (AAAI’19), Honolulu, HI, 2019. PDF

论文发表

2023

[1] Guangda Huzhang, Zhen-Jia Pang, Yongqing Gao, Yawen Liu, Weijie Shen, Wen-Ji Zhou, Qianying Lin, Qing Da, Anxiang Zeng, Han Yu, Yang Yu, Zhi-Hua Zhou: AliExpress Learning-to-Rank: Maximizing Online Model Performance Without Going Online. IEEE Trans. Knowl. Data Eng. 35(2): 1214-1226 (2023)

2021/2022

[1] Qianying Lin, Wen-Ji Zhou, Yanshi Wang, Qing Da, Qing-Guo Chen, Bing Wang: Sparse Attentive Memory Network for Click-through Rate Prediction with Long Sequences. CIKM 2022: 3312-3321
[2] Wenya Zhu, Yinghua Zhang, Yu Zhang, Yu-Hang Zhou, Yinfu Feng, Yuxiang Wu, Qing Da, Anxiang Zeng: DHA: Product Title Generation with Discriminative Hierarchical Attention for E-commerce. PAKDD (3) 2022: 275-287
[3] Wenya Zhu, Xiaoyu Lv, Baosong Yang, Yinghua Zhang, Xu Yong, Linlong Xu, Yinfu Feng, Haibo Zhang, Qing Da, Anxiang Zeng, Ronghua Chen: Cross-Lingual Product Retrieval in E-Commerce Search. PAKDD (2) 2022: 458-471
[4] Shiyin Lu, Yu-Hang Zhou, Jing-Cheng Shi, Wenya Zhu, Qingtao Yu, Qing-Guo Chen, Qing Da, Lijun Zhang: Non-stationary Continuum-armed Bandits for Online Hyperparameter Optimization. WSDM 2022: 618-627
[5] Xuesi Wang, Guangda Huzhang, Qianying Lin, Qing Da: Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce. WSDM 2022: 1036-1044
[6] Anxiang Zeng, Han Yu, Qing Da, Yusen Zhan, Yang Yu, Jingren Zhou, Chunyan Miao: Improving Search Engine Efficiency through Contextual Factor Selection. AI Mag. 42(2): 50-58 (2021)
[7] Yu-Hang Zhou, Peng Hu, Chen Liang, Huan Xu, Guangda Huzhang, Yinfu Feng, Qing Da, Xinshang Wang, Anxiang Zeng: A Primal-Dual Online Algorithm for Online Matching Problem in Dynamic Environments. AAAI 2021: 11160-11167
[8] Junmei Hao, Jingcheng Shi, Qing Da, Anxiang Zeng, Yujie Dun, Xueming Qian, Qianying Lin: Diversity Regularized Interests Modeling for Recommender Systems. CoRR abs/2103.12404 (2021)
[9] Yongqing Gao, Guangda Huzhang, Weijie Shen, Yawen Liu, Wen-Ji Zhou, Qing Da, Dan Shen, Yang Yu: Imitate TheWorld: A Search Engine Simulation Platform. CoRR abs/2107.07693 (2021)
[10] Chenlin Shen, Guangda Huzhang, Yu-Hang Zhou, Chen Liang, Qing Da: A General Traffic Shaping Protocol in E-Commerce. CoRR abs/2112.14941 (2021)

2020

[1] Anxiang Zeng, Han Yu, Qing Da, Yusen Zhan, Chunyan Miao: Accelerating Ranking in E-Commerce Search Engines through Contextual Factor Selection. AAAI 2020: 13212-13219
[2] Pengcheng Li, Runze Li, Qing Da, Anxiang Zeng, Lijun Zhang: Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space. CIKM 2020: 2605-2612
[3] Guangda Huzhang, Zhen-Jia Pang, Yongqing Gao, Wen-Ji Zhou, Qing Da, Anxiang Zeng, Yang Yu: Validation Set Evaluation can be Wrong: An Evaluator-Generator Approach for Maximizing Online Performance of Ranking in E-commerce. CoRR abs/2003.11941 (2020)
[4] Yanshi Wang, Jie Zhang, Qing Da, Anxiang Zeng: Delayed Feedback Modeling for the Entire Space Conversion Rate Prediction. CoRR abs/2011.11826 (2020)

2019

[1] Feiyang Pan, Qingpeng Cai, Anxiang Zeng, Chun-Xiang Pan, Qing Da, Hua-Lin He, Qing He, Pingzhong Tang: Policy Optimization with Model-Based Explorations. AAAI 2019: 4675-4682
[2] Jing-Cheng Shi, Yang Yu, Qing Da, Shi-Yong Chen, Anxiang Zeng: Virtual-Taobao: Virtualizing Real-World Online Retail Environment for Reinforcement Learning. AAAI 2019: 4902-4909

2018

[1] Yang Yu, Shi-Yong Chen, Qing Da, Zhi-Hua Zhou: Reusable Reinforcement Learning via Shallow Trails. IEEE Trans. Neural Networks Learn. Syst. 29(6): 2204-2215 (2018)
[2] Yujing Hu, Qing Da, Anxiang Zeng, Yang Yu, Yinghui Xu: Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application. KDD 2018: 368-377
[3] Shi-Yong Chen, Yang Yu, Qing Da, Jun Tan, Hai-Kuan Huang, Hai-Hong Tang: Stabilizing Reinforcement Learning in Dynamic Environment with Application to Online Recommendation. KDD 2018: 1187-1196
[4] Hua-Lin He, Chun-Xiang Pan, Qing Da, Anxiang Zeng: SPEEDING Up the Metabolism in E-commerce by Reinforcement Mechanism DESIGN. ECML/PKDD (3) 2018: 105-119

2016

[1] Yang Yu, Peng-Fei Hou, Qing Da, Yu Qian: Boosting Nonparametric Policies. AAMAS 2016: 477-484
2014
[2] Qing Da, Yang Yu, Zhi-Hua Zhou: Learning with Augmented Class by Exploiting Unlabeled Data. AAAI 2014: 1760-1766
[3] Qing Da, Yang Yu, Zhi-Hua Zhou: Napping for functional representation of policy. AAMAS 2014: 189-196
2013
[4] Qing Da, Yang Yu, Zhi-Hua Zhou: Self-Practice Imitation Learning from Weak Policy. PSL 2013: 9-20