如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

2020-02-25 14:41:05 来源:网络整理 作者:管理员

原标题:如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

作者 | 郭兰哲

编辑 | 贾伟

本文解读南京大学机器学习与数据挖掘LAMDA研究所李宇峰研究组与滴滴网约车技术团队合作完成的工作《Weakly Supervised Learning Meets Ride-Sharing User Experience Enhancement》,发表于AAAI 2020。

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

论文链接:https://arxiv.org/abs/2001.09027

现有机器学习技术得以成功的背后往往依赖充足的标记数据。然而,充足标记数据的获取非常困难,因为现实任务中数据标记的速度往往赶不上数据产生的速度。弱监督学习(不依赖充足标记数据的机器学习框架)[1]更为贴近现实任务,但也更为困难。

弱监督学习研究主要围绕各种特定弱监督数据信号开展[1]。例如,半监督学习旨在研究监督信息不完整(Incomplete)的数据;噪声标记学习旨在研究监督信息不准确(Inaccurate)的数据;多示例学习旨在研究监督信息不具体(Inexact)的数据等。南京大学LAMDA团队常年来对弱监督学习相关技术瓶颈开展基础研究,提出了具有性能保障的安全半/弱监督学习、自动半监督学习等工作[2][3]。

随着弱监督学习不断走向实际应用,单纯的弱监督学习技术已越来越难于满足现实任务的需求。其原因之一在于,往常的弱监督学习技术仅适合一种弱监督数据信号,类似于某药方(弱监督学习技术)仅适用于某特定病症(弱监督数据信号)。然而,现实任务的数据同时伴随着多种弱监督数据信号时有发生,类似于多种病症常伴随出现。能够协同处理多种病症的复合弱监督学习(Compound Weakly Supervised Learning)技术非常必要。然而,该方面鲜有相关基础研究工作,也包括结合实际业务数据的应用案例剖析,亟待开展研究。

本文基于滴滴智能司乘评价的实际业务场景,展示复合弱监督学习的必要性和实际效用。

具体而言,业务背景情况如下:随着移动互联网颠覆性变革,网约车不断发展普及,已进入人们日常生活。滴滴作为领先的一站式移动出行平台,深刻影响着人们的出行和生活方式。为尽可能地提升用户体验、建设良好的司乘生态,网约车智能司乘评价体系起着至关重要的作用,需兼顾乘客体验、司机接单公平性与平台效能。

在智能评价体系中,每个乘客乘车结束后手机端都会收到一个推荐的评价问题,如“司机是否绕路?”。如果该回答能够很好的反映出此次行程的不足,那将有助于平台对司机进行教育,以提高用户的体验。借助机器学习来进行评价问题推荐就是智能评价体系的主要目标。

然而,这其中存在两个严重影响机器学习性能的数据问题,

一是数据存在严重的标记噪声,因为评价结果往往受到乘客主观因素的影响,导致收集到的标记不准确,同时也存在着大量误操作和乘客随意评价的情况;

二是数据标记分布存在偏差,即训练数据中差评与好评数据的标记分布和真实线上环境的标记分布存在明显的差距。

围绕这类实际数据问题,需要发展复合弱监督学习技术。本文提出的复合弱监督学习技术明显优于单纯弱监督学习技术,可将AUC性能提升5%以上。

技术方案

本文技术方案采取一种基于双层优化的新框架。具体而言,针对标记噪声问题,我们对样本进行赋权,其目的是希望能够对噪声样本赋予较低的权重,从而减少其对模型性能的影响,目标函数如下所示:

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

其中w表示样本权值,θ为模型参数。

针对标记分布不匹配的问题,我们优化对标记分布更为鲁棒的性能指标AUC:

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

此外,“好”的样本赋权机制应该可以保证其得到的模型在验证数据上表现良好。综合以上思路,技术方案采用如下双层优化目标式实现:

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

其中内层优化步骤最小化训练数据上的经验风险,外层优化步骤评估验证数据上的性能表现。两者的结合,不断优化训练模型。

技术方案的整体流程如下图所示:

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

同时,文章为技术方案提出了高效的优化算法。详细优化技术细节请参见论文阐述。

应用效果

在滴滴司乘评价数据中,复合弱监督学习技术方案和仅考虑一种弱监督数据信号的单纯弱监督学习算法进行比较。比较方法包括标记分布修正[4]后的监督学习算法: Logistic Regression (LR)、Deep Neural Network (DNN)、XGBoost;处理标记噪声的SOTA算法 Rank Pruning[5],GLC[6]和LTR[7],具体的实验结果如下:

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

本文提出的复合弱监督学习技术方案明显优于单纯弱监督学习技术,可将AUC性能提升5%以上,并维持不错的效率。

该研究成果不仅在评价数据的利用上对推荐结果有很好的提升,并且对司乘纠纷公平判责、地图POI挖掘等场景有比较好的借鉴意义。

参考文献

[1] Zhi-Hua Zhou. "A brief introduction to weakly supervised learning." National Science Review 5.1 (2018): 44-53.

[2] Yu-Feng Li, Lan-Zhe Guo, and Zhi-Hua Zhou. "Towards Safe Weakly Supervised Learning." IEEE Transactions on Pattern Analysis and Machine Intelligence (2019).

[3] Yu-Feng Li, Hai Wang, Tong Wei, Wei-Wei Tu. Towards Automated Semi-Supervised Learning. AAAI'19, Honolulu, HI, 2019, pp.4237-4244.

[4] Dal Pozzolo, A., Caelen, O., Johnson, R. A., & Bontempi, G. "Calibrating probability with undersampling for unbalanced classification." IEEE Symposium Series on Computational Intelligence, 2015, 159-166.

[5] Northcutt, C. G.; Wu, T.; and Chuang, I. L. Learning with confident examples: Rank pruning for robust classification with noisy labels. UAI 2017.

[6] Hendrycks, D.; Mazeika, M.; Wilson, D.; and Gimpel, K. Using trusted data to train deep networks on labels corrupted by severe noise. NIPS 2018, 10456–10465.

[7] Ren, M.; Zeng, W.; Yang, B.; and Urtasun, R. Learning to reweight examples for robust deep learning. ICML 2018, 4331–4340.

显示全文
为您推荐
三星堆为什么没有文字:有符号性的图案(还没有被破译)
三星堆为什么没有文字:有符号性的图案(还没有被破译)

【导读】 三星堆为什么没有文字:有符号性的图案(还没有被破译),下面是小编为你收集整理的,希望对你有帮助!三星堆出土了很多上千件精美的青铜器、玉器和金器,但是在这些出土的文物中没有一件有文字信息。那么为什么三星堆中没有发现文字呢?接下来大家就跟着小编一起去看看吧。三星堆为什么没有文字三星堆出土的文物上虽然......

发布时间:2023-06-07 16:01:07

美不胜收!《唐顿庄园2》曝特辑 服装造型超惊艳
美不胜收!《唐顿庄园2》曝特辑 服装造型超惊艳

享誉全球的英伦经典IP系列新作《唐顿庄园2》正在热映中,凭借温馨动人的温情故事,华丽考究的服饰妆容,庄严典雅的复古建筑,美不胜收的自然景观,本片在各大平台收获好评无数!日前影片发布炫彩夺目特辑,各式服.........

发布时间:2023-06-07 15:04:29

五个历史填实发生的UFO事件, 排名第一的你一定不陌生
五个历史填实发生的UFO事件, 排名第一的你一定不陌生

【导读】 五个历史填实发生的UFO事件, 排名第一的你一定不陌生,下面是小编为你收集整理的,希望对你有帮助!现代人,对不明的飞行物体的关注从冷战哪个时候就开始了。哪个时期的人总是习惯抬着头傻傻的看着天空,随时防备飞来的导弹和侦察机。然而,越来越多的不明飞行物体的报告出现,渐渐的在全世界掀起了UFO热潮。那么......

发布时间:2023-06-07 15:01:06

各民族传统文化节日有哪些
各民族传统文化节日有哪些

【导读】 各民族传统文化节日有哪些,下面是小编为你收集整理的,希望对你有帮助!各民族传统文化节日有:傣族的泼水节、蒙古族的那达慕大会、彝族的火把节、瑶族的达努节、白族的三月街、壮族的歌圩、藏族的藏历年和望果节、苗族的跳花节等等。博大而灿烂的民间文化是中华文化的源头与根基。民间文......

发布时间:2023-06-07 14:01:05

杨幂给谢依霖介绍工作
杨幂给谢依霖介绍工作

5月30日晚,当妈妈后好几年没有作业的“HOLD住姐”谢依霖在微博发文感谢杨幂给她介绍了一个新工作。谢依霖写道,“前阵子有新闻说我三年没工作,杨小姐立刻积极帮我找工作,真的好感人,我爱你杨幂。”“总而.........

发布时间:2023-06-07 13:04:02

蝴蝶的外观和特点
蝴蝶的外观和特点

【导读】 蝴蝶的外观和特点,下面是小编为你收集整理的,希望对你有帮助!蝴蝶的外观:蝴蝶色彩鲜艳,有条纹,色彩比较丰富,翅膀和身体有花斑,头部有一对棒状或锤状触角,蝴蝶的身体分为头、胸、腹、两对翅、三对足,在头部有一对锤状或棒状触角,蝶翅宽大。蝴蝶的特点:翅膀正面的鳞粉色......

发布时间:2023-06-07 13:01:07

感情真好!SHE三家人集体游北海道拉横幅合影
感情真好!SHE三家人集体游北海道拉横幅合影

5月7日晚,任家萱爸爸在微博晒出和田馥甄、陈嘉桦的家人2018年一起旅行的照片,并表示期待今年的旅行。三家人一起拿着SHE三家人疯游北海道的横幅拍照,笑容灿烂,任家萱、田馥甄、陈嘉桦三姐妹在花田前面合.........

发布时间:2023-06-07 12:06:48

五台山在什么地方个城市
五台山在什么地方个城市

【导读】 五台山在什么地方个城市,下面是小编为你收集整理的,希望对你有帮助!五台山在哪里个城市五台山在山西省忻州市。五台山与四川峨嵋山、安徽九华山、浙江普陀山共称中国佛教四大名山。是中国佛教及旅游胜地,列中国十大避暑名山之首。2009年被联合国教科文组织以文化景观列入世界遗产......

发布时间:2023-06-07 12:01:05

《梦华录》定档6月2日 刘亦菲陈晓首次合作
《梦华录》定档6月2日 刘亦菲陈晓首次合作

由企鹅影视、金色传媒、远曦影视出品的女性爱情励志剧《梦华录》5月31日官宣定档,将于6月2日在腾讯视频独播。该剧由杨阳执导,张巍编剧,刘亦菲、陈晓、柳岩、林允、徐海乔、代旭、张晓谦主演,王洛勇、保剑锋.........

发布时间:2023-06-07 11:07:16

列弗尼斯氏龙:大型植食恐龙(体长8米/仅出土颅骨)
列弗尼斯氏龙:大型植食恐龙(体长8米/仅出土颅骨)

【导读】 列弗尼斯氏龙:大型植食恐龙(体长8米/仅出土颅骨),下面是小编为你收集整理的,希望对你有帮助!列弗尼斯氏龙是一种鸭嘴龙超科恐龙,属于大型植食性恐龙的一种,体长可达8米,诞生于9000万年前的白垩纪末期,第一批化石是在亚洲的乌兹别克斯坦发现的,其中只包含了一个颅骨化石,所以人们对它的了解并不多。......

发布时间:2023-06-07 11:01:07

西游记白衣秀士是什么妖怪?白花蛇(凌虚子和黑风怪的好友)
西游记白衣秀士是什么妖怪?白花蛇(凌虚子和黑风怪的好友)

【导读】 西游记白衣秀士是什么妖怪?白花蛇(凌虚子和黑风怪的好友),下面是小编为你收集整理的,希望对你有帮助!白衣秀士和凌虚子、黑风怪是三个好朋友,他们在《西游记》中都是没有背景的妖怪,但是却有着截然不同的结局。我们之前有说过凌虚子是最无辜的妖怪苍蝇精,黑风怪是黑熊精最后成了守山大神,那白衣秀士是什么妖怪呢?......

发布时间:2023-06-07 10:01:06

演员顾本彬去世
演员顾本彬去世

5月27日,演艺圈再传噩耗,演员顾本彬因意外去世,年仅34岁!很多人对顾本彬并不了解,的确,相对于其他的影视大咖,顾本彬实在太过籍籍无名。他的演艺之路也十分另类,儿时发烧中枢神经坏掉,导致口齿不清,连.........

发布时间:2023-06-07 09:06:42