Introduction

Dr. Wei Ye is now an associate professor at National Engineering Research Center for Software Engineering, Peking University. In 2011, he obtained a doctorate degree from the School of Electronics Engineering and Computer Science, Peking University, working with Prof. Shikun Zhang. Wei Ye has a broad interest in real-world problems related to natural languages, knowledge graphs, and programming languages, and large language models (LLMs). Specifically, he is currently delving into the pre-training, alignment, and evaluation of LLMs, including ChatGPT-like LLMs, code LLMs and multi-modal LLMs.

The Knowledge Computing Lab at Peking University is part of National Engineering and Research Center for Software Engineering, where faculties, students and software engineers work together on advanced algorithms towards natural language understanding and programming language comprehension. Our research topics include, but are not limited to, relation extraction, sequence modeling, sentiment analysis, code knowledge graph, code summarization and code retrieval. We have won more than 10 awards in national and international AI competitions. We distinguish ourselves as being practice-oriented, as our researches have been applied in large-scale real-world projects in areas such as enterprise intelligence, medical AI, petition, legal system, and human resources.

We are looking for highly self-motivated students to work with us as PhD candidates (several positions open for 2026 Fall) or for Master's Degree. If you share our vision and are interested in working with us, please send your resume to wye#pku.edu.cn.

Recent Papers

No.	Title
01	Peiyang Liu, Xi Wang, Ziqiang Cui, Wei Ye*. Queries Are Not Alone: Clustering Text Embeddings for Video Search. SIGIR'25 (CCF Rank A, Full Paper)
02	Xiaoling Zhou, Wei Ye, Zhemg Lee, Lei Zou, Shikun Zhang. Valuing Training Data via Causal Inference for In-Context Learning. TKDE'25 (CCF Rank A, Journal)
03	Hongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye*, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang. SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization. CVPR'25 (CCF Rank A, Full Paper)
04	Xiaoling Zhou, Zhemg Lee, Wei Ye, Rui Xie, Wenbo Zhang, Guanju Peng, Zongze Li, Shikun Zhang. All-Optical Nonlinear Diffractive Deep Network for Ultrafast Image Denoising. CVPR'25 (CCF Rank A, Full Paper)
05	Xiaoling Zhou, Mingjie Zhang, Zhemg Lee, Wei Ye, Shikun Zhang. HaDeMiF: Hallucination Detection and Mitigation in Large Language Models. ICLR'25
06	Zile Qiao, Wei Ye*, Yong Jiang, Tong Mo, Pengjun Xie, Weiping Li, Fei Huang, Shikun Zhang. Supportiveness-based Knowledge Rewriting for Retrieval-augmented Language Modeling. NAACL'25 (Findings)
07	Yutao Mou, Shikun Zhang, Wei Ye*. SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types. NeurIPS'24 (CCF Rank A, Datasets and Benchmarks Track)
08	Chaoya Jiang, Jia Hongrui, Haiyang Xu, Wei Ye*, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang. MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model. NeurIPS'24 (CCF Rank A, Full Paper)
09	Yidong Wang, Qi Guo, Wenjin Yao, Hongbo Zhang, Xin Zhang, Zhen Wu, Meishan Zhang, Xinyu Dai, Min zhang, Qingsong Wen, Wei Ye, Shikun Zhang, Yue Zhang*. AutoSurvey: Large Language Models Can Automatically Write Surveys. NeurIPS'24 (CCF Rank A, Full Paper)
10	Wenjin Yao, Yidong Wang, Zhuohao Yu, Rui Xie, Shikun Zhang, Wei Ye*. PURE: Aligning LLM via Pluggable Query Reformulation for Enhanced Helpfulness. EMNLP'24 (Findings)
11	Zhuohao Yu, Chang Gao, Wenjin Yao, Yidong Wang, Zhengran Zeng, Wei Ye*, Jindong Wang, Yue Zhang, Shikun Zhang. FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models. EMNLP’24 (System Demonstration Track)
12	Xuanwang Zhang, Yun-Ze Song, Yidong Wang, Shuyun Tang, Xinfeng Li, Zhengran Zeng, Zhen Wu, Wei Ye, Wenyuan Xu, Yue Zhang, Xinyu Dai, Shikun Zhang, Qingsong Wen. RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation. EMNLP’24 (System Demonstration Track)
13	Chaoya Jiang, Wei Ye*, Mengfan Dong, Jia Hongrui, Haiyang Xu, Ming Yan, Ji Zhang, Shikun Zhang. Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models. MM'24 (CCF Rank A, Full Paper)
14	Xiao Deng, Fuyao Duan, Rui Xie, Wei Ye* and Shikun Zhang. Improving long-tail vulnerability detection through data augmentation based on large language models. ICSME'24 (CCF Rank B, Full Paper)
15	Xiaoling Zhou, Wei Ye, Yidong Wang, Chaoya Jiang, Zhemg Lee, Rui Xie, Shikun Zhang. Enhancing In-Context Learning via Implicit Demonstration Augmentation. ACL’24 (CCF Rank A, Full Paper)
16	Zhuohao Yu, Chang Gao, Wenjin Yao, Yidong Wang, Wei Ye*, Jindong Wang, Xing Xie, Yue Zhang, Shikun Zhang. KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models. ACL’24 (CCF Rank A, Full Paper)
17	Dingyao Yu, Yang An, Wei Ye*, Xiongfeng Xiao, Shaoguang Mao, Tao Ge, Shikun Zhang. Refining Corpora from a Model Calibration Perspective for Chinese Spelling Correction. ACL’24 (Findings)
18	Qi Guo, Leiyu Wang, Yidong Wang, Wei Ye, Shikun Zhang. What Makes a Good Order of Examples in In-Context Learning. ACL’24 (Findings)
19	Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao. NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models. ICML'24 (CCF Rank A, Full Paper)
20	Xiaoling Zhou, Wei Ye*, Zhemg Lee, Rui Xie, Shikun Zhang. Boosting Model Resilience via Implicit Adversarial Data Augmentation. IJCAI'24 (CCF Rank A, Full Paper)
21	Zhengran Zeng, Yidong Wang, Rui Xie, Wei Ye, Shikun Zhang.CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios. ISSTA'24 (CCF Rank A, Full Paper)
22	Chaoya Jiang, Haiyang Xu, Mengfan Dong, Jiaxing Chen, Wei Ye*, Ming Yan, Qinghao Ye, Ji Zhang, Fei Huang, Shikun Zhang. Hallucination Augmented Contrastive Learning for Multimodal Large Language Model. CVPR'24 (CCF Rank A, Full Paper)
23	Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Wenjin Yao, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye*, Shikun Zhang, Yue Zhang. PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization. ICLR'24
24	Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang. Supervised Knowledge Makes Large Language Models Better In-context Learners. ICLR'24
25	Chaoya Jiang，Wei Ye*，Haiyang Xu，Qinghao Ye，Ming Yan，Ji Zhang，Shikun Zhang. TiMix: Text-aware Image Mixing for Effective Vision-Language Pretraining. AAAI'24 (CCF Rank A, Full Paper)
26	Bo Li, Wei Ye*, Quansen Wang, Wen Zhao, Shikun Zhang. Labels Need Prompts Too: Mask Matching for Natural Language Understanding Tasks. AAAI'24 (CCF Rank A, Full Paper)
27	Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian. MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models. EMNLP'23 (System Demonstrations)
28	Chaoya Jiang, Haiyang Xu, Wei Ye*, Qinghao Ye, Chenliang Li, Ming Yan, Bin Bi, Shikun Zhang, Fei Huang, Ji Zhang. COPA: Efficient Vision-Language Pre-training through Collaborative Object- and Patch-Text Alignment. MM'23 (CCF Rank A, Full Paper)
29	Chaoya Jiang, Haiyang Xu, Wei Ye*, Qinghao Ye, Chenliang Li, Ming Yan, Bin Bi, Shikun Zhang, Fei Huang, Songfang Huang. BUS:Efficient and Effective Vision-language Pretraining with Bottom-Up Patch Summarization. ICCV'23 (CCF Rank A, Full Paper)
30	Yidong Wang, Zhuohao Yu, Jindong Wang, Qiang Heng, Hao Chen, Wei Ye, Rui Xie, Xing Xie, Shikun Zhang*. Exploring Vision-Language Models for Imbalanced Learning. IJCV (CCF Rank A Journal)
31	Chaoya Jiang, Wei Ye*, Haiyang Xu, Shikun Zhang, Songfang Huang and Fei Huang. Vision Lanauge Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation. ACL’23 (CCF Rank A, Full Paper)
32	Zile Qiao, Wei Ye, Dingyao Yu, Tong Mo, Weiping Li and Shikun Zhang. Improving Knowledge Graph Completion with Generative Hard Negative Mining. ACL’23 (Findings)
33	Chaoya Jiang, Rui Xie, Wei Ye*, Jinan Sun and Shikun Zhang. Exploiting Pseudo Image Captions for Multimodal Summarization. ACL’23 (Findings)
34	Jindong Wang, Xixu Hu, Wenxin Hou, Hao Chen, Runkai Zheng, Yidong Wang, Linyi Yang, Wei Ye, Haojun Huang, Xiubo Geng, Binxing Jiao, Yue Zhang, Xing Xie. On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective. ICLR'23 (Workshop on Trustworthy and Reliable Large-Scale Machine Learning Models)
35	Bo Li, Dingyao Yu, Wei Ye, Jinglei Zhang, Shikun Zhang. Sequence Generation with Label Augmentation for Relation Extraction. AAAI'23 (CCF Rank A, Full Paper)
36	Bo Li, Wei Ye, Jinglei Zhang, Shikun Zhang. Reviewing Labels: Label Graph Network with Top-k Prediction Set for Relation Extraction. AAAI'23 (CCF Rank A, Full Paper)
37	Xi Xiangyu, Jianwei Lv, Shuaipeng Liu, Wei Ye*, Fan Yang and Guanglu Wan. MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous Informal Texts. EMNLP'22 (CCF Rank B, Full Paper)
38	Chaoya Jiang, Haiyang Xu, Chenliang Li, Ming Yan, Wei Ye, Shikun Zhang, Bin Bi and Songfang Huang. TRIPS:Efficient Vision-and-Language Pre-training with Text-relevant Patch Selection. EMNLP'22 (CCF Rank B, Full Paper)
39	Yidong Wang, Hao Chen, Yue Fan, Wang SUN, Ran Tao, Wenxin Hou, Renjie Wang, Linyi Yang, Zhi Zhou, Lan-Zhe Guo, Heli Qi, Zhen Wu, Yu-Feng Li, Satoshi Nakamura, Wei Ye, Marios Savvides, Bhiksha Raj, Takahiro Shinozaki, Bernt Schiele, Jindong Wang, Xing Xie, Yue Zhang. USB: A Unified Semi-supervised Learning Benchmark, NeurIPS'22 (CCF Rank A, Datasets and Benchmarks Track)
40	Botao Yu, Peiling Lu, Rui Wang, Wei Hu, Xu Tan, Wei Ye, Shikun Zhang, Tao Qin, Tie-Yan Liu. Museformer: Transformer with Fine- and Coarse-Grained Attention for Music Generation. NeurIPS'22 (CCF Rank A, Full Paper)
41	Peiyang Liu, Xi Xiangyu, Wei Ye* and Shikun Zhang. Label Smoothing for Text Mining, COLING'22 (CCF Rank B, Full Paper)
42	Zile Qiao, Wei Ye*, Tong Zhang, Tong Mo, Weiping Li and Shikun Zhang. Exploiting Hybrid Semantics of Relation Paths for Multi-hop Question Answering Over Knowledge Graphs, COLING'22 (CCF Rank B, Full Paper)
43	Yinyi Wei, Shuaipeng Liu, Jianwei Lv, Xi Xiangyu, Wei Ye*, Tong Mo, Fan Yang and Guanglu Wan. DESED: Dialogue-based Explanation for Sentence-level Event Detection, COLING'22 (CCF Rank B, Full Paper)
44	Rui Xie, Tianxiang Hu, Wei Ye, Shikun Zhang. Low-Resources Project-Specific Code Summarization, ASE'22 (CCF Rank A, Full Paper)
45	Xiangyu Xi, Chenxu Lv, Yuncheng Hua, Wei Ye*, Chaobo Sun, Shuaipeng Liu, Fan Yang, Guanglu Wan. A Low-Cost, Controllable and Interpretable Task-Oriented Chatbot: With Real-World After-Sale Services as Example. SIGIR'22 (Industry Track)
46	Zheyu Ying, Xueyang Liu*, Jinglei Zhang, Rui Xie, Guochang Wen, Xiongfeng Xiao, Shikun Zhang. 3Rs:Data Augmentation Techniques Using Document Contexts For Low-Resource Chinese Named Entity Recognition. IJCNN'22(CCF Rank C,full paper)
47	Tong Zhang, Wei Ye, Baosong Yang, Long Zhang, Xingzhang Ren, Dayiheng Liu, Jinan Sun, Shikun Zhang, Haibo Zhang, Wen Zhao. Frequency-Aware Contrastive Learning for Neural Machine Translation. AAAI'22 (CCF Rank A, Full Paper)
48	Peiyang Liu, Xi Wang, Sen Wang, Wei Ye*, Xiangyu Xi and Shikun Zhang. Improving Embedding-based Large-scale Retrieval via Label Enhancement. In EMNLP'21 (Findings)
49	Peiyang Liu, Xi Wang, Lin Wang, Wei Ye*, Xiangyu Xi and Shikun Zhang. Distilling Knowledge from BERT into Simple Fully Connected Neural Networks for Efficient Vertical Retrieval. In CIKM'21 (CCF Rank B, Applied Paper)
50	Xi Xiangyu, Wei Ye, Shikun Zhang, Quanxiu Wang, Huixing Jiang and Wei Wu. Capturing Event Argument Interaction via A Bi-Directional Entity-Level Recurrent Decoder. In ACL'21 (CCF Rank A, Full Paper)
51	Tong Zhang, Long Zhang, Wei Ye, Bo Li, Jinan Sun, Shikun Zhang, Xiaoyu Zhu and Wen Zhao. Point, Disambiguate and Copy: Incorporating Bilingual Dictionaries for Neural Machine Translation. In ACL'21 (CCF Rank A, Full Paper)
52	Luyao Ma, Yating Zhang, Tianyi Wang, Xiaozhong Liu, Wei Ye*, Changlong Sun and Shikun Zhang. Legal Judgment Prediction with Multi-Stage Case Representation Learning in the Real Court Setting. In SIGIR'21. (CCF Rank A, Full Paper)
53	Long Zhang, Tong Zhang, Haibo Zhang, Baosong Yang, Wei Ye* and Shikun Zhang. Multi-Hop Transformer for Document-Level Machine Translation. In NAACL'21. (CCF Rank C, Full Paper)
54	Peiyang Liu, Sen Wang, Xi Wang, Wei Ye*, Shikun Zhang, QuadrupletBERT: An Efﬁcient Model For Embedding-Based Large-Scale Retrieval. In NAACL'21. (CCF Rank C, Short Paper)
55	Rui Xie, Wei Ye*, Jinan Sun, Shikun Zhang. Exploiting Method Names to Improve Code Summarization: A Deliberation Multi-Task Learning Approach, ICPC'21 (CCF Rank B, Full Paper)
56	Xiangyu Xi, Wei Ye*, Tong Zhang, Quanxiu Wang, Shikun Zhang, Huixing Jiang, Wei Wu. Improve Event Detection by Exploiting Label Hierarchy. In ICASSP'21 (CCF Rank B, Full Paper)
57	Tianxiang Hu, Jingxi Liang, Wei Ye*, Shikun Zhang. Keyword-Aware Encoder for Abstractive Text Summarization. In DASFAA’21 (CCF Rank B, Full Paper)
58	Bo Li, Wei Ye*, Canming Huang and Shikun Zhang. Multi-view Inference for Relation Extraction with Uncertain Knowledge. In AAAI'21 (CCF Rank A, Full Paper)
59	Zhonghao Sheng, Kaitao Song, Xu Tan, Yi Ren, Wei Ye*, Shikun Zhang and Tao Qin. Automatic Song Writing with Pre-training and Alignment Constraint. In AAAI'21 (CCF Rank A, Full Paper)
60	Shikun Zhang, Rui Xie, Wei Ye*, Long Chen. Keyword-Based Code Auto-Summarization. Journal of Computer Research and Development, 2020. (CCF Chinese Rank A)
61	Haixin Wang, Tianhao Zhang, Muzhi Yu, Jinan Sun, Wei Ye, Chen Wang, Shikun Zhang. Stacking Networks Dynamically for Image Restoration Based on the Plug-and-Play Framework. In ECCV'20. (CCF Rank B, Full Paper)
62	Bo Li, Wei Ye*, Zhonghao Sheng, Rui Xie, Xiangyu Xi and Shikun Zhang. Graph Enhanced Dual Attention Network for Document-Level Relation Extraction. In COLING'20. (CCF Rank B, Full Paper)
63	Wei Ye, Rui Xie, Jinglei Zhang, Tianxiang Hu, Xiaoying Wang, Shikun Zhang. Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning. In WWW'20. (CCF Rank A, Full Paper)
64	Jinglei Zhang, Rui Xie, Wei Ye*, Yuhan Zhang, Shikun Zhang. Exploiting Code Knowledge Graph for Bug Localization via Bi-directional Attention. In ICPC'20. (CCF Rank B, Full Paper)
65	Tong Zhang, Wei Ye*, Xiangyu Xi, Long Zhang, Shikun Zhang, Wen Zhao. Leveraging Human Prior Knowledge to Learn Sense Representations. in ECAI'20. (CCF B, Full Paper)
66	Haixin Wang, Xingzhang Ren, Jinan Sun, Wei Ye, Long Chen, Muzhi Yu, Shikun Zhang. Deep Dynamic Boosted Forest. In ACML'20. (CCF Rank C, Full Paper)
67	Bo Li, Zhonghao Sheng, Wei Ye*, Jinglei Zhang, Kai Liu and Shikun Zhang. Sliding Hierarchical Recurrent Neural Networks for Sequence Classification. In IJCNN'20. (CCF Rank C, Full Paper)
68	Peiyang Liu, Wei Ye*, Xiangyu Xi, Tong Wang and Shikun Zhang. Not All Synonyms Are Created Equal: Incorporating Similarity of Synonyms to Enhance Word Embeddings. In IJCNN'20. (CCF Rank C, Full Paper)
69	Wei Ye, Bo Li, Rui Xie, Zhonghao Sheng, Long Chen and Shikun Zhang. Exploiting Entity BIO Tag Embeddings and Multi-task Learning for Relation Extraction with Imbalanced Data. In ACL'19. (CCF Rank A, Full Paper)
70	Bo Li, Zehua Cheng, Zhenghua Xu, Wei Ye*, Thomas Lukasiewicz and Shikun Zhang. Long Text Analysis Using Sliced Recurrent Neural Network with Breaking Point Information Enrichment. In ICASSP'19 (CCF Rank B, Full Paper)
71	Rui Xie, Long Chen, Wei Ye*, Zhiyu Li, Tianxiang Hu, Dongdong Du and Shikun Zhang. DeepLink: A Code Knowledge Graph Based Deep Learning Approach for Issue-Commit Link Recovery. In SANER'19 (CCF Rank B, Full Paper)
72	Long Chen, Wei Ye* and Shikun Zhang. Capturing Source Code Semantics via Tree-based Convolution over API-enhanced AST. ACM International Conference on Computing Frontiers, 2019 (CCF Rank C, Full Paper)
73	Luyao Ma, Long Zhang, Wei Ye and Wenhui Hu. PKUSE at SemEval-2019 Task 3: Emotion Detection with Emotion-Oriented Neural Attention Network. In Proceedings of the 13th International Workshop on Semantic Evaluation(SemEval), 2019