合肥工业大学主页平台管理系统郭丹--中文主页--科学研究

当前位置: 中文主页 >> 科学研究

研究领域

主要研究方向

主要研究方向为机器视觉、机器学习、深度学习、模式识别。包括：

· 视听事件理解（Audio-Visual Event Understanding and Parsing）

· 跨模态理解与推理（Cross-modal Understanding and Reasoning）

· 视觉情绪理解（Visual Emotion Captioning and Explanation)

· 时序动作识别与检测（Action Recognition and Detection）

· 视觉手语识别与翻译（Vison-based Sign Language Recognition and Translation）

· 视觉生理信号检测（Vision-based Physiological Measurement)

特色研究

· 视觉情感计算: 非接触式生理信号检测、微动作识别、情绪理解

· 视觉手语机器翻译：手语识别、翻译与生成

· 视听语义解析及定位：视听事件分类、解析与定位

论文成果

以下是部分论文清单：（主要包括CCF-A会议/期刊、IEEE/ACM Transactions期刊等）

Highlights:

1. Dan Guo, Hui Wang, and Meng Wang*. "Context-Aware Graph Inference with Knowledge Distillation for Visual Dialog", IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI, Trans.汇刊, CCF-A期刊, IF 24.314 ), 2021.

2. Jinxing Zhou, Dan Guo* and Meng Wang*. "Contrastive Positive Sample Propagation along the Audio-Visual Event Line", IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI, Trans.汇刊, CCF-A期刊, IF 24.314 ), 2022.

3. Chunxiao Fan, Dan Guo*, Ziqi Wang, Meng Wang. "Multi-Objective Convex Quantization for Efficient Model Compression", IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI, Trans.汇刊, CCF-A期刊, IF 24.314 ), 2024

4. Jinxing Zhou, Dan Guo*, Yiran Zhong, Meng Wang*. "Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling", International Journal of Computer Vision (IJCV, CCF-A期刊), 2024.

5. Dan Guo, Kun Li*, Bin Hu, Yan Zhang, Meng Wang*. "Benchmarking Micro-action Recognition: Dataset, Methods, and Applications", IEEE Transactions on Circuits and Systems for Video Technology. (IEEE TCSVT, Trans.汇刊), 2024.

6. Dan Guo, Hui Wang*, Hanwang Zhang, Zhengjun Zha, and Meng Wang*. "Iterative Context-Aware Graph Inference for Visual Dialog", Conference on Computer Vision and Pattern Recognition (CVPR, CCF-A 会议, oral paper, Top 5%), 2020.

7. Fei Wang, Dan Guo*, Kun Li, Zhun Zhong, Meng Wang*. "Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture", Conference on Computer Vision and Pattern Recognition (CVPR, CCF-A会议), 2024.

2026

1. Zheng Zhang, Jiabao Guo, Fei Wang, Jinyang Huang, Zhi Liu*, Dan Guo*. "TG4MM: Time-Varying Gaussian Splatting for 3D Motion Magnification", IEEE Transactions on Circuits and Systems for Video Technology. (IEEE TCSVT, Trans.汇刊), 2026.

2. You Qin, Wei Ji*, Xinze Lan, Hao Fei, Xun Yang, Dan Guo, Lizi Liao. "Grounding is All You Need? Dual Temporal Grounding for Video Dialog", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2026.

3. Sheng Zhou, Junbin Xiao, Xun Yang*, Peipei Song , Dan Guo*, Angela Yao*, Meng Wang. "Scene-Text Grounding for Text-Based Video Question Answering ", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2026.

4. Kewei Wu, Chongjia Zhu, Zhao Xie*, Kun Shao, Dan Guo*. "Mask-aware Kernel Learning for Action Recognition", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2026.

5. Tianyu Chang, Peipei Song*, Xun Yang*, Dan Guo, Xiaojun Chang. "Aleatoric-Epistemic Joint Uncertainty Modeling for Cross-Modal Retrieval", IEEE Transactions on Cybernetics (Trans.汇刊), 2026.

6. Sheng Sang, Shujie Li, Shuaiyang Li, Kang Liu, Teng Li, Wei Jia, Dan Guo, Feng Xue*. "Bidirectional Counterfactual Distillation for Review-Based Recommendation", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2026.

7. Feng Xue, Baochao Zhu, Wei Jia, Shujie Li, Yu Li, Jinrui Zhang, Shengeng Tang, Dan Guo*. "LinProVSR: Linguistics-Knowledge Guided Progressive Disambiguation Network for Visual Speech Recognition", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2026.

8. Jinpeng Hu, Ao Wang, Qianqian Xie, Zhuo Li, Hui Ma, Dan Guo*. "AgentMental: An Interactive Multi-Agent Framework for Explainable and Adaptive Mental Health Assessment", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2026.

9. Xu Liu, Na Xia*, Jinxing Zhou, Jingyuan Xu, Dan Guo*.. "A Closer Look at Knowledge Distillation in Spiking Neural Network Training", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2026.

10. Jinxing Zhou, Ziheng Zhou, Yanghao Morty Zhou, Yuxin Mao, Zhangling Duan, Dan Guo*. "CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2026.

11. Yuyan Liu, Li Zhang, Di Wu, Yan Zhang, Anran Huang, Wangzhi, Liu Liu*, Dan Guo. "SIAM: Towards Generalizable Articulated Object Modeling via Single Robot-Object Interaction", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2026.

2025

12. Kun Li, Dan Guo*, Guoliang Chen*, Chunxiao Fan, Jingyuan Xu, zhiliang wu, Hehe Fan, Meng Wang*. "Prototypical Calibrating Ambiguous Samples for Micro-Action Recognition"，AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2025.

13. Shengeng Tang, Jiayi He, Dan Guo, Yanyan Wei, Feng Li, Richang Hong. "Sign-IDD: Iconicity Disentangled Diffusion for Sign Language Production", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2025.

14. Pengcheng Zhao, Jinxing Zhou, Dan Guo*, Yang Zhao, Yanxiang Chen*. "Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2025.

15. Ziheng Zhou, Jinxing Zhou, Wei Qian, Shengeng Tang, Xiaojun Chang, Dan Guo*. "Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2025.

16. Wei Qian, Gaoji Su, Dan Guo*, Jinxing Zhou, Xiaobai Li, Bin Hu, Shengeng Tang, Meng Wang*. "PhysDiff: Physiology-based Dynamicity Disentangled Diffusion Model for Remote Physiological Measurement", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议, oral, top 4.6%), 2025.

17. Jingjing Hu, Dan Guo*, Zhan Si, Deguang Liu, Yunfeng Diao, Jing Zhang, Jinxing Zhou, Meng Wang*. "MOL-Mamba: Enhancing Molecular Representation with Structural & Electronic Insights", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2025.

18. Zhangbin Li, Jinxing Zhou, Jing Zhang, Shengeng Tang, Kun Li, Dan Guo*. "Patch-level Sounding Object Tracking for Audio-Visual Question Answering", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2025.

19. Xinyi Wang, Na Zhao, Zhiyuan Han, Dan Guo, Xun Yang. "AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2025.

20. Kun Li, Xinge Peng, Dan Guo*, Xun Yang, Meng Wang*. "Repetitive Action Counting with Hybrid Temporal Relation Modeling", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2025.

21. Zhenqiang Zhang, Kun Li, Shengeng Tang, Yanyan Wei, Fei Wang, Jinxing Zhou, Dan Guo*. "Temporal Boundary Awareness Network for Repetitive Action Counting", ACM Transactions on Multimedia Computing, Communications and Applications (ACM TOMCCAP , Trans.汇刊), 2025.

22. Zhao Xie, Longsheng Lu, Kewei Wu, Zhehan Kan, Xingming Yang, Dan Guo*. "Instructive Probabilistic Transformer for Complex Action Recognition", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2025.

23. Xinke Wang, Jingyuan Xu, Xiao Sun*, Mingzheng Li, Bin Hu, Wei Qian, Dan Guo*, Meng Wang*. "Facial Depression Estimation via Multi-Cue Contrastive Learning", IEEE Transactions on Circuits and Systems for Video Technology. (IEEE TCSVT, Trans.汇刊), 2025.

24. Peipei Song, Long Zhang, Long Lan, Weidong Chen, Dan Guo, Xun Yang*, and Meng Wang. "Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2025.

25. Xu Liu, Na Xia*, Jinxing Zhou, Zhangbin Li, Dan Guo*. "Towards Energy-efficient Audio-Visual Classification via Multimodal Interactive Spiking Network", ACM Transactions on Multimedia Computing, Communications and Applications (ACM TOMCCAP , Trans.汇刊), 2025.

26. Jingjing Hu，Dan Guo*，Kun Li, Zhan Si, Xun Yang, Xiaojun Chang, Meng Wang. "Unified Static and Dynamic Network: Efficient Temporal Filtering Video Grounding", IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI, Trans.汇刊, CCF-A期刊, IF 24.314 ), 2025.

27. Yunfeng Diao, Kaichao Jiang, Dan Guo*, Zhenyu Liang*, Zenglin Shi, Zhenxing Qian, Meng Wang. "Post-train Black-box Defense via Energy-based Bayesian Adversarial Training", SCIENTIA SINICA Informationis(CCF-A期刊), 2025.

28. Sheng Zhou, Junbin Xiao, Qingyun Li, Yicong Li, Xun Yang, Dan Guo, Meng Wang, Tat-Seng Chua, Angela Yao. "EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering", Conference on Computer Vision and Pattern Recognition (CVPR, CCF-A会议), 2025.

29. Shengeng Tang, Jiayi He, Lechao Cheng*, Jingjing Wu, Dan Guo, Richang Hong*. "Discrete to Continuous: Generating Smooth Transition Poses from Sign Language Observations", Conference on Computer Vision and Pattern Recognition (CVPR, CCF-A会议), 2025.

30. Zhenxing Zhang, Yaxiong Wang, Lechao Cheng, Zhun Zhong, Dan Guo, Meng Wang. "ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding", Conference on Computer Vision and Pattern Recognition (CVPR, CCF-A会议), 2025.

31. Jinxing Zhou, Dan Guo*, Ruohao Guo, Yuxin Mao, Jingjing Hu, Yiran Zhong, Xiaojun Chang, Meng Wang*. "Towards Open-Vocabulary Audio-Visual Event Localization", Conference on Computer Vision and Pattern Recognition (CVPR, CCF-A会议), 2025.

32. Wan Jiang, He Wang, Xin Zhang, Dan Guo, Zhaoxin Fan, Yunfeng Diao*, Richang Hong. "Moderating the Generalization of Score-based Generative Model", International Conference on Computer Vision(ICCV, CCF-A期刊), 2025.

33. Kun Li, Dan Guo*, Pengyu Liu, Guoliang Chen, Meng Wang*. "MMAD: Multi-label Micro-Action Detection in Videos", International Conference on Computer Vision(ICCV, CCF-A期刊), 2025.

34. Jingjing Hu，Dan Guo，Meng Wang，Jiaxi Li, Liu Fei. "Reproducibility Companion Paper: Maskable Retentive Network for Video Moment Retrieval", ACM Mutilmedia (ACM MM, CCF-A会议), 2025.

35. Xueyu Yuan, Jiarui Zhang, Jiangqi Song, Liu Liu*, Li Zhang, Dan Guo, Richang Hong, Meng Wang. "DFGAP: Towards Depth-Free Cross-Category GAParts Perception via Uncertainty-Quantified Modeling", ACM Mutilmedia (ACM MM, CCF-A会议), 2025.

36. Feng-Qi Cui, Anyang Tong, Jinyang Huang*, Jie Zhang, Dan Guo, Zhi Liu, Meng Wang. "Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization", ACM Mutilmedia (ACM MM, CCF-A会议), 2025.

37. Ran Zhang, Xuanhua He, Ke Cao, Liu Liu*, Li Zhang, Man Zhou, Jie Zhang*, Dan Guo, Meng Wang. "Distilling Textual Priors from LLM to Efficient Image Fusion", IEEE Transactions on Circuits and Systems for Video Technology. (IEEE TCSVT, Trans.汇刊), 2025.

38. Yanan Zhu, Jiaqiu Ai*, Le Wu, Dan Guo, Wei Jia, Richang Hong. "An Active Multi-Target Domain Adaptation Strategy: Progressive Class Prototype Rectification", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2025.

39. Jing Zhang, Dan Guo*, Zhangbin Li, Meng Wang. "EmoSEM: Segment and Explain Emotion Stimuli in Visual Art", MMAsia, Best Student Paper, 2025.

40. Wei Qian、Gaoji Su、Kun Li*、Yuchen Ding、Xiangyuan Jia, Dan Guo*. "DiffRePSS: A Diffusion model for Remote Physiological Signal Sensing", IJCAI (CCF-B 会议) Challenge paper, 2025.

2024

41. Jinxing Zhou, Xuyang Shen, Jianyuan Wang, Jiayi Zhang, Weixuan Sun, Jing Zhang, Stan Birchfield, Dan Guo, Lingpeng Kong, Meng Wang* , Yiran Zhong*. “Audio-Visual Segmentation with Semantics”, International Journal of Computer Vision (IJCV, CCF-A期刊), 2024.

42. Jinxing Zhou, Dan Guo*, Yiran Zhong, Meng Wang*. "Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling", International Journal of Computer Vision (IJCV, CCF-A期刊), 2024.

43. Shuaiyang Li, Feng Xue, Kang Liu, Dan Guo, Richang Hong. "Multimodal Graph Causal Embedding for Multimedia-based Recommendation", IEEE Transactions on Knowledge and Data Engineering (TKDE, Trans.汇刊, CCF-A 期刊)，2024.

44. Chunxiao Fan, Dan Guo*, Ziqi Wang, Meng Wang*. "Multi-Objective Convex Quantization for Efficient Model Compression", IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI, Trans.汇刊, CCF-A期刊, IF 24.314 ), 2024.

45. Wei Qian, Kun Li, Dan Guo*, Bin Hu, Meng Wang*. "Cluster-Phys: Facial Clues Clustering Towards Efficient Remote Physiological Measurement", ACM Mutilmedia (ACM MM, CCF-A会议, Oral paper, top 3.97%), 2024.

46. Jingjing Hu, Dan Guo*, Kun Li, Zhan Si, Xun Yang*, Meng Wang*. "Maskable Retentive Network for Video Moment Retrieval", ACM Mutilmedia (ACM MM, CCF-A会议,), 2024.

47. Xun Yang*, Jianming Zeng, Dan Guo, Shanshan Wang, Jianfeng Dong, Meng Wang. "Robust video question answering via contrastive cross-modality representation learning", Science China Information Sciences (SCIS, CCF-A 期刊 ), 2024.

48. Jinpeng Hu, Tengteng Dong, Luo Gang, Hui Ma, Peng Zou, Xiao Sun, Dan Guo, Xun Yang, Meng Wang∗. "PsycoLLM: Enhancing LLM for Psychological Understanding and Evaluation", IEEE Transactions on Computational Social Systems (IEEE TCSS, Trans.汇刊), 2024.

49. Jinxing Zhou, Dan Guo*, Yuxin Mao, Yiran Zhong, Xiaojun Chang, Meng Wang. "Label-anticipated Event Disentanglement for Audio-Visual Video Parsing", European Conference on Computer Vision (ECCV), 2024.

50. Jing Zhang, Liang Zheng*, Meng Wang, Dan Guo*. "Training A Small Emotional Vision Language Model for Visual Art Comprehension", European Conference on Computer Vision (ECCV), 2024.

51. Fei Wang, Dan Guo*, Kun Li, Zhun Zhong, Meng Wang*. "Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture", Conference on Computer Vision and Pattern Recognition (CVPR, CCF-A会议), 2024.

52. Chunxiao Fan, Ziqi Wang, Dan Guo*, Meng Wang. "Data-Free Quantization via Pseudo-label Filtering", Conference on Computer Vision and Pattern Recognition (CVPR, CCF-A会议), 2024.

53. Fei Wang, Dan Guo*, Kun Li, Meng Wang*. "EulerMormer: Robust Eulerian Motion Magnification via Dynamic Filtering within Transformer", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2024.

54. Zhangbin Li, Dan Guo*, Jinxing Zhou*, Jing Zhang, Meng Wang. "Object-aware Adaptive-Positivity Learning for Audio-Visual Question Answering", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2024.

55. Zhao Xie, Yadong Shi, Kewei Wu, Yaru Cheng, Dan Guo*. "Towards Understanding Future: Consistency Guided Probabilistic Modeling for Action Anticipation", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2024.

56. Liu Liu, Anran Huang, Qi Wu, Dan Guo*, Xun Yang, Meng Wang. "KPA-Tracker: Towards Robust and Real-Time Category-Level Articulated Object 6D Pose Tracking". AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2024.

57. Xinyi Wu, Wentao Ma, Dan Guo, Tongqing Zhou, Shan Zhao, Zhiping Cai. "Text-based Occluded Person Re-identification via Multi-Granularity Contrastive Consistency Learning", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议), 2024.

58. Peipei Song, Dan Guo*, Xun Yang, Shengeng Tang, and Meng Wang. "Emotional Video Captioning with Vision-based Emotion Interpretation Network", IEEE Transactions on Image Processing (IEEE TIP, Trans.汇刊, CCF-A期刊), 2024.

59. Zhao Xie, Chang Jiao, Kewei Wu*, Dan Guo* and Richang Hong. "Active Factor Graph Network for Group Activity Recognition", IEEE Transactions on Image Processing (IEEE TIP, Trans.汇刊, CCF-A期刊), 2024.

60. Dan Guo, Kun Li*, Bin Hu, Yan Zhang, Meng Wang*. "Benchmarking Micro-action Recognition: Dataset, Methods, and Applications", IEEE Transactions on Circuits and Systems for Video Technology. (IEEE TCSVT, Trans.汇刊), 2024.

61. Feiyang Liu, Kun Li, Zhun Zhong, Wei Jia, Bin Hu, Xun Yang*, Meng Wang*, Dan Guo*. "Depth Matters: Spatial Proximity-based Gaze Cone Generation for Gaze Following in Wild", ACM Transactions on Multimedia Computing, Communications and Applications (ACM TOMCCAP , Trans.汇刊), 2024.

62. Xin Liu, Biao Qian, Haipeng Liu*, Dan Guo, Yang Wang, Meng Wang*. "Seeking False Hard Negatives for Graph Contrastive Learning", IEEE Transactions on Circuits and Systems for Video Technology. (IEEE TCSVT, Trans.汇刊), 2024.

63. Kewei Wu , Wenjie Luo , Zhao Xie , Dan Guo , Zhao Zhang , and Richang Hong. "Ensemble Prototype Network For Weakly-Supervised Temporal Action Localization", IEEE Transactions on Neural Networks and learning systems (IEEE TNNLS, Trans.汇刊), 2024.

64. Wei Qian, Dan Guo*, Kun Li, Xiaowei Zhang, Xilan Tian, Xun Yang, Meng Wang*. "Dual-path TokenLearner for Remote Photoplethysmography-based Physiological Measurement with Facial Videos", IEEE Transactions on Computational Social Systems (IEEE TCSS, Trans.汇刊), 2024.

2023

65. Peipei Song, Dan Guo*, Xun Yang, Shengeng Tang, Erkun Yang, and Meng Wang*. "Emotion-Prior Awareness Network for Emotional Video Captioning", ACM International Conference on Multimedia (ACM MM ,CCF-A 会议, Oral paper, top 5.4%), 2023.

66. Sheng Zhou, Dan Guo*, Jia Li, Xun Yang*, and Meng Wang. "Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA", IEEE Transactions on Image Processing (TIP, Trans.汇刊, CCF-A期刊 ), 2023.

67. Kun Li, Dan Guo*, and Meng Wang*. "ViGT: Proposal-free Video Grounding with Learnable Token in Transformer", Science China Information Sciences (SCIS, CCF-A期刊)， 2023.

68. Xinge Peng, Kun Li*, Jiaxiu Li, Guoliang Chen, and Dan Guo*. "Multi-modality Fusion for Emotion Recognition in Videos", IJCAI (CCF-B会议) Challenge paper, 2023.

69. Kun Li, Dan Guo*, Guoliang Chen, Xinge Peng, and Meng Wang. "Joint Skeletal and Semantic Embedding Loss for Micro-gesture Classification", IJCAI (CCF-B会议) Challenge paper, 2023.

70. Jia Li, Wei Qian, Kun Li, Qi Li, Dan Guo*, and Meng Wang*. "Exploiting Diverse Feature for Multimodal Sentiment Analysis", ACM MM (CCF-A 会议) Challenge paper, 2023.

71. Kun Li, Dan Guo* , Guoliang Chen, Feiyang Liu and Meng Wang. "Data Augmentation for Human Behavior Analysis in Multi-Person Conversations", ACM MM (CCF-A 会议) Challenge paper, 2023.

72. Kun Li, Jiaxiu Li, Dan Guo*, Xun Yang*, and Meng Wang. "Transformer-based Visual Grounding with Cross-modality Interaction", ACM Transactions on Multimedia Computing, Communications and Applications (ACM TOMCCAP , Trans.汇刊), 2023.

73. Qi Li, Dan Guo*, Wei Qian, Xilan Tian, Xiao Sun, Haifeng Zhao, and Meng Wang*. "Channel-wise Interactive Learning for Remote Heart Rate Estimation from Facial Video", IEEE Transactions on Circuits and Systems for Video Technology (IEEE TCSVT, Trans.汇刊),2023.

74. Jing Zhang, Dan Guo*, Xun Yang*, Peipei Song, and Meng Wang*. "Visual-Linguistic-Stylistic Triple Reward for Cross-Lingual Image Captioning", ACM Transactions on Multimedia Computing, Communications and Applications (ACM TOMCCAP , Trans.汇刊), 2023.

75. Sheng Zhou, Dan Guo*, Xun Yang*, Jianfeng Dong, and Meng Wang*. "Graph Pooling Inference Network for Text-Based VQA", ACM Transactions on Multimedia Computing, Communications and Applications (ACM TOMCCAP , Trans.汇刊), 2023.

76. Shuaiyang Li, Dan Guo, Kang Liu, Richang Hong, and Feng Xue. "Multimodal Counterfactual Learning Network for Multimedia-based Recommendation", Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR, CCF-A会议), 2023.

77. Kang Liu, Feng Xue*, Dan Guo, Peijie Sun, Shengsheng Qian, and Richang Hong. "Multimodal Graph Contrastive Learning for Multimedia-based Recommendation", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2023.

78. Wentao Ma, Xinyi Wu, Shan Zhao*, Tongqing Zhou*, Dan Guo, Lichuan Gu, Zhiping Cai, and Meng Wang. "FedSH: Towards Privacy-preserving Text-based Person Re-Identification", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2023.

79. Kang Liu, Feng Xue*, Dan Guo, Le Wu, Shujie Li, and Richang Hong. "MEGCF: Multimodal Entity Graph Collaborative Filtering for Personalized Recommendation", ACM Transactions on Information Systems (ACM TOIS, Trans.汇刊, CCF-A期刊), 2023.

80. Feng Xue*, Tian Yang, Kang Liu, Zikun Hong, Mingwei Cao, Dan Guo, and Richang Hong. "LCSNet: End-to-end Lipreading with Channel-aware Feature Selection", ACM Transactions on Multimedia Computing, Communications, and Applications (ACM TOMM, Trans.汇刊), 2023.

81. 郭丹,姚沈涛,王辉,汪萌.嵌入局部聚类描述符的视频问答Transformer模型[J]. 计算机学报 (CCF-A 中文期刊), 2023.

2022

82. Jinxing Zhou, Dan Guo* and Meng Wang*. "Contrastive Positive Sample Propagation along the Audio-Visual Event Line", IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI, Trans.汇刊, CCF-A期刊, IF 24.314 ), 2022.

83. Shengeng Tang, Richang Hong*, Dan Guo*, and Meng Wang. "Gloss Semantic-Enhanced Network with Online Back-Translation for Sign Language Production", ACM International Conference on Multimedia (ACM MM ,CCF-A 会议), 2022.

84. Peipei Song, Dan Guo*, Jun Cheng, and Meng Wang*. "Contextual Attention Network for Emotional Video Captioning", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊 ), 2022.

85. Peipei Song, Dan Guo*, Jinxing Zhou, Mingliang Xu, and Meng Wang*. "Memorial GAN with Joint Semantic Optimization for Unpaired Image Captioning", IEEE Transactions on Cybernetics (TCYB, Trans.汇刊 ), 2022.

86. Jinxing Zhou, Jianyuan Wang, Jiayi Zhang, Weixuan Sun, Jing Zhang, Stan Birchfield, Dan Guo, Meng Wang*, and Yiran Zhong*. "Audio−Visual Segmentation", European Conference on Computer Vision (ECCV), 2022.

87. Tianyuan Xu, Xueliang Liu*, Zhen Huang*, Dan Guo, Richang Hong, and Meng Wang. "Early-Learning regularized Contrastive Learning for Cross-Modal Retrieval with Noisy Labels", ACM International Conference on Multimedia (ACM MM, CCF-A会议), 2022.

88. Zhao Xie, Jiansong Chen, Kewei Wu*, Dan Guo, and Richang Hong. "Global Temporal Difference Network for Action Recognition", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2022.

89. Kang Liu, Feng Xue*, Xiangnan He, Dan Guo, and Richang Hong. "Joint Multi-Grained Popularity-Aware Graph Convolution Collaborative Filtering for Recommendation", IEEE Transactions on Computational Social Systems (IEEE TCSS, Trans.汇刊), 2022.

2021

90. Dan Guo, Hui Wang, and Meng Wang*. "Context-Aware Graph Inference with Knowledge Distillation for Visual Dialog", IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI, Trans.汇刊, CCF-A期刊, IF 24.314 ), 2021.

91. Hui Wang, Dan Guo*, Xiansheng Hua, and Meng Wang*. "Pairwise VLAD Interaction Network for Video Question Answering", ACM International Conference on Multimedia (ACM MM, CCF-A 会议), 2021.

92. Kun Li, Dan Guo*, and Meng Wang*. "Proposal-Free Video Grounding with Contextual Pyramid Network", AAAI Conference on Artificial Intelligence (AAAI, CCF-A 会议), 2021.

93. Shengeng Tang, Dan Guo*, Richang Hong*, Meng Wang. "Graph-Based Multimodal Sequential Embedding for Sign Language Translation", IEEE Transactions on Multimedia (IEEE TMM, Trans.汇刊, CCF-A期刊), 2021.

2020

94. Dan Guo, Hui Wang, Shuhui Wang, and Meng Wang*. "Textual-Visual Reference-Aware Attention Network for Visual Dialog", IEEE Transactions on Image Processing (TIP, Trans.汇刊, CCF-A期刊), 2020.

95. Dan Guo, Wengang Zhou*, Anyang Li, Houqiang Li, and Meng Wang*. "Hierarchical Recurrent Deep Fusion Using Adaptive Clip Summarization for Sign Language Translation", IEEE Transactions on Image Processing (TIP, Trans.汇刊, CCF-A期刊), 2020.

96. Dan Guo, Hui Wang*, Hanwang Zhang, Zhengjun Zha, and Meng Wang*. "Iterative Context-Aware Graph Inference for Visual Dialog", Conference on Computer Vision and Pattern Recognition (CVPR, CCF-A 会议, oral paper, Top 5%), 2020.

97. Dan Guo, Yang Wang*, Peipei Song*, and Meng Wang. "Recurrent Relational Memory Network for Unsupervised Image Captioning", International Joint Conference on Artificial Intelligence (IJCAI, CCF-B会议, 录取率12.6%), 2020.

2019

98. Dan Guo, Kun Li*, and Meng Wang. "DADNet: Dilated-Attention-Deformable ConvNet for Crowd Counting", ACM International Conference on Multimedia (ACM MM, CCF-A 会议, oral paper, Top 9.8% ), 2019.

99. Dan Guo, Shengeng Tang,and Meng Wang. "Connectionist Temporal Modeling of Video and Language：A Joint Model for Translation and Sign Labeling", International Joint Conference on Artificial Intelligence (IJCAI, CCF-B会议 ), 2019.

100. Dan Guo, Shuo Wang, Qi Tian, and Meng Wang. "Dense Temporal Convolution Network for Sign Language Translation", International Joint Conference on Artificial Intelligence (IJCAI, CCF-B会议), 2019.

101. Dan Guo, Hui Wang, and Meng Wang. "Dual Visual Attention Network for Visual Dialog", International Joint Conference on Artificial Intelligence (IJCAI, CCF-B会议), 2019.

102. Shuo Wang, Dan Guo*, Xin Xu, Li Zhuo, and Meng Wang. "Cross-Modality Retrieval by Joint Correlation Learning", ACM Transactions on Multimedia Computing Communications and Applications (ACM TOMCCAP , Trans.汇刊 ), 2019.

2018&Before

103. Shuo Wang, Dan Guo*, Wengang Zhou, Zhengjun Zha, and Meng Wang. "Connectionist Temporal Fusion for Sign Language Translation", International ACM International Conference on Multimedia (ACM MM, CCF-A会议 ), 2018.

104. Dan Guo, Wengang Zhou, Houqiang Li, and Meng Wang. "Hierarchical LSTM for Sign Language Translation", AAAI Conference on Artificial Intelligence (AAAI, CCF-A会议, oral paper, Top 5% ), 2018.

105. Dan Guo, Wengang Zhou*, Houqiang Li*, and Meng Wang*. "Online Early-Late Fusion Based on Adaptive HMM for Sign Language Recognition", ACM Transactions on Multimedia Computing Communications and Applications (ACM TOMCCAP , Trans.汇刊 ), 2018.

106. 鲁志红, 郭丹*, 汪萌. 基于加权运动估计和矢量分割的运动补偿内插算法[j]. 自动化学报 (CCF-A中文期刊), 2015.

专利成果

获得国家专利44项，其中授权34项：

[1] 郭丹; 张政; 郭嘉宝; 王飞; 汪萌; 一种基于3D高斯的三维微运动放大方法（发明专利）, 2026-03-31（实审）, 中国, 202511590354.0.

[2] 晏紫博; 钱威; 徐子航; 宴龙龙; 田小宁; 郭丹; 一种基于领域自适应的远程心率检测方法（发明专利）, 2025-09-30（实审）, 中国, 202510497875.5.

[3] 郭丹; 宿高吉; 钱威; 黄锦阳; 段章领; 汪萌; 一种基于扩散模型的远程生理信号估计方法及系统（发明专利）, 2025-05-06（授权）, 中国, 202510186180.5.

[4] 黄锦阳; 郭宇童; 赵嘉铖; 李翰臻; 胡双真; 周沐阳; 单傲祥; 王萌; 章翔; 颜焕; 郭丹; 汪萌; 一种基于横纵笔画分解的非接触握笔姿势校准方法及系统（发明专利）, 2025-09-26（授权）, 中国, 202511015476.7.

[5] 黄锦阳; 郭宇童; 赵嘉铖; 崔丰麒; 郑天越; 郭丹; 汪萌; 一种基于面部关键点时空特征融合的情绪检测方法（发明专利）, 2025-11-25（授权）, 中国, 202511370987.0.

[6] 胡晶晶; 张静; 赵耀; 郭丹; 一种基于时频双路传感器融合的人体活动检测系统及方法（发明专利）, 2025-08-05（实审）, 中国, 202510375134.X.

[7] 郭丹; 孙甲慧; 张静; 一种基于动态门控解码的语法可控视频描述生成方法及系统（发明专利）2025-08-26（实审）, 中国, 202510617010.8.

[8] 郭丹; 孙淑晴; 孙培杰; 汪萌; 一种基于意图的购买偏好感知的多行为推荐方法（发明专利）, 2025-11-25（实审）, 中国, 202510850552.X.

[9] 郭丹; 段冬星; 徐静远; 刘飞扬; 汪萌; 一种基于多模态联合优化的像素级注视目标预测方法（发明专利）, 2025-12-26（实审）, 中国, 202511246581.1.

[10] 周金星; 郭丹; 李张斌; 汪萌; 一种基于多模态异构图的视听视频问答方法和系统（发明专利）, 2025-03-25（授权）, 中国, 202411823994.7.

[11] 唐申庚; 姚骏; 王旭; 修雪玉; 董晓虎; 谭惟尹; 郭丹; 一种基于多模态语义交互增强的手语生成系统及方法（发明专利）, 2024-11-12（授权）, 中国, 202410630950.6.

[12] 汤杰辉; 刘学亮; 郭丹; 蔡驿晨; 张金炎; 叶雨露; 一种轻量化个性人脸视觉配音方法（发明专利）, 2024-07-26（授权）, 中国, CN202410661845.9.

[13] 郭丹; 刘飞扬; 李坤; 汪萌; 一种基于渐进性视野锥的注视目标估计方法（发明专利）, 2024-04-09（授权）, 202410100320.8.

[14] 周金星; 郭丹; 周子恒; 汪萌; 基于跨模态一致性和时序多粒度协作的视听事件定位系统和方法（发明专利）, 20250211（授权）, 中国, 202411661256.7.

[15] 郭丹; 刘飞扬; 李坤; 汪萌; 一种基于渐进性视野锥的注视目标估计方法（发明专利）, 2024-01-23（实审）, 中国, 202410100320.8.

[16] 杨勋; 周晟; 宋培培; 郭丹; 汪萌; 一种基于图池化推理网络的场景文本视觉问答方法（发明专利）, 2024-02-20（实审）, 中国, 202311431250.6.

[17] 王飞; 郭丹; 李坤; 汪萌; 一种基于Transformer网络的视频运动放大方法（发明专利）, 2026-01-02（授权）, 中国, 202310481761.2.

[18] 徐子航; 黄扬竣; 陈昌林; 贺意; 李沐柔; 黄赞; 郭丹; 一种基于正则化联合自主训练的领域自适应图像分类方法（发明专利）, 20250916（授权）, 中国, 202310150489.X.

[19] 唐申庚; 肖同欢; 郭丹; 谷纪豪; 曹晨曦; 宋万强; 黄滨; 一种基于图像目标检测和视觉深度估计的碰撞预警方法（发明专利），2026-01-02(授权), 中国, CN202310188292.5.

[20] 唐申庚; 宋万强; 郭丹; 黄滨; 谷纪豪; 肖同欢; 曹晨曦; 一种基于带权无向图的视障人士路线规划方法（发明专利），2023-03-06 (实审), 中国, CN202310228006.3.

[21] 宋培培; 郭丹; 龙馨仪; 汪萌; 基于视觉情感驱动的视频情感描述模型的生成方法及应用（发明专利）, 2026-02-24（授权）, 中国, 202210982424.7.

[22] 郭丹; 刘泽宽; 郭义臣; 唐申庚; 武梓龙; 文则涵; 陈颖男; 一种基于深度学习的WiFi手语翻译系统及方法（发明专利）, 2025-09-16（授权）, 中国, 202210805408.0.

[23] 郭丹; 李琦; 孙晓; 黄杰; 汪萌; 基于通道增强时空注意力网络的端到端远程心率检测方法（发明专利）, 2024-4-26（授权）, 中国, 202210507744.7.

[24] 卢天一; 郭丹; 一种动作指导的视频描述方法（发明专利）, 2022-06-29（授权）, 中国, 202210829622.X.

[25] 郭丹；钱威；张习伟；刘学亮；王方兵；汪萌; 一种基于令牌学习的人脸视频心率估计系统及方法（发明专利）, 20241025（授权）, 中国, 202210506179.2.

[26] 郭丹; 何梓贻; 倪友炜; 李坤; 徐梓鑫; 马嘉淇; 罗匡; 一种基于目标检测的碗碟清洗设备（实用新型）, 2023-5-12（授权）, 中国, ZL202220873705.4.

[27] 郭丹; 谷纪豪; 唐申庚; 肖同欢; 曹晨曦; 宋万强; 一种基于深度智能交互的室外视障辅助方法（发明专利）, 2024-02-20（授权）, 中国, 202210371804.7.

[28] 郭丹; 曹晨曦; 肖同欢; 唐申庚; 谷纪豪; 黄滨; 一种基于语义分割的择优式方向偏移预警系统和方法（发明专利）, 2024-02-27（授权）, 中国, 202210374860.6.

[29] 赵烨; 胡晓斌; 胡珍珍; 刘学亮; 郭丹; 郭艳蓉; 吴乐; 一种基于注意力模型的视频摘要描述生成方法及装置, 2022-12-9（授权）, 中国, ZL202110565400.7.

[30] 郭丹; 唐申庚; 刘祥龙; 洪日昌; 汪萌; 一种基于图卷积的多模态融合手语识别系统及方法（发明专利）, 2023-3-14（授权）, 中国, ZL202010049714.7.

[31] 郭丹; 唐申庚; 刘祥龙; 汪萌; 一种基于多层次语义解析的手语翻译系统及方法（发明专利）, 2023-3-28（授权）, 中国, ZL202010103960.6.

[32] 郭丹; 宋培培; 刘祥龙; 汪萌; 基于递归记忆网络的无监督图像描述模型的生成方法（发明专利）, 2022-3-15（授权）, 中国, ZL202010049142.2.

[33] 郭丹; 宋培培; 刘祥龙; 汪萌; 基于数据自驱动的多阶特征动态融合手语翻译方法（发明专利）, 2022-3-15（授权）, 中国, ZL202010096391.7.

[34] 郭丹; 王辉; 汪萌; 一种基于上下文感知图神经网络的视觉对话生成方法（发明专利）, 2021-06-08（授权）, 中国, ZL201910881298.4.

[35] 郭丹; 李坤; 汪萌; 一种基于多尺度注意力机制的人群密度估计方法（发明专利）, 2021-03-09（授权）, 中国, ZL201910531606.0.

[36] 郭丹; 宋培培; 赵烨; 汪萌; 基于自适应隐马尔可夫的多特征融合手语识别方法（发明专利）, 2020-07-10（授权）, 中国, ZL201811131806.9.

[37] 郭丹; 汪萌; 周文罡; 李厚强; 李传青; 李安阳; 基于非对称多层LSTM的连续手语视频自动翻译方法（发明专利）, 2020-2-11（授权）, 中国, ZL201810027551.5.

[38] 郭丹; 王硕; 汪萌; 基于时域卷积网络与循环神经网络融合的手语视频翻译方法（发明专利）, 2019-10-18（授权）, 中国, ZL201811070290.1.

[39] 汪萌; 张鹿鸣; 郭丹; 一种基于多任务拓扑学习的航拍图像快速识别系统及其快速识别方法（发明专利）, 2018-2-6（授权）, 中国, ZL201510080478.4.

[40] 郭丹; 胡学钢; 倪武; 吴信东; 一种基于最大流率路径优先的路网疏散规划方法（发明专利）, 2017-6-6（授权）, 中国, ZL201510451828.3.

[41] 汪萌; 张鹿鸣; 郭丹; 田绪婷; 一种基于几何重构和语义融合的视点追踪方法（发明专利）, 2017-10-3（授权）, 中国, ZL201410733763.7.

[42] 汪萌; 杨勋; 洪日昌; 郭丹; 刘奕群; 孙茂松; 一种基于语义映射空间构建的图像检索方法（发明专利）, 2017-5-17（授权）, 中国, ZL201410393094.3.

[43] 汪萌; 洪日昌; 李炳南; 刘奕群; 郭丹; 刘学亮; 吴信东; 杨勋; 基于连续数标号子空间学习的检索重排序方法（发明专利）, 2017-2-22（授权）, 中国, ZL201410196946.X.

[44] 汪萌; 张鹿鸣; 郭丹; 刘奕群; 孙茂松; 鲁志红; 基于GPS信息视频的三维场景重建方法（发明专利）, 2017-2-22（授权）, 中国, ZL201410752454.4.

著作成果

英文专著2本

[1] Multimedia for Accessible Human Computer Interfaces. Springer. 2021.

[2] Pattern Matching with Wildcards and Length Constraint. 科学出版社. 2016.

软著5项

[1] 龙馨仪；靳如月；易锦均；宋培培；郭丹；多领域下的实时多模态虚假新闻检测系统 V1.0，2023R11L1048667，原始取得，全部权利，2023-11-15.

[2] 唐申庚；修雪玉；郭丹；董晓虎；姚骏；谢伟豪；跨语言手语翻译系统 V1.0，2023SR1107827，原始取得，全部权利，2023-09-20.

[3] 唐申庚; 黄滨; 郭丹; 谷纪豪; 盲人避障出行辅助系统 V1.0, 2023SR0517944, 原始取得, 全部权利, 2023-05-05.

[4] 郭丹; 唐申庚; 陈颖男; 武梓龙; 文则涵; 刘泽宽; 基于关键点估计的人体姿态卡通化系统 V1.0, 2022SR0771364, 原始取得, 全部权利, 2022-06-16.

[5] 鲁志红; 郭丹; 吴经纬; 刘菲; 张立缙; 田旭婷; 基于运动补偿的视频高清化播放软件 V1.0, 2014SR098634, 原始取得, 全部权利, 2014-07-16.

获奖情况

获得CCF-A/B类国际会议挑战赛奖项16项，其中冠军9项，亚军5，季军2。

1. IJCAI Challenge on Micro-gesture Analysis for Hidden Emotion Understanding , 1st Place in Micro-gesture classification Track.🏆（2025年8月)

2. IJCAI Challenge on Micro-gesture Analysis for Hidden Emotion Understanding, 1st Place in Multimodality-based online micro-gesture recognition Track.🏆（2025年8月)

3. IJCAI Challenge on Vision-based Remote Physiological Signal Sensing ,1st Place .🏆（2025年8月)

4. IJCAI Challenge on Micro-gesture Analysis for Hidden Emotion Understanding， 1st Place in Micro-gesture Classification Track.🏆（2024年8月)

5. ACM MM Multi-modal Group Behaviour Analysis for Artificial Mediation，1st Place in Bodily Behaviour Recognition Track. 🏆（2024年10月)

6. ACM MM Multi-modal Group Behaviour Analysis for Artificial Mediation，1st Place in Eye Contact Detection Track. 🏆（2024年10月)

7. IJCAI Challenge on Micro-gesture Analysis for Hidden Emotion Understanding, 1st Place in Micro-gesture Classification Track.🏆（2023年5月)

8. ACM MM Multi-modal Group Behaviour Analysis for Artificial Mediation, 1st Place in Bodily Behaviour Recognition Track. 🏆(2023年7月)

9. ACM MM Multi-modal Group Behaviour Analysis for Artificial Mediation, 1st Place in Eye Contact Detection Track. 🏆(2023年7月)

科研项目 More>>

其他

暂无内容