个人简介:华东理工大学计算机本科,同济大学计算机硕士,毕业后进入500强企业工作,曾在微软亚太研发集团、优酷
土豆集团、易传媒、阿里巴巴集团、深演智能等知名企业工作,参与AI智能化产品,大模型LLM及智能体产品技术研发和
管理工作。在机器学习和人工智能领域深耕多年,拥有数据处理方法、装置、存储介质及处理器的发明专利。在AWS技术
峰会和大数据技术汇等大型技术峰会上发表AI大数据产品技术演讲,并出席头部媒体和TopDigital和执牛耳媒体的相关
专访。
工作经历:历任高级开发工程师,研发主管,技术总监,CTO等职位。在微软工作期间,参与多个高性能大规模工具产
品研发,包括微软全球下载中心,PubwizX,Visual Studio等,因卓越的技术研发和管理能力而获得微软公司Future
Star Award和IT Pro Award,并在美国微软西雅图总部参与核心在线搜索产品研发。在阿里巴巴任职技术总监,负责
广告大数据平台DMP(达摩盘)产品,通过机器学习训练模型精准预测标签,人群分类等,成为阿里电商搜索,广告和
推荐的核心基石,乐于分享知识,在工作期间被授予优秀讲师荣誉。参与大模型创业,从0到1自主研发LLM基础大模型,
开发基础大模型产品各个核心模块,包括数据预处理,数据动态混合配比,模型训练,推理,部署等模块的研发,设
计大模型流水线及架构并发布和开源了7B基础大模型,结合汽车行业客户数据,微调模型为汽车行业提供AI维修助手
智能体。研发大语言模型预训练,结合最新的大模型论文并运用相关技术,包括 RoPE(Su et al., 2021, Jiang et al.,
2023),QK-LayerNorm (Dehghani et al., 2023),Max-z loss(Yang et al., 2023), FlashAttention (Dao et al.,
2022),xformers(Lefaudeux et al., 2022)等,运用多种大模型训练并行优化技术,包括 DeepSpeed,ZeRO2
(Rasleyet al., 2020)等技术对大模型进行加速训练,支持多语言,多数据集混合配比,可灵活配置并实时动态加载,
支持Context Sampling 和 Content Stuffing 等功能,实时监控各项训练指标,包括 Max Attention Logits, MeanQuery
Norm 和 Mean Query Norm,确保大模型预训练稳定性。
主讲课程:机器学习与深度神经网络,Transformer大语言模型,AIGC及其应用
科研成果:拥有数据处理方法、装置、存储介质及处理器的发明专利,并获得企业内部优秀讲师称号。
