基本信息
- 黄志国/ 男 / 1989年6月
- LLM与GNN
联系方式
技能点
教育经历
-
南开大学 - 精算学专业(博士)
专业方向 社会保障与人口结构,期间发表CSSCI来源期刊4篇,会议论文1篇。
-
华侨大学 - 统计学专业(硕士)
专业方向 货币政策与劳动经济学,期间发表CSSCI来源期刊2篇,研究报告2篇。
-
东华理工大学 - 信息与技术科学专业(本科)
工作经历
-
[经历1]恒生电子股份公司/浙江大学-技术专家/博士后
- 2019.07-2020.03部门为恒生研究院专家工作室, 负责机器学习在金融工程中的应用与开发,金融工程主要研究方向为alpha模型,风险模型,大类资产配置, 机器学习算法主要方向为 automl,强化学习。
- 2020.09-2021.03所属部门为恒生研究院应用发展部债券组, 负责财务附注数据的抽取、开发、维护、应用,涉及方向为:统计推断、因果推断。
- 2021.03-2022.04所属部门为恒生研究院数据工程部机器学习组, 负责财务附注数据的抽取、开发、维护,图神经网络算法研究、设计与开发, 涉及方向为:统计推断、因果推断、图神经网络、图嵌入学习。
- 2022.04-至今所属部门为恒生电子技术平台研发管理部, 负责图神经网络算法研究、设计与开发, 涉及方向为:图神经网络、图嵌入学习。
- 在站期间共发表CSSCI、SCI、EI论文共5篇。
-
[经历2]品茗科技股份有限公司-算法专家
- 2023.10-至今部门为研发九部, 负责公司RAG的全流程事宜,包括设计、改造、流程优化、Embedding模型的训练, 涉及方向为 LLM,embedding模型,reranker模型,向量数据库,非结构文档解析,大模型推理。
论文专利
-
[经济金融方向]
- 黄志国,王博娟,陈孝伟.技术投资、公共教育投入与少子化[J].财经研究,2022,48(12):136-150
- 黄志国,王博娟,陈孝伟. 子代质量偏好、养老保险缴费率与家庭储蓄-教育投入权衡[J].经济评论,2022(1):143-160
- 王博娟 黄志国* 陈孝伟 李秀芳.人口结构变化、税费改革与遗产税[J].南开经济研究,2022(1):109-127
- 李秀芳,黄志国*,陈孝伟. Bagging集成方法在保险欺诈识别中的应用研究[J]保险研究,2019(04):66-84
- 黄志国,李秀芳,陈孝伟.代际利他主义者的跨期决策 ——基于人口结构变化的分析[J].南开经济研究,2019(02):42-61.
- 黄志国,陈孝伟.财政补充养老保险:相机补充还是必要补充?[J].中南财经政法大学学报,2018(04):92-99+160
- 李秀芳,黄志国*,陈孝伟.全面二孩政策能够解决人口老龄化困境吗?——统账结合制养老保障制度下的OLG分析[J].中央财经大学学报,2017(12):73-82.
- 赵凯,黄志国.中国货币工具规则的检验与比较[J].统计与决策,2017(09):151-155
- 赵凯,高友笙,黄志国.中国劳动力市场均衡及失业研究[J].统计研究,2016,33(5):69-76
[图神经网络方向]
- HUANG Zhiguo. DHSEGATs: Distance and Hop-wise Structures Encoding Enhanced Graph Attention Networks[J]. Journal of Systems Engineering and Electronics 2023, 34(2): 350-359
- HUANG Z. On the Effectiveness of Graph Statistics of Shareholder Relation Network in Predicting Bond Default Risk[J/OL]. Journal of Control Science and Engineering, 2022, 2022: 8401354.
[发明专利]
- 2022111899152-资源数据处理方法及装置(发明公布)
- 2022110944377-模型训练方法、节点分类方法、装置、设备及存储介质(发明公布)
[书籍翻译]
项目经验
-
[项目1]基于nlp和知识图谱的智能问答系统
- 技术栈:python+tensorflow+bert
-
[目标]实现与客服的智能问答,基本实现了对人工客服的替代
[方法]基于 bert/albert深度学习算法获取用户查询语句和备选题库语句的特征表示(sentence embedding), 基于文本相似度获取最近邻匹配,判断用户查询语句和备选库问题语句是否匹配,最终为用户查询提供反馈。 有效解决智能客服领域由于标注数据少无法训练出语义匹配模型的问题
[贡献]作为后期的主要开发人员进行智能客服系统的开发、支持、上线与维护。
-
[项目2]财务附注数据开发与应用
- 技术栈:python+sklearn+numpy+pandas
-
[目标]将复杂不可用的财务附注数据转换为高可用的标准数据
[贡献]负责财务附注数据开发的设计与维护
-
[项目3]股权关系图嵌入在债券违约风险预测中的有效性研究
- 技术栈:python+pytorch+图嵌入学习+sklearn
-
[目标]对股权关系进行图嵌入在债券违约风险中的有效性进行探索
[方法]从股权关系信息的理论有效性出发, 在三类债券违约风险预测中使用了四种图嵌入算法和七种机器学习预测模型, 针对股权关系信息的有效性, 图嵌入算法和机器学习模型的相对有效性进行分析。
[贡献]负责项目的设计、开发、研究报告撰写。
-
[项目4]基于专利分类号和改进LightGCN算法的公司相似度度量研究
- 技术栈:python+pytorch+pytorch-geometric+DGL+图神经网络+图嵌入学习
-
[目标]实现从专利的角度对公司间的相似度进行度量
[方法]专利分类信息在衡量公司的核心竞争力方面具有很高的理论和实务意义,可作为度量公司相似度的重要手段, 但如何将其转化为可学习的对象、使用何种方案与算法极具挑战。本项目专利分类号和改进LightGCN算法对此进行了研究, 提出了一种高效、快速、数据要求低、粒度可调整、易于部署的公司相似度度量算法。 本项目首先提出一种将专利分布信息转换为专利分布号网络的方案,然后基于生成的专利分布号网络使用图嵌入框架进行学习, 并为此对LightGCN算法进行改进, 基于改进LightGCN学习公司的嵌入向量,最终基于嵌入向量和cosine距离计算公司相似度值。
[贡献]负责项目的设计、开发、上线、维护、研究报告撰写。
-
[项目5]开源项目langchain-chatchat 21k star Langchain-Chatchat
- 技术栈:LLM/Embedding/langchain/gradio/click/fastapi/fastchat/uvicorn
-
[目标]实现本地部署、支持文档问答、搜索问答的聊天机器人
[方法]本项目是一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开 源模型支持友好、可离线运行的知识库问答解决方案。项目建立了全流程可使用开源模型实现的本地知识库 问答应用。现已支持使用 ChatGLM-6B 等大语言模型直接接入,或通过 fastchat api 形式接入 Vicuna, Alpaca, LLaMA, Koala, RWKV 等模型,依托上述模型可实现全部使用开源模型离线私有部署。
[贡献]核心开发者,负责大模型接入、推理加速框架接口、RAG效果增强优化、向量数据库接入