[简历]黄志国-博士副研究员/杭州

基本信息

个人信息黄志国/ 男 / 1989年6月
研究兴趣 LLM与GNN

联系方式

邮箱 hzg0601@163.com
Github github.com/hzg0601

技能点

大语言模型
RAG
Prompt Engineering
推理加速
图神经网络
KBQA

教育经历

南开大学 - 精算学专业（博士） 2016.9-2019.7

专业方向社会保障与人口结构，期间发表CSSCI来源期刊4篇，会议论文1篇。
华侨大学 - 统计学专业（硕士） 2013.9-2016.7

专业方向货币政策与劳动经济学，期间发表CSSCI来源期刊2篇，研究报告2篇。
东华理工大学 - 信息与技术科学专业（本科） 2008.9-2012.7

工作经历

[经历1]恒生电子股份公司/浙江大学－技术专家/博士后 2019.7-2023.10
- 2019.07-2020.03部门为恒生研究院专家工作室, 负责机器学习在金融工程中的应用与开发,金融工程主要研究方向为alpha模型,风险模型,大类资产配置, 机器学习算法主要方向为 automl,强化学习。
- 2020.09-2021.03所属部门为恒生研究院应用发展部债券组，负责财务附注数据的抽取、开发、维护、应用，涉及方向为：统计推断、因果推断。
- 2021.03-2022.04所属部门为恒生研究院数据工程部机器学习组，负责财务附注数据的抽取、开发、维护，图神经网络算法研究、设计与开发，涉及方向为：统计推断、因果推断、图神经网络、图嵌入学习。
- 2022.04-至今所属部门为恒生电子技术平台研发管理部，负责图神经网络算法研究、设计与开发，涉及方向为：图神经网络、图嵌入学习。
- 在站期间共发表CSSCI、SCI、EI论文共5篇。
[经历2]品茗科技股份有限公司-算法专家 2023.10-至今
- 2023.10-至今部门为研发九部, 负责公司RAG的全流程事宜，包括设计、改造、流程优化、Embedding模型的训练, 涉及方向为 LLM，embedding模型，reranker模型，向量数据库，非结构文档解析，大模型推理。

论文专利

[经济金融方向]
[图神经网络方向]
- HUANG Zhiguo. DHSEGATs: Distance and Hop-wise Structures Encoding Enhanced Graph Attention Networks[J]. Journal of Systems Engineering and Electronics 2023, 34(2): 350-359
- HUANG Z. On the Effectiveness of Graph Statistics of Shareholder Relation Network in Predicting Bond Default Risk[J/OL]. Journal of Control Science and Engineering, 2022, 2022: 8401354.
[发明专利]
- 2022111899152-资源数据处理方法及装置（发明公布）
- 2022110944377-模型训练方法、节点分类方法、装置、设备及存储介质（发明公布）
[书籍翻译]

项目经验

[项目1]基于nlp和知识图谱的智能问答系统 2020.4-2020.9
- 技术栈：python+tensorflow+bert
- [目标]实现与客服的智能问答，基本实现了对人工客服的替代
  [方法]基于 bert/albert深度学习算法获取用户查询语句和备选题库语句的特征表示(sentence embedding), 基于文本相似度获取最近邻匹配,判断用户查询语句和备选库问题语句是否匹配,最终为用户查询提供反馈。有效解决智能客服领域由于标注数据少无法训练出语义匹配模型的问题
  [贡献]作为后期的主要开发人员进行智能客服系统的开发、支持、上线与维护。
[项目2]财务附注数据开发与应用 2020.9-2022.4
- 技术栈：python+sklearn+numpy+pandas
- [目标]将复杂不可用的财务附注数据转换为高可用的标准数据
  [贡献]负责财务附注数据开发的设计与维护
[项目3]股权关系图嵌入在债券违约风险预测中的有效性研究 2022.4-2022.9
- 技术栈：python+pytorch+图嵌入学习+sklearn
- [目标]对股权关系进行图嵌入在债券违约风险中的有效性进行探索
  [方法]从股权关系信息的理论有效性出发, 在三类债券违约风险预测中使用了四种图嵌入算法和七种机器学习预测模型, 针对股权关系信息的有效性, 图嵌入算法和机器学习模型的相对有效性进行分析。
  [贡献]负责项目的设计、开发、研究报告撰写。
[项目4]基于专利分类号和改进LightGCN算法的公司相似度度量研究 2022.9-2023.4
- 技术栈：python+pytorch+pytorch-geometric+DGL+图神经网络+图嵌入学习
- [目标]实现从专利的角度对公司间的相似度进行度量
  [方法]专利分类信息在衡量公司的核心竞争力方面具有很高的理论和实务意义，可作为度量公司相似度的重要手段，但如何将其转化为可学习的对象、使用何种方案与算法极具挑战。本项目专利分类号和改进LightGCN算法对此进行了研究，提出了一种高效、快速、数据要求低、粒度可调整、易于部署的公司相似度度量算法。本项目首先提出一种将专利分布信息转换为专利分布号网络的方案，然后基于生成的专利分布号网络使用图嵌入框架进行学习，并为此对LightGCN算法进行改进，基于改进LightGCN学习公司的嵌入向量，最终基于嵌入向量和cosine距离计算公司相似度值。
  [贡献]负责项目的设计、开发、上线、维护、研究报告撰写。
[项目5]开源项目langchain-chatchat 21k star Langchain-Chatchat 2023.4-
- 技术栈：LLM/Embedding/langchain/gradio/click/fastapi/fastchat/uvicorn
- [目标]实现本地部署、支持文档问答、搜索问答的聊天机器人
  [方法]本项目是一种利用 langchain 思想实现的基于本地知识库的问答应用，目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。项目建立了全流程可使用开源模型实现的本地知识库问答应用。现已支持使用 ChatGLM-6B 等大语言模型直接接入，或通过 fastchat api 形式接入 Vicuna, Alpaca, LLaMA, Koala, RWKV 等模型，依托上述模型可实现全部使用开源模型离线私有部署。
  [贡献]核心开发者，负责大模型接入、推理加速框架接口、RAG效果增强优化、向量数据库接入

基本信息

联系方式

技能点

教育经历

南开大学 - 精算学专业（博士） 2016.9-2019.7

华侨大学 - 统计学专业（硕士） 2013.9-2016.7

东华理工大学 - 信息与技术科学专业（本科） 2008.9-2012.7

工作经历

[经历1]恒生电子股份公司/浙江大学－技术专家/博士后 2019.7-2023.10

[经历2]品茗科技股份有限公司-算法专家 2023.10-至今

论文专利

[经济金融方向]

[图神经网络方向]

[发明专利]

[书籍翻译]

项目经验

[项目1]基于nlp和知识图谱的智能问答系统 2020.4-2020.9

[项目2]财务附注数据开发与应用 2020.9-2022.4

[项目3]股权关系图嵌入在债券违约风险预测中的有效性研究 2022.4-2022.9

[项目4]基于专利分类号和改进LightGCN算法的公司相似度度量研究 2022.9-2023.4

[项目5]开源项目langchain-chatchat 21k star Langchain-Chatchat 2023.4-