mxSRBench
首个评估 LLM 空间–语义推理能力的专项基准,含 4,081 条指令-XML 对。三层评测体系涵盖结构合法性验证、原子空间推理与 11 种图表类型的端到端合成,揭示顶级模型的精确作图局限。
本科就读于华南理工大学软件工程学院(GPA 3.53 / 4.0),现升读香港科技大学大数据技术(BDT)硕士项目。
研究方向聚焦于大语言模型的系统性评测与基准构建,涵盖 GUI Agent、代码生成与空间语义推理。目前以共同第一作者或参与者身份向 KDD、SIGIR、ICML、IWQoS 等顶会提交多篇论文。
首个评估 LLM 空间–语义推理能力的专项基准,含 4,081 条指令-XML 对。三层评测体系涵盖结构合法性验证、原子空间推理与 11 种图表类型的端到端合成,揭示顶级模型的精确作图局限。
首个面向代码仓库使用者视角的代码生成基准,提出闭环多智能体框架 RUCACoder(Retriever + Verifier + Coder),支持 API 检索与用法脚本合成双维度评测,在多主干模型上取得一致领先性能。
参与视觉代码生成基准测试研究,贡献于 VCGBench 的设计与实验评估,系统考察多模态大模型在视觉驱动代码生成任务上的能力边界。
与华为 AI 负载洞察项目合作,主导 GUI Agent 推理性能测试的实验设计与数据分析,为 AI 模型在真实负载场景下的能力评估提供系统性数据支撑。
大数据技术 硕士(MSc BDT)
继续深耕 LLM 评测与多智能体系统方向,探索更大规模基准构建与评估体系设计。
在校研究员 · 独立及合作课题
以共同第一作者身份向 KDD、SIGIR 提交 2 篇论文,以参与者身份向 ICML、IWQoS 提交 2 篇论文;同期参与华为 AI 负载洞察项目,主导 GUI Agent 推理性能实验设计与分析。
软件工程 学士 · GPA 3.53 / 4.0
主修软件工程,系统学习算法、分布式系统与机器学习。获天元杯全国一等奖(队长)、美国大学生数学建模竞赛 MCM/ICM Honorable Mention、弘平长青奖学金及多项校级荣誉。
04 — CONTACT
如有学术合作、交流或招募意向,欢迎随时通过邮件联系我。
ktlin36@gmail.com