赛题题目：基于大模型 Coding Agent 的复杂移动应用自动迁移与评测（社区赛题）

OpenHarmony 作为面向全场景智能设备的开源操作系统，正在吸引越来越多的 Android、iOS 应用向鸿蒙平台迁移。然而，复杂移动应用通常包含多页面导航、状态管理、数据库持久化、网络请求、媒体处理、权限控制、多模块协作等能力，人工迁移成本高、周期长、质量不稳定。现有迁移工具（如官方 Migration Tool）已可处理 UI 组件级语法转换，但面临三类 OS 语义鸿沟无法有效解决：其一，Ability 架构差异（Android Activity/Service → UIAbility/ExtensionAbility），迁移后的生命周期语义与任务调度行为往往与原应用不一致；其二，分布式能力适配，OpenHarmony 提供跨设备软总线、分布式数据管理等原生能力，而现有工具仅做单设备语法平移，无法评估应用是否合理利用了这些 OS 特有能力；其三，安全与权限模型重构，HarmonyOS 采用细粒度权限声明（module.json5）与沙箱隔离机制，与 Android 动态权限模型存在本质差异，语法转换工具无法保证权限声明的语义正确性。本赛题要求参赛方案能够识别并应对上述 OS 语义鸿沟，而非仅追求代码语法等价。近年来，大模型驱动的 Coding Agent 在代码生成、代码修复、仓库级任务求解等方向取得了显著进展，但在“应用级自动迁移”这一长链路任务中，仍面临上下文组织困难、中间产物不稳定、跨步骤依赖强、功能等价难验证、缺少统一 benchmark 等问题。本赛题要求参赛者围绕“复杂移动应用自动迁移”为目标，设计并实现一套面向 Android、iOS 等复杂移动应用向 OpenHarmony / HarmonyOS ArkTS 应用自动迁移的方案。参赛者需同时考虑：

如何设计有效的 benchmark / evaluation 体系；
如何通过 context 组织优化与 ablation 实验，找到更高效的迁移方法；
如何实现完整的 Coding Agent / Pipeline，使复杂应用能够逐步完成自动迁移。参赛者应提交完整方案，包括 benchmark 数据构建、评测指标设计、context 配置实验、迁移 pipeline 设计、Coding Agent 实现、实验报告和可执行 Demo。

方向一：迁移 Benchmark 与评测体系设计

目标：

应用级迁移任务的核心难点不仅在于“生成代码”，更在于“如何客观评估”。如果缺少统一 benchmark，就无法回答“哪种 pipeline 更优”“哪种 context 设计更有效”“哪个阶段是真正瓶颈”等关键问题。本方向要求参赛者设计面向复杂移动应用迁移的 benchmark 与评测体系，能够量化比较不同 agent、不同 pipeline、不同 context 配置的效果，并通过 ablation 实验找到更高效的 context 利用方法。

评分标准：

优化后的评测体系是否能覆盖复杂应用迁移的关键场景。
是否能通过 benchmark 区分不同 pipeline / context 方案的优劣。
是否能通过实验找到更高效的 context 组织方式，减少 token 消耗、提高迁移效果。
示例优化方案：
构建场景级 benchmark，覆盖导航、状态管理、数据存储、异常流、多模块交互等复杂任务。
设计多层评测指标，如 Plan 质量、代码生成质量、Pipeline 综合得分、依赖满足度、调用链完整性、功能等价性等。
设计 context 消融实验，对比 Plan、调用链、SPEC、Android / iOS 源码片段、架构文档等不同信息的价值。
设计 context 组织优化实验，对比不同顺序、粒度、格式、标签方式（如结构化上下文、优先级标记、依赖元信息）对迁移效果的影响。
为每个 case 增加 dependency metadata，区分“当前 case 本身能力不足”和“被上游失败连带拖垮”。
示例优化结果：
参赛者构建了 100 条场景级 benchmark，并提出多层评测指标体系，使不同迁移方案可对照、可复现、可量化比较。
通过 benchmark 发现“Plan + 调用链”是最小有效 context，相比全量源码输入具有更高性价比。
通过 context ablation 实验发现，结构化依赖元信息可显著减少级联失败带来的误判。

方向二：复杂应用迁移Pipeline设计与Agent实现

目标：

现有代码生成模型在函数级、文件级任务上表现较好，但面对应用级迁移时，往往因任务跨度长、上下游依赖强、上下文过大而失败。本方向要求参赛者设计完整迁移 pipeline，并实现可运行的 Coding Agent，使其能够逐步完成复杂应用向 ArkTS 应用的自动迁移。

评分标准：

迁移后的应用可编译、可运行、核心功能可用。
对复杂页面、调用链、状态流转、资源管理等任务有较好支持。
Pipeline 设计清晰，中间产物稳定，能够支持多轮迭代优化。
示例优化方案：
设计分阶段迁移流程，如源码分析、场景拆分、架构抽取、Plan 生成、代码生成、自动修复、回归验证等。
引入结构化中间产物，如调用链、场景 Plan、依赖元信息、约束说明等，提升长链路任务成功率。
优化 context 组织方式，如调用链前置、分层上下文、动态检索、优先级标签等，提高生成稳定性。
支持 agent 自修复、自校验、自增量生成，减少一次性生成失败率。
示例优化结果：
参赛者设计了多阶段迁移 pipeline，使复杂 Android / iOS 应用的 ArkTS 迁移成功率显著提升。
在 100 个复杂功能场景中，迁移后应用的编译通过率、功能通过率、链路完整性均有明显提升。
赛题要求：
必须面向应用级迁移任务，支持 Android、iOS 等复杂移动应用向 OpenHarmony / HarmonyOS ArkTS 应用转换。
必须提供完整的 Coding Agent 方案，而非单一 prompt 或单一模型调用。
必须提供 benchmark / evaluation 设计，能够量化比较不同方案。
必须包含 ablation / 对照实验，用于分析不同 context 组件、不同组织方式的作用。
方案需体现创新性与工程可落地性，如任务分解、依赖管理、上下文组织、自动修复、评测框架等。

需提交量化结果，例如编译通过率、功能通过率、链路完整性、错误率下降、迁移效率提升、token 使用效率提升等，并提供优化前后的对比数据。

评分标准：

本次比赛基于官方提供的复杂移动应用数据集，以及统一的隐藏测试集进行评测。所有参赛方案将在相同环境下运行，确保公平、公正、可量化。官方评测指标将明确包含鸿蒙特有 API 使用正确性与设计方案合规性的专项检测，涵盖 UIAbility/ExtensionAbility 生命周期语义正确率、分布式能力合理采纳率、module.json5 权限声明与调用行为一致性等维度，参赛方案不得仅追求语法等价而忽视 OS 层语义适配。

评分维度	任务 1	任务 2	权重
优化效果	benchmark 区分度高；context 消融实验结论清晰；发现更高效的 context 利用方式	编译通过率提升；功能通过率提升；链路完整性提升	30%
准确性	评测结果稳定、可复现；数据集与指标设计合理	迁移后应用行为正确；关键功能可运行	30%
创新性	enchmark / 指标设计创新；Context 组织与依赖管理创新	Pipeline / Agent 设计创新；自动修复 / 增量生成创新	20%
文档 & 代码质量	文档和代码符合规范	文档和代码符合规范	20%

参赛者需提交完整交付物，包括：Demo 演示、评估文档、实现代码、benchmark 数据样例、实验结果分析报告等。评估文档需包含详细量化分析，例如编译通过率提升、功能等价率提升、关键调用链完整性提升、错误率下降、迁移效率提升、token 利用效率提升等关键指标，并提供不同方案间的对比，确保改进效果可验证。若交付物无法验证方案有效性，将无法参与后续奖项评比。