谈球吧(中国官方网站)-技术驱动的体育论坛

欢迎访问谈球吧官方网站! 设为首页   收藏本站
当前位置: 主页 > 赛事资讯 > 论坛动态

广东首届高质量数据集创新大赛第一期赛事安排公告

发布时间:2025-12-30 20:36:02 人气: 作者:小编

  

广东首届高质量数据集创新大赛第一期赛事安排公告(图1)

  根据《广东省政务服务和数据管理局关于举办广东省首届高质量数据集创新大赛的通知》《广东省政务服务和数据管理局关于开展高质量数据集创新应用“发榜”单位征集工作的通知》等部署安排,按照“分期发榜、全年办赛”赛事模式,以及每期赛事“一套‘发榜’赛题、三阶段比赛、多场供需对接会”组织机制要求,现将第一期赛事工作安排公告如下。

  1.报名参赛。参赛团队通过“广东省高质量数据集创新大赛”官方网站()填写报名信息,完成账号注册,获取评审规则说明,选取参赛赛题以及对应开展比赛的数据平台。

  2.数据平台注册。经审核通过的参赛团队,按照对应开展比赛的数据平台使用指引进行注册。经审核通过后,获得正式参加比赛资格,可获取原始数据资源、数据加工工具、数据资源融合等加工使用处理权限。

  3.广泛发动参与。相关单位通过线上线下多渠道、多维度开展比赛宣讲,解读赛事要点,广泛发动参与。支持牵头单位与省内外机构联合组队参赛,鼓励产学研用一体化团队及跨领域协作团队参与。

  1.初赛(2026年2月1日—3月31日)。采用线上比赛形式,重点考察参赛团队加工处理行业原始数据集的能力。参赛团队通过大赛官方网站进入各赛题对应的数据平台进行比赛,按照比赛规则开展数据清洗、合成、标注、质检等处理活动,形成高质量数据集和相应的解题方案,在规定时间内上传成果。允许参赛团队自带合法合规的数据参与比赛。按照评审分数由高至低顺序,确定各赛题晋级复赛的团队名单并公示。

  2.复赛(2026年4月1日—4月30日)。采取线下集中、线上比赛形式,重点考察参赛团队的实战能力。参赛团队在大赛组委会指定的比赛地点,进入各赛题对应的数据平台进行比赛,按照比赛规则进一步开展数据处理活动,并对初赛成果的有效性、科学性等进行验证。允许参赛团队自带合法合规的数据参与比赛。按照评审分数由高至低顺序,确定各赛题晋级路演环节的团队名单并公示。

  3.路演(2026年5月1日—5月31日)。采取线下比赛形式,重点考察参赛团队的数据解决方案路径与高质量数据集价值。参赛团队按照比赛规则进行现场路演及答辩。按照评审分数由高至低顺序,确定各赛题的获奖团队并公示。各赛题的获奖数量,按照不少于参赛队伍数量的20%、不超过参赛队伍数量的50%的原则,由大赛组委会在评审规则中具体明确。

  “发榜”单位和获奖团队按照广东省有关规定享受相应的支持政策。优先推荐数据领域项目试点、典型案例、宣传推广等。

  联动“数据要素×”大赛、琶洲算法大赛等专业赛事,通过资源整合、优势互补,相互融入优质赛题资源与技术生态,推动赛事成果价值化应用。

  鼓励获奖团队成员申报广东省大数据工程技术人才职称评定,符合评价标准要求的相关项目及奖项可作为业绩成果参与评审。获奖团队成员可享受数据领域免费培训。

  为获奖团队、“发榜”企业定制“珠江数湾·数据沙龙”开放式、高价值供需对接活动,靶向挖掘产业共性难题与技术趋势,促进高质量数据集、数据解决方案的供需精准对接、资源灵活配置,合力创新打造数据产业融合生态品牌。

  经组织专家论证,第一期“发榜”赛题共包括8个领域、10个赛题(详见附件)。

  输电线路巡检场景依赖人工定位,通过现有模型进行自动化识别时存在识别效率低、精度与可靠性难以满足问题。

  基于电网无人机巡检及视频监控图像数据集,征集并孵化能够在复杂环境下精准识别电力设备缺陷隐患的创新算法与解决方案。其核心任务是构建一个大规模、多场景的高质量数据集,该数据集包含同步采集的多类信息,并标注有目标边界框及类别等;此数据集将专门用于训练和评估在低光照、复杂天气等恶劣条件下的AI感知模型,旨在有效解决输电线路巡检中的“视觉盲区”难题,最终提升电力服务的可靠性。

  广州国家实验室、中山大学附属第六医院、香港科技大学(广州)信息枢纽、广州市生物产业联盟、华为云计算技术有限公司

  (1)最有价值的“过程数据”流失严重:专家如何抽丝剥茧发现病情的思维过程,以非结构化语音形式流失在嘈杂诊室中,未能转化为数据资产。

  (2)真实对话数据“脏”且难用:诊室环境嘈杂、方言混杂、专业术语(如“美沙拉嗪”)多。ASR(语音转文字)直接转写的文本充斥错别字、角色混淆和语序倒装,通用大模型无法理解。

  (3)AI缺乏临床逻辑与共情:现有医疗AI多为被动问答,不懂为何要追问“有无关节痛”(隐性鉴别逻辑),且语气冰冷,无法安抚慢病患者的焦虑情绪。

  本赛题旨在通过构建首个“高噪声-强逻辑”的IBD中文医疗对话数据集,驱动AI模型攻克“脏数据治理”与“临床思维复刻”难题,实现从录音到标准病历的端到端自动化。

  (1)针对“脏数据”——解决“基于医学上下文的语义重构与清洗”问题:利用数据集训练模型具备“抗噪理解能力”。即:不依赖声音信号,仅通过学习大量的[脏文本]-[标准文本]对齐数据,让AI学会根据医学逻辑上下文去自动修正ASR错误(例如:看到“肚子疼,吃了美沙……”自动联想修复为“美沙拉嗪”),并能自动区分正在发言的角色,把杂乱的碎片还原为清晰的对线)针对“不会追问”——解决“临床诊疗思维(Clinical Reasoning)的复刻”问题:利用数据集中的[患者模糊主诉]-[专家追问]数据对,通过思维链(Chain-of-Thought)训练,教会AI学习专家的“追问逻辑”。让AI掌握从“模糊线索”到“精确诊断”的思维路径,学会何时该问什么问题,从而实现主动引导患者完成信息收集。

  (3)针对“缺乏共情”——解决“具身化医患情感交互”问题:利用数据集中专家真实安抚患者的语料,训练AI识别患者情绪(焦虑、犹豫、痛苦)并生成“有温度的回复”。解决AI说话“没人味”的问题,让辅助系统能像真人医生一样,在问诊中穿插鼓励和解释,建立医患信任。

  来源与特征:数据完整保留了真实诊疗环境中的高噪声特征(包括错别字、语气词、语序倒装、角色混淆、方言口音导致的语义偏差)。

  核心价值:尽管文本“脏”,但其背后蕴含了IBD专家极高价值的“诊疗逻辑”(如何通过模糊信息追问出关键病史)和“话术技巧”(如何安抚焦虑患者)。

  适用场景:旨在训练大模型(LLM)具备“抗噪理解”“逻辑补全”和“共情交互”能力,使其能从杂乱的文字中还原诊疗真相,并学会像专家一样提问。

  3.数据资源目录清单:提供源自国内顶尖三甲医院IBD专病门诊的数百小时真实全程录音转写数据,包括:

  (1)非结构化脏文本流(Raw Dirty Stream):模拟ASR直出,保留了真实环境的高噪声特征(错别字、口语、方言)。

  (2)脱敏候诊画像(Candidate Profiles):包含患者性别、年龄、初复诊状态等特征,作为AI推理线)真实电子病历(Ground Truth EMR):医生当日实际书写的结构化病历,作为“金标准”用于验效。

  5.数据集能否开放给参赛方:可在安全可信环境内开放;其他要求:原始数据集及治理后的数据集归数据源单位所有,未经授权请勿下载、使用

  广东省医院协会、广东省医学科学院、广州数据交易所、广州知汇云科技有限公司、广东粤政数据发展有限公司

  本赛题聚焦攻关数据质量提升、标注规范、安全合规三大核心环节,破解跨域孤岛、系统断层、语义模糊、同义异名等治理痛点,旨在打造可落地、可转化、可交付的“高质量健康医疗数据集”,为医学大模型、AI 新药发现、精准医疗等新兴产业注入“燃料级”数据动能,为医学人工智能、生物医药创新等新兴产业提供赋能支撑。

  数据的“碎片化”和“非标化”。不同医疗机构甚至同一机构的不同部门,往往采用来自不同厂商的信息系统,这些系统在数据模型、格式和医学术语编码(如使用不同的诊断、手术、药品编码体系)上存在显著差异,导致数据难以直接汇聚和理解。例如,对于“高血压”这一诊断,不同医院可能使用不同的内部编码,在未经统一术语库映射的情况下,计算机无法识别其为同一概念。其次,健康医疗数据是受法律法规严格保护的个人敏感信息,其在开发利用的全过程中,都面临着严峻的安全隐私与合规性挑战。《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》以及医疗卫生行业的特定法规,为数据处理划定了红线。一方面,医疗机构和数据处理者因担心触碰合规红线,对数据“不敢供”;另一方面,数据权属和收益分配不明确,也导致其“不愿供”。特别需要指出的是,真正的“高质量数据集”往往包含大量详尽的、相互关联的临床字段,以实现深度分析和高价值应用。然而,传统的简单标识符脱敏在应对此类数据集时已显不足,数据可通过链接,将脱敏数据集与其他公开数据源关联推断,重新识别出个体身份。若采用过于严格的脱敏或匿名化技术(如泛化、扰动),又可能严重损害数据的分析效用和科研价值。因此,如何在确保数据“可用不可见”的前提下,

  实现安全合规的流通与计算,成为核心难点,对隐私计算等前沿技术提出了极高要求。再次,

  将原始医疗数据转化为AI模型可用的高质量数据,需要经过极其繁复的数据处理与标注工作。比如要为AI影像辅助诊断模型训练数据,需要放射科医生在数以万计的CT或MRI图像上,逐一手动勾画病灶区域,并标注其性质。这项工作高度依赖临床专家的专业判断,过程枯燥、耗时费力,导致成本高昂、效率低下,且难以保证标注的一致性。 更深层次的挑战在于人才的极度匮乏。高质量数据集的建设与管理,需要的是横跨医学、数据科学、计算机技术和合规管理的复合型人才,既要深刻理解临床医学的业务逻辑和数据内涵,能准确把握数据质量标准和标注规范,又要熟练掌握大数据处理、AI算法和数据分析工具。此类双栖人才供给严重不足,成为制约项目落地和迭代优化的关键瓶颈;且当前缺乏链接临床专家资源与标注需求的平台与激励机制,导致供需双方无法匹配。本赛题基于门诊病历数据和检查报告数据,聚焦

  健康医疗数据质量提升、健康医疗数据标注规范、健康医疗数据安全合规等技术路径和标准规范,解决健康医疗数据“多源异构”特性导致的“数据孤岛”固化、非结构化文本占比高、既有数据需回溯标准化等问题。

  2.数据资源描述:描述数据的来源、结构、格式、特征、质量及适用场景等核心信息,可让使用者清晰地了解数据的背景、属性与价值,为数据共享、应用开发、决策分析等场景提供关键支撑。

  3.数据资源目录清单:门诊病历数据、检查报告数据4.数据规模预估:GB级、TB级

  5.数据集能否开放给参赛方:可在安全可信环境内开放;其他要求:签订相关授权及保密协议

  当前保险行业在新能源货车驾驶行为特征、风险暴露情况、运营模式差异等核心维度的数据积累仍存在显著断层,导致现有定价模型对风险标的的区分度不足,难以有效识别低风险客户与高风险客户。为摆脱这一困境,亟须通过多源数据融合补充风险因子维度,深化对新能源货车风险规律的认知,进而构建适配新能源货车特性的动态定价模型,实现风险成本的精准管控。

  (1)风险因子缺失导致的定价偏差当前定价模型主要依赖历史赔付数据及基础法人信息,因缺乏反映新能源货车特有风险特征的因子(如运营模式中的平台接单频次/行驶里程分布、货物类型;驾驶行为中的急减速频次/超速强度;风险暴露中的夜间运营时长占比、连续驾驶时长等),导致风险识别颗粒度不足,难以有效区分优质客户与高风险客户。需通过多源异构数据(如货运平台运营日志、车载T-BOX数据)补充差异化风险因子,构建适配新能源货车特性的动态定价体系。

  (1)模型性能提升通过引入多源异构数据,实现风险因子数量维度扩展50%,覆盖新能源货车核心风险特征,推动定价模型风险区分能力10%以上。

  精准识别高风险业务,通过动态核保策略将高风险业务承保占比压缩至30%以下,降低整体赔付率,实现承保亏损率收窄至-5%以内。

  基于实时数据构建新能源货车风险热力图,实现高风险客群的动态监测与分级预警。

  主要的数据项:加密后的车牌号/车架号、车辆历史保单出险情况、车辆最近保单出险情况

  3.数据资源目录清单:区域健康医疗数据集、需要进行数据治理和标注的数据集

  数据异构性突出(格式、统计维度不统一,形成“数据孤岛”)、时效性适配不足(部分感知数据处理延迟高,与秒级/分钟级场景需求脱节)、数据关联性薄弱(时空对齐精度低,缺乏明确关联规则)、数据质量参差不齐(环境干扰、人工误差、更新滞后导致可用性低)

  交通多源异构数据标准化处理技术、跨维度时空融合算法、数据质量增强技术、数据集与应用场景适配技术。

  统一规范、时空关联紧密、质量稳定的交通行业通识高质量数据集,可支撑交通事件预测、设施故障预警、资源优化调度等智能化场景。

  时空对齐准确率≥96%、数据完整性≥98%、准确性≥95%、一致性100%、模型接入效率≤30秒/10万条样本、异常数据耐受度需满足复杂场景(如暴雨、大型活动)需求。

  1.数据集总量:涵盖GB级规模(具体根据赛事阶段提供,初赛为基础数据,复赛新增大规模、复杂场景数据)

  2. 数据集主要内容:包含基础地理数据(道路中心线、交叉口、行政区划、交通标志标线、交通设施分布数据等)、交通运行数据(视频监控卡口流水、车辆计数、车速、排队长度、拥堵数据等)、设备感知数据(雷视数据、线圈数据等)、业务管理数据(交通事故数据、交通违法数据、区域限行管控信息等)、信控业务数据(信号控制数据等)、环境关联数据(降雨量、能见度等气象数据,大型活动、学校作息等社会活动数据)。

  目前MICM智能诊断系统存在多重短板:研究数据以基因组为主,缺乏深度整合的临床注释;临床应用仅停留于“辅助检测”,未实现“综合决策”,缺少鉴别检测和靶点用药推荐;高质量标注数据集规模有限,国内血液肿瘤多组学数据库数据量不足美国同类资源的1/5;技术平台标准差异导致15%—20%病例诊断结论不一致;多学科协作中30%病例数据逻辑矛盾,依赖专家经验且可重复性低;基层推广受阻,县级医院MICM四项检测开展率不足5%,引发诊断延迟和跨区域就医;同时,技术门槛高、复合型人才稀缺(不足500人),与年新增15万患者需求严重失衡。

  2. 数据集主要内容:包括血液肿瘤患者的骨髓涂片、外周血涂片、流式细胞术、染色体核型、FISH检测等多维度原始数据,覆盖急性白血病、淋巴瘤、多发性骨髓瘤等5种以上主要病种,每例患者包含若干张高质量视野细胞形态学图像、相应免疫分型标记、细胞遗传学(核型+FISH)、基因分子检测等完整MICM数据。

  (1)光照适配性差。传统相机动态范围低(远低于140dB),在极低光、高光、骤变光照下图像过暗、过曝、细节丢失,导致搜救目标识别困难。(2)多视角数据处理难。空中与地面双视角数据缺乏像素级时空对齐,目标定位偏差,延长搜救时间。

  (3)动态场景识别弱。在动态场景下存在拖影、模糊问题,难以区分目标与障碍物,存在安全风险。

  (1)光照突变导致决策失效。在自动驾驶车辆在正午强光、路面反光、夜间远光干扰、隧道出入口明暗骤变等光照突变场景下,传统相机图像细节丢失,易引发车道偏离、行人避让不及时等安全事故。(2)复杂运动与多目标交互处理难。车辆在高速行驶中存在高速抖动、非匀速变道等极端运动轨迹,且路面常出现行人、非机动车、机动车、静态障碍物等共存的高密度场景,传统相机时间分辨率不足,易出现目标漏检、误检,影响自动驾驶决策准确性。

  (3)模型泛化能力弱。在传统训练数据多为正常光照、匀速运动场景,当遇到混合光源、未知光照等未覆盖场景下,模型性能大幅下降,无法稳定工作。

  (1)光照条件与细节识别受限。传统相机在高光阴影交界、夜间低光场景下,图像纹理、边缘细节易丢失,导致目标漏检、异常人员无法识别。(2)多视角与多目标协同难。安防巡检需覆盖空中、地面多视角,传统数据缺乏统一标注标准,多视角数据无法协同分析,易出现空中发现异常但地面无法精准追踪的断层问题。

  (3)实时性与准确性失衡。传统相机数据量大、计算效率低,在多目标同时移动场景下,为保证实时性需降低识别精度,导致误检,增加人工复核成本。

  2.数据资源描述:职教桥应用数据渠道优势及大数据采集技术,每月会持续动态集成来自对接合作数据源、互联网公开招聘信息等渠谈球吧官方网站道相关人才需求数据,汇聚互联网上各类招聘平台招聘信息。目前汇总的招聘数据平台超过300个,最新数据积累量近两亿条,行业岗位覆盖齐全,数据覆盖面高,具备较强的代表性和大数据统计分析意义。

  数据集包含岗位名称、岗位类型、学历要求、经验要求、薪资范围、用人需求企业名称、企业类型、企业规模、企业所在行业、工作地址、岗位关键词、招聘人数、能力要求和工作职责等维度。能够有效体现全国范围当前企业招聘需求及细节。

  经数据处理后,岗位名称、学历要求、经验要求、薪资范围、招聘人数等大多数字段实现数据的无缺失,少量数据存在5%以内空缺值,数据整体质量较高。

  (1)实现供应商动态画像与智能检索:通过系统化整合供应商基础信息、设备能力、交易信用、技术资源等数据,构建动态更新的供应商全景画像库。采购方可通过平台,依据具体订单需求(如产品类型、精度、交期)进行智能检索,系统按综合评分由高至低推荐最匹配的供应商清单。

  (3)搭建图纸资源授权与价值转化通道:供应商可在平台上托管经脱敏的设计图纸。平台提供标准的授权申请、协议管理与利益分配机制(如利润分成、许可费),促进图纸资源的合规、高效流通,实现从“数据资产”到“价值谈球吧官方网站收益”的转化。

  (4)赋能供应链金融与精准资源对接:在供应商授权前提下,将其评级结果与脱敏后的业务数据向银行、投资机构等第三方展示,为高评级供应商争取贷款额度、优先合作机会等支持,构建“以数据换资源”的新生态。

  本数据集经过严格的清洗、标注与标准化处理,关键字段完整度高于90%,数据一致性强,时间跨度覆盖近五年业务活动,具备高维度、强关联特征,适用于供应商智能画像构建、AI匹配模型训练与供应链协同决策分析等核心场景,为模具行业数据要素的价值挖掘与创新应用提供坚实支撑。

  6.是否需要融合第三方数据资源:是,参赛方需通过合规渠道获取国内外企业征信及行业宏观数据(鼓励自行整合部分海外供应商数据)以完善供应商画像与行业分析,构建国内外双轨评价体系,支持全球供应链资源的统一管理与对比评估。

  PCB设计领域面临设计周期长(数周至数月)、高度依赖人工导致效率低下与质量波动,难以匹配消费电子快速迭代需求;设计隐患(如信号失真、时序违规、电磁干扰)常在后期测试暴露,增加返工成本;资深工程师培养周期长(5—8年)导致经验传承困难,引发人才断层与质量波动;主流EDA软件(如Altium Designer)通用性不足,无法深度适配电源行业高频、高压、高安全特殊要求,自动布局效果差,需要大量人工优化。