• 数据与知识工程方向

    团队负责人:张  晖 教授

    1620630297954054637.png

    1、简介:

            本方向拥有教师15人,其中高级职称12人,硕士研究生导师8人,在读研究生40余人。方向以“大数据”背景下的海量数据管理与知识发现为目标,重点研究非结构化数据管理与融合、知识图谱与知识发现、社交网络分析、机器学习、基于数据的决策支持、教育大数据等。近五年承担国家自然科学基金、国防基础科研、教育部人文社科、全国教育科学规划办“十二五”规划课题、省科技厅科技支撑计划等项目10余项,企业委托开发项目20余项。


    2、主要研究方向:

    数据工程:主要开展海量异构数据采集、清洗、抽取、存储、挖掘等技术研究,研发基于大数据的应用系统。

    自然语言理解技术:主要开展机器学习理论、基于机器学习的自然语言处理、知识图谱自动构建等技术。

    社交网络分析:主要开展复杂网络理论、信息传播模型、图表达学习等研究。

    教育大数据:主要进行大数据背景下的教育理论、教育中的人工智能技术研究。


    3、核心技术

    3.1 海量数据的快速采集与挖掘技术 

    image.png

    形成了采集互联网非结构化、半结构数据的分布式网络爬虫与数据抽取技术,针对多业务系统的数据集成ETL技术,针对工业生产线的时序DCS数据采集技术,针对海量数据的分布式存储与挖掘技术,以机器学习、深度学习为主的自然语言处理技术及应用研究。申请发明专利3项,登记软件著作权4项,具体如下:

    1.        一种网页文本还原系统及方法,ZL201010132456.5

    2.        一种分布式互联网数据快速采集系统及采集方法,公开号:CN 106484828 A

    3.        一种基于n-gram模型的简历解析方法,公开号:CN 107145584 A

    4.        网络信息个性化智能检索系统,2012SR011825

    5.        互联网信息采集系统,2012SR011819

    6.        网页重组系统,2010SR037124

    7.        中文新闻网页语义抽取系统,2010SR033550

    典型成果:互联网舆情监测系统(高教版)http://www.dkelab.cn

    基于云计算模式的舆情监测系统,它为用户提供发现指定舆情源中的敏感信息、热点信息、新话题等,同时进行情感倾向性分析,便于高校在第一时间掌握关键信息,有针对性的开展工作。系统结构如下图所示:

    image.png

    image.png

    系统特点:

    1.      200个网站的实时监测

    2.      分布式数据采集,响应时间3~5分钟

    3.      每天的信息增量20000

    4.      关键词提取、情感分析、内容推送服务

    5.      SaaS模式提供舆情监测服务。

    6.      历时7年,5个版本,5家使用单位

    3.2 复杂异数据融合与知识发现技术

           主要开展以知识图谱为核心的异构数据采集、融合与知识发现技术。

     

    典型成果1:军民融合企业基础数据平台

    image.png

           从异构数据中抽取元数据,通过数据融合、实体链接、图谱融合形成行业知识图谱,为分析决策提供基于知识计算的分析平台。

           目前采集融合了川内高新技术企业8000余家,涉及企业文献、专利、招聘、专利、新闻、招投标、著作权等数据,分析企业创新能力、及企业关系图谱。如下图所示。

    image.png

    典型成果2:基于知识图谱的含能材料基础数据平台

           针对含能材料研发过程中涉及的知识、报告、数据、公式、分子式、算法、文献等数据资源,采用知识图谱,构建了多种异构数据融合的基础数据平台。平台同构构建含能材料领域知识图谱,通过知识图谱关联相关的数据资源,实现了数据资源的基于语义的推荐,同时可进行在线的公式计算和数据挖掘。如下图所示:

    image.png

    3.3 基于数据管理的大型应用系统咨询及建设

           具有丰富的大型应用系统建设与集成经验,近三年为企事业单位提供项目建设咨询4项,同时为企事业单位建立了多套大型应用系统。

    u 项目建设咨询

          工程技术研究院实验室数字化管理系统方案设计(中石油西南油气田分公司)

          专项工程驱动器知识体系架构设计(中国工程物理研究院)

          绵阳市公共信用信息共享交换平台建设方案(绵阳市发改委)

          西南军民科技协同创新平台(网络建设)技术标准和要求(四川双银创促科技有限责任公司)

    u 大型应用系统建设

    移动设备监控系统:通过采集核心路由上移动设备的GPS信息,开展海量的位置挖掘和分析,发现用户的行为模式,为特殊人员定位提供服务。该系统能实时处理地市级城市移动设备位置信息,每天增量100万。界面如下图所示:

    image.png

    长虹快益点公司技术支持平台:为分布在全国5000多个网点的20000余名售后服务工程师提供在线维修知识库、在线培训、考核、交流等服务,各类知识库数据达TB级,并发500以上。该平台于2013年上线运行。界面如下图所示:

    image.png

     

     

    基于MOOC的个性化网络学习平台:该平台通过分布式方式,为绵阳市分布在各郊县的八万多高中生选修课在线学习环境。平台于2014年上线,服务绵阳市9个辖区,共计23门课程,218个视频,9810分钟。同时该平台获得“赛尔网络下一代互联网技术创新项目”资助,并在2017年获得第三届下一代互联网技术创新大赛三等奖。

    image.png


     4、科技项目展示

    网络舆情大数据分析与处理

     image.png

    分布式海量数据采集与抽取技术,半结构化数据的知识发现技术,基于领域本体的舆情发现算法。


    事件故事脉络生成系统(PostStory)

    image.png

    融合微博平台的“社交”特性,结合事件演化的时间分布,基于图卷积神经网络识别故事分支。


    中文电子病历知识图谱自动构建技术

     image.png

    小样本,半监督学习,基于混合神经网络的中文电子病历实体识别、关系抽取技术。


  • 地址:四川省绵阳市涪城区青龙大道中段59号(621010)
    版权所有:2010-2021 西南科技大学 计算机科学与技术学院