【云栖号案例 | 互联网】佰腾科技:专利大数据的云上裂变之路

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

公司简介

我们江苏佰腾科技有限公司是一家从事专利信息应用、专利咨询服务的企业,是国内知名的知识产权服务公司,以佰腾网和专利巴巴为网络平台,面向国内外用户提供知识产权、科技创新整体解决方案。2014年起,我们公司积极推进互联网转型,实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司,并采用B2B、O2O线上线下相结合的模式为客户提供全方位的、全流程的知识产权一体化服务。

业务痛点

1.上百项数据维度的高效存储和高效处理是我们公司目前急需解决的问题。提升了大数据的处理能力,才能加快专利信息应用的步伐、满足客户更多的需求。
2.现在的数据维度比较多,处理环节非常多,需要实现数据处理流程的自动化编排。

  • 数据平台的可扩展问题。
    我们公司的专利巴巴产品架构中几十个组件都要维护,每有一个客户需求都需要做组件,需要解决数据平台的扩展性,以便快速支撑各种需求的应用。

解决方案

图 1. 专利巴巴业务架构

【云栖号案例 | 互联网】佰腾科技:专利大数据的云上裂变之路

1.使用MaxCompute平台代替数据库。我们上云之前的原始数据处理和数据维度分析都使用了数据库集群,现在将这两部分放入了MaxCompute,大幅提升整个数据存储和处理的效率。
2.通过使用MaxCompute的任务平台,来编排处理任务。数据都存在MaxCompute表里,因此可以定义MaxCompute函数,访问表里的内容,并进行相应处理。Shell任务对原始数据进行数据包拆解,拆包后把数据放到MaxCompute,然后通过SQL任务对数据维度进行拆解和分析,这时会用到定义的MaxCompute函数,最后还可以调用一个Shell任务,对数据维度索引,供上层应用使用。

1.平台架构分层化设计。按照专利大数据的处理流程和职责明确做了设计,核心是数据维度数据库。

1)数据获取层:负责从数据源拉取数据,检验数据的完整性。
2)数据处理层:对原始数据进行数据维度的挖掘。
3)数据应用层:对数据维度进行各类索引以便应用。
4)数据服务层:负责对外提供统一的数据服务接口,保障服务质量。
5)数据管控层:负责对整个数据平台进行运行监控。

2.数据维度规范化处理。
我们对于数据维度做了大量的规范性要求:

1)为每个数据维度明确其应用目标
2)明确数据维度的数据样式规范。
3)明确数据维度的质量标准。

3.数据维度规范化应用。

1)引擎组件:各类引擎组件用不同的方式对数据维度进行编码索引,并提供各种特性的数据应用功能。
2)模型系统:对引擎组件的能力进行编排,实现可重用的数据分析能力,提高数据分析应用的复杂度。

上云价值

  • 数据的测算之前基于RDS的数据存储,一个维度的数据处理需要2-3天,现在处理时间缩短到3-6个小时,整个性能提升非常之大;而且,在大量数据处理时,很多时候是处理到80%的时候才会发现数据处理有问题,若处理时间过长,当发现问题时会一切重新开始,浪费的时间非常长。所以在这个场景下,MaxCompute的性能非常可靠。
  • 上云之后的大数据处理流程比之前的流程简单很多。所有数据处理流程都实现了自动化编排,一键式处理就可以完全编排,非常高效。

相关产品

  • 大数据计算服务 · MaxCompute

MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页。

云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。

更多关于云服务器ECS的介绍,参见云服务器ECS 产品详情页。

MySQL 是全球最受欢迎的开源数据库之一,作为开源软件组合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一环,广泛应用于各类应用场景。

更多关于云数据库RDS MySQL版的介绍,参见云数据库RDS MySQL版产品详情页。

  • 数据传输服务DTS

数据传输服务(Data Transmission Service) DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。

更多关于数据传输服务DTS的介绍,参见数据传输服务DTS产品详情页。

阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于 99.9999999999%(12 个 9),服务设计可用性(或业务连续性)不低于 99.995%。

更多关于对象存储OSS的介绍,参见对象存储OSS产品详情页。

【云栖号在线课堂】每天都有产品技术专家分享!
在线课堂地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK