阿里云视觉智能API,核心技术一站共享!

随着人工智能的技术不断成熟,AI技术已应用到了社会的各行各业,尤其是计算机视觉技术应用更为广泛,计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学,计算机视觉智能技术试图创建能够从图像视频或者多维数据中获取“信息和知识”的人工智能系统。作为AI技术的主要组成部分,计算机视觉(图像、视频、3D图形)智能技术近年来随着深度学习、大规模数据处理能力及云基础设施的迅猛发展,逐步应用到各行各业中,发挥了越来越大的作用。

背景:阿里巴巴集团内的视觉智能基石

视觉智能技术相比其它AI类技术(语音语言等),功能流派更多,场景也更复杂 。整个阿里巴巴经济体围绕着自身大量业务场景(电商零售、金融物流、文娱营销、企业服务等多个行业)的应用需求,应用了大量的视觉智能技术作为产品和解决方案的基石,这些产品有些在今天已经被社会所熟知,如天猫,淘宝,支付宝,1688等。

这些视觉类技术方案、产品或能力中,除了场景内部的业务属性技术外,起到核心且基础作用的,是数量众多、功能各异的,以API形式服务于上层的视觉原子能力(或能力组件)。这些原子能力,有些是通用的,但大部分是面向场景的。在服务模式上,为了体现规模化、多样性的优势,以及追求接入、发现和运行的低成本,需要有一种统一的平台和服务方式,让这些大厦的基石走出阿里,去服务更广泛的用户和开发者群体,发挥更大的价值。

全栈式视觉智能:阿里云视觉智能平台

为了荟聚整个经济体的视觉技术基础能力,更好的服务于企业用户、生态合作伙伴、开发者,由阿里巴巴集团技术委员会视觉技术小组和战略合作部牵头,达摩院联合阿里云产品与解决方案管理部以及集团各个视觉技术团队一起创建了阿里云视觉智能API开放平台(https://vision.aliyun.com/)。
阿里云视觉智能API,核心技术一站共享!

亮剑:阿里巴巴集团下的顶尖视觉智能技术

阿里云视觉开放平台基于阿里巴巴视觉智能技术实践经验,集成了阿里巴巴内部最顶尖的技术,如今面向全社会的企业和开发者,共享这些技术。目前聚焦如下主要服务类目:图像识别、图像分割、图像增强、图像搜索 、人脸人体 、文字识别 、商品理解 、内容安全、视频理解、视频分割、视频增强、视频搜索 和3D视觉等40多种视觉原子能力。

人脸识别基于图像或视频中的人脸检测、分析/比对技术,以及人体检测技术,提供人脸/人体的检测定位、人脸属性识别和人脸比对等独立模块。可以为开发者和企业提供高性能的在线API服务,应用于人脸AR、人脸识别和认证、大规模人脸检索、照片管理等各种场景。
阿里云视觉智能API,核心技术一站共享!

人脸识别

文字识别基于阿里云深度学习技术,为用户提供通用的印刷文字识别和文档结构化等能力。 文字识别技术可以灵活应用于个人证件识别、行业票证识别、资产类证件识别、通过文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。
阿里云视觉智能API,核心技术一站共享!
身份证识别
商品理解:基于阿里云深度学习算法,结合图像或视频的商品检测、分析/比对技术,为用户提供对商品类目、标签、属性的识别以及置信度信息等能力。可广泛应用于电子商务、零售、生产等行业,实现货架商品识别、商品二维码识别、商品属性识别与商品比对等应用场景。
阿里云视觉智能API,核心技术一站共享!
电子商务
内容安全:基于阿里云视觉分析技术和深度识别技术,并经过在阿里经济体内和云上客户的多领域、多场景的广泛应用和不断优化,可提供风险和治理领域的图像识别、定位、检索等全面服务能力,不仅能帮助用户降低色情、暴恐、涉政、广告、垃圾信息等违规风险,而且能大幅度降低人工审核成本。
阿里云视觉智能API,核心技术一站共享!
新零售
图像识别:基于阿里云深度学习技术,可实现精准识别图像中的视觉内容,包括上千种物体标签、数十种常见场景等,可为用户提供图像打标、场景分类、颜色识别、风格识别以及元素识别等能力。图像识别技术可广泛应用于数字营销、新零售、广告设计等行业场景。
阿里云视觉智能API,核心技术一站共享!
智能相册编辑与管理
图像增强:基于阿里云深度学习技术,为用户提供图像视觉质量修复和图像属性增强等能力。图像增强技术灵活应用于摄影、艺术、广告、媒体等行业,满足老照片修复、图像去噪、图像曝光矫正、图像色彩矫正等业务需求。
阿里云视觉智能API,核心技术一站共享!
图片素材加工

图像分割:基于阿里云深度学习技术,结合检测识别技术,为用户提供高精度图像分割能力,可实现秒级全自动主体、场景像素级识别,4通道透明素材制作能力。不仅实现了发丝级精抠,对高度镂空主体、复杂背景等场景都有很好的效果,同时支持人、货、场等三种类型需求,可广泛应用于电子商务、零售、泛文娱、个人应用等各种场景。
阿里云视觉智能API,核心技术一站共享!
电商行业banner制作
目标检测:基于阿里云计算机视觉与深度学习技术,对通用或指定的目标进行检测、识别、打标。目标检测技术广泛应用于安防、交通等行业内图像场景的目标检测与跟踪。
阿里云视觉智能API,核心技术一站共享!
路况分析
这些能力都是由阿里数十年的研发和实践沉淀下来的原子能力。而达摩院作为整个集团的先进技术探索集中探索研发基地,也将不断的为平台提供着更多通用或专用的优秀视觉算法能力。阿里云视觉智能平台作为面向全社会的OPENAPI开放平台,企业用户、开发者可以在阿里云视觉平台上选择相关能力,自行封装产品、服务或者是解决方案满足自身或者最终用户的应用需求。

体验:OPENAPI即试即用

作为视觉小组OpenAPI战役的承载产品,阿里云视觉智能平台未来将集成达摩院,阿里云等200余种视觉能力,并精选100余种优质能力上线API集市,由各个视觉技术团队、平台和工具支撑部门不断更新支持,平台所上线的API能力均可以在OPENAI平台(https://api.aliyun.com/),试用,无需代码,无需部署,可视化交互场景让产品经理也能清楚了解手上视觉能力的价值。

阿里云视觉智能API,核心技术一站共享!
以文字识别-银行卡识别RecognizeBankCard为例
1、打开OPENAI平台(https://api.aliyun.com/)搜索文字识别,选择银行卡识别点击上传本地图片或者输入OSS的url链接
阿里云视觉智能API,核心技术一站共享!
2、点击立即调用即可在瞬间完成调用
阿里云视觉智能API,核心技术一站共享!

实战:一键开通,多能力调用

1、阿里云视觉智能平台(https://vision.aliyun.com/) 目前已集成8大类目40多项明星原子能力,只需要选择类目查看详情,一键开通即可调用此类目下所有API能力。
阿里云视觉智能API,核心技术一站共享!
阿里云视觉智能API,核心技术一站共享!
2、进入SDK参考-查看对应语言类目-安装阿里云SDK核心库-安装视觉智能API相关服务-配置参数-调用成功
阿里云视觉智能API,核心技术一站共享!

原石:用明星能力搭建应用场景的核心

平台的愿景是搭建一个完美的舞台供“能力”表演,如今,我们拿出了当初用于构建淘宝,支付宝,1688内视觉场景的原子能力,让开发者能使用最优质的能力进行研发场景,让算法团队接触最真实的开发场景进行能力开发,让每一个参与方各取所需,实现能力交易,多方共赢。希望能够帮助企业,开发者孵化造就更多的淘宝,支付宝,甚至阿里巴巴。

了解更多AI产品请戳:https://vision.aliyun.com/
点击观看产品发布会:https://developer.aliyun.com/live/1915
阿里云视觉智能API,核心技术一站共享!