当前位置:   金科网 > 大数据 > 正文

深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

  深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

  金科网(公众号:金科网)AI金融评论按:什么是知识图谱?简单的说,知识图谱是信息(实体)本身以及信息(实体)之间的关联,是计算机实现智能的基础。知识图谱之于计算机,就好比知识之于人类,而金融行业的特点决定了其对金融知识图谱的刚性需求。此文为整理业内专业人士观点分享。

  深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

  人类天生擅长将信息进行分类、关联,但并不擅长记忆、处理海量碎片化的信息,但计算机可以。所以当前越来越多的AI创业公司开始致力于攻克构建知识图谱的底层技术。

  不同于拥有大量C端数据的BAT,该领域的创业公司往往从垂直领域的企业级服务切入。目前在国内,金融、法律、医疗、智能客服、安防等行业都已经有了致力于该领域知识图谱构建的AI创业公司,但金融行业由于其行业特点将成为该领域创业最大的蓝海。深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

  

图1:知识图谱的构建与应用

  半自动化构建知识图谱的代表数据供应商面临三大痛点

  金融行业的特点决定了其对金融知识图谱的刚性需求。

  首先,金融行业拥有海量的包含各行各业的数据信息,而且这些信息又以各种形式(如文字、表格、图形等)存储在大量的文档上,这些都是非标准化、碎片化的信息,需要被整理成标准化的、相关联的金融知识图谱,才便于金融从业者使用。

  其次,金融行业的公开文档具有一定的法律效应,故对于数据的精确性、时效性有很高的要求。

  目前,整理这些数据的工作主要还是由金融数据供应商来完成的。

  而其中的明星级代表就是万得(Wind)。它所采用的是数据爬虫技术,从公开渠道第一时间获得企业工商信息、财务报告等数据,再由大量人工进行整理和分类,以“人力模式”结构化这些信息,再通过万得终端提供给金融从业者使用。万得作为当前最大的金融数据拥有者,通过多年在金融行业中的经营与积累,拥有了丰富的金融知识图谱数据以及大量的金融客户,但其知识图谱的构建却是半自动的过程,仍需要人工操作。

  这种模式现在看起来似乎没什么问题,但其中存在三个最大的痛点:

  第一,数据供应商不能够“实时、敏捷”地提供金融知识图谱。由于半自动化的知识图谱构建技术,需要人工将金融文档中的信息提取出来,快则数小时,慢则好几天,还容易出错。这就无法满足一些对准确性、及时性、无人工等有高要求的应用场景,比如金融监管、机密文档复核、内部审计等。

  第二,数据供应商所拥有的知识图谱仅包含了公开数据,大量机密的、内部的、更为重要的数据不能被外部数据供应商整理成知识图谱。

  第三,人工无法整理所有数据。以万得为例,由于受到人工能力限制,其整理的数据仅包含资产负债表、利润表、现金流量表中的主要数据,无法提炼出企业报告中其余上百个表格数据以及隐藏在大量自然文本段落中的信息,而这些信息正是深入分析该企业的业务和财务状况的底层数据。

  简而言之,以万得为代表的数据供应商还不具备实时、全面地“构建知识图谱”的能力和技术,出售的仍然是数据本身。

  所以,面向企业级服务的AI创业公司都致力于能够全自动化的构建金融知识图谱,解决上述三大痛点。但是目前该市场还是处于需求大大高过供给的情况,这或许是由于全自动构建知识图谱的这项底层技术实际上在学术界都是一个难点。

  全自动化构建知识图谱的核心技术是NLP与CV的融合

  人们在阅读金融文档的时候,对其中的自然段落、图表中的信息在很短的时间内便能理解其中的意思,但对于计算机来说,这中间还有几个转换步骤。深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

  

图2:全自动化构建知识图谱的过程

  首先,当计算机看到一份金融文档的扫描图片时,看到的仅仅是图片中所有光点所呈现的数字矩阵;然后,通过OCR(Optical Character Recognition,光学字符识别)技术,将庞大的数字矩阵转换成包含字符以及字符的位置信息的矢量文档,比如金融行业最常见的PDF格式的文档就是矢量化的文档。但是,在此阶段,计算机看到的仅仅是一个一个的文字以及该文字的位置,并不能知道哪些字符组成了主语,哪些字符是谓语动词,哪些数字是关键信息,文档的哪些部分是表格。

  接下来,需要让计算机将这些零散的单个字符组合成金融知识图谱,这就需要用到富格式文档(Richly Formatted Data)处理技术。在这个阶段,就是计算机将零散的字符提炼成信息的阶段,也是技术上的难点。因为各类披露的金融文档呈现为富格式文本的形式,包含篇章结构、文字段落、数据表格等各类形式,而计算机对于不同形式的文本需要使用不同的处理技术;同时不同渠道获得的金融文档内容还可能出现不一致的地方,这还需要AI模型能够分辨矛盾数据、噪音数据。

  所以,想要将这些文档上的字符归纳提炼成为标准化的、相关联的、准确的信息,需要AI领域中的自然语言处理(NLP)技术与计算机视觉深度(CV)的技术的融合。

  也就是说,在全自动构成知识图谱的过程中,真正的难点在于计算机如何从含有复杂格式的大量资料中,快速地“理解”、“读懂”人类语言,甚至是对经过复杂演算的数据结果进行“纠错”。攻破这些技术难点的创业公司就将拥有核心的“技术”竞争力,也就是说它们将不再出售数据本身,而是出售“构建数据”这项技术。而各家创业公司的技术硬实力,将会成为其占领该领域的真正壁垒。

  全自动构建金融知识图谱将使金融机构提升运营效率、节约合规成本

  当全自动构建知识图谱的技术开始真正渗透到金融机构中,金融行业才能真正实现智能化的飞跃,大幅提升行业运营效率。

  

深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

  

图3:全自动构建知识图谱在金融机构及金融监管场景的应用

  一方面,如果全自动构建金融知识图谱的数据的技术私有化部署在公司内部,则内部机密数据的标准化整理、识别、关联、分析将能够被计算机替代。其应用场景可以涵盖从内部繁复的文档整理复核工作到内部合规审核。数据显示,中国证监会仅在2017年就作出行政处罚决定224件,罚没款金额74.79亿元,同比增长74.74%;而因为其他原因出现了细微错误的财务报告也会让企业成为媒体和公众讨伐的对象。如果企业能将合规的审核交给计算机,则企业内部为繁琐文档工作付出的人力成本、为合规处罚付出的经济成本等等,都将被节省下来。

  再就是即便对已公开的金融文档,全自动构建知识图谱的技术也将能够使企业大大缩短获得关键信息的时间。如果是运用外部的数据供应商,从企业年报PDF上网公开,到万得(Wind)的财报数据入库,快则需要几个小时,慢则需要数天。但金融行业一直是分秒都很“贵”的地方,如果能通过全自动知识图谱构建技术让财报数据在2分钟之内即可被金融从业者获取及应用,无疑将大大提高金融机构内部的运营效率。

  与此同时,外部数据供应商提供的财报数据往往仅包含资产负债表、利润表、现金流量表里的主要数据信息,无法提炼出隐藏在几百页企业报告中深入分析该企业的业务和财务状况的底层数据,但这些信息却可以被计算机自动提取。金融行业从业者将能够获得更加全面、精准的信息。

  知识图谱的应用将助力金融监管,监管科技市场前景广阔

  另一方面,对金融监管机构而言,基于其特殊性质,对于外部服务商的介入会更加谨慎。而通过私有化部署全自动构建知识图谱技术服务,利用内部闭环程序操作,就可以在尽可能提高数据的保密等级,减少人工直接参与的情况下,及时获得最全面、最精准的标准化大数据。

  同时,防范系统性金融风险一直是我国金融监管的重中之重。通过构建跨行业、跨机构的金融知识图谱,获得标准化的、准确无误的、及时透明的以及数量巨大的基础数据或信息,才能让人工智能在海量的数据和信息中主动识别和预测风险,对分散的数据进行综合分析以得出行为模式,这将是帮助监管机构防范系统性金融风险最为有效的金融科技。

  随着中国银保监会的正式挂牌,中国金融监管进入“一委一行两会”的格局。统一化监管、整体化监管、穿透化监管将成为未来金融监管的主基调,大量跨行业、跨机构的数据将被打通,构建金融知识图谱的技术将成为市场刚需,成为监管科技的重点应用之一。

  目前,全球的监管科技市场正处于一个上升阶段,根据市场调研公司Let's talkpayment预计,到2020年,全球范围内监管科技的市场规模将超过1000亿美元。中国也将在这一领域迎来广阔的市场。

  基于此,冲破拥有金融大数据的数据服务商所构建的商业壁垒,在技术层面已经实现,金融知识图谱的市场竞争也正在从“数据”竞争跨向“技术”竞争的新时代,技术本身才是创业公司的壁垒。拥有核心技术,金融数据本身并不是不可替代。

  

深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

  金科网原创文章,未经授权禁止转载。详情见转载须知。

深度分析金融知识图谱创业:需从“数据”竞争跨向“技术”竞争

415事件 415事件 IFO abcc交易所 ama事件 bibox bitfinex bitshares bitstamp btcguild btcguild主页 btcc btcguild btc论坛 chain coin coinbase coinmarket coinmarketcap dc资讯 deepbit ether ethereum filecoin fiscobcos hotstuff huobi huobiwang hyperledger ico比特币 imtoken kncminer kyle lsk mtgox破产 nervos okcoin okcoin okcoin交易平台 okex公众号被封 purpleline purse r3 ripple thundernetwork usdt暴跌 vdf zcash 爱德华·斯诺登 暗黑币 巴菲特比特币 巴西比特币洗钱案 百度区块链白皮书 斑马社 比特币8000美元 比特币价格 比特币暴涨 比特币跌破 比特币风险 比特币工厂 比特币汇率 比特币交易平台 比特币交易网 比特币今日价格 比特币勒索 比特币论坛 比特币骗局 比特币期货 比特币世界 比特币是什么 比特币听证会 比特币现金 比特币行情 比特大陆 比特股 比特论坛 比特现金 比原链 币贝 币创网 币网 币盈网 币众筹 博纳云 蔡欣 超主权货币 传销组织售暗黑币 达世币 复杂美区块链 公信宝 共享财经 狗狗币 关于防范比特币风险的通知 韩锋 韩国vs委内瑞拉 荷兰皇家壳牌集团 荷兰式拍卖 贺华成 恒星币 火币网 基亚索 极度贪婪 加密货币 蒋旭宪 金磊 矩阵元 烤猫 老猫 雷霆网 量化交易 邻萌宝 孟岩 摩根币官网 魔兽世界密保卡 旁氏骗局 区块链 区块链知乎 区块链是什么 区块链游戏 区域链 全球区块链大会 荣格财经 瑞波币 瑞波币交易平台 塞浦路斯事件 闪电网络 什么是区块链 史玉柱女儿史静 首家互联网法院 数秦科技 溯源链 算力吧 特朗普任命幕僚长 填补空白 万向区块链 王峰十问 王瑞锡 网易王磊 微宽网 维卡币官网 乌克兰前总理 西湖龙井资讯平台 下架币 小企股 小喵 迅雷在美遭遇诉讼 迅雷资讯 央行比特币 以太 以太币 以太坊 以太坊官网 以太坊价格 隐私云 于佳宁 元界 张海宁 账本 质数币 中本聪 朱波 朱嘉明 资本实验室 资产上链 1吨tnt的威力 1吨tnt的威力 2016深圳双创周 2016影响因子 2017新增院士名单公示 2017院士增选名单 2017支付宝扫码领红包 21吨tnt 2g物联网芯片 360ak47 360百度大战 360ak47 360百度大战 360大战百度 360和百度大战 360黑匣子 360手机ak47 360与百度大战 5.3寸手机 9505和9500区别 SmartisanOS发布会 bada论坛 build2017大会 csdn泄密 cv狗狗 dubike官网 evad3rs官网 facebook时间线 flappybird记录 google资讯 gpu是什么 icloud艳照门 inwatch官网 ios7支持机型 iphone5nanosim卡 iphone5宣传片 iphone5最新消息 iphone6mini iphone7或成爱疯最终形态 i美股 jwotch腕宝 lbs观景台 lily无人机 lytro光场相机 miuiv6发布会直播 mobileye被收购 myo腕带 nasa最新消息 nest恒温器 norse黑客大战 okex公众号被封 pepper机器人 pornhubcom日本视频 prynt手机壳 pythonmatplot绘图 qq火炬 qq天降红包 smartphone手机 sophone官网 tegra3四核处理器 ttg优惠券 vr爱情动作片在线播放 vr爱情动作片资源 vr左右格式爱情动作片 wifi怎么读 wp7越狱 阿里巴巴上市视频直播 阿里巴巴新任ceo 阿里无人超市 艾薇儿艳照事件 爱搞机 爱稀奇网 安卓挖矿蠕虫 暗黑机器人 奥巴马僵尸粉 奥迪男 百步淘 百度财报 百度360大战 百度财报 百度美拍 百度通讯录 百融 暴风播控云 暴风资讯 贝利珠 便利贴相机 播控云 草榴最新 草榴11 草榴客户端 草榴色导航 草榴色区 草榴时光 草榴网站 畅呼吸 超光速引擎 车国网 陈小同 陈孝良 池泽彩野花 锤子手机发布会2016 垂直搜索引擎有哪些 春运车票四大陷阱 大旗网 大旗网首页 大色鱼网站 戴珊 地沟油航班首飞行 点滴网络 点心os 点心rom 电信董事长调任移动 电蟒 丁道师 丁香园用药助手 独立调查员 兑吧积分商城 多听v电台 发改委罚高通60亿 发现应用克隆漏洞 凡宇资讯 飞飞发 风火轮滑板 符德坤 福岛电站辐射爆表 福岛核电站辐射爆表 高通8064 工业互联网 宫爆老奶奶bug 共享女友项目被罚 狗眼看世界 谷歌资讯 广告资讯 桂花网 桂卫华 郭佳 郭子威 国产手机信息网 国外选美辣眼睛 海尔透明电视 韩寒的杂志 航芯一号 毫米波 黑莓a10 虹膜支付 红米首发新品 红星操作系统 后pc时代 胡时伟 互联网最新资讯 华纳资讯 华佗智能医生 黄网 黄修源 徽剑 机器人技术 机器人记者崛起 极飞科技 极幕 极幕vr眼镜 集群飞行器 计算机图形学 记忆球 记者700元买同事行踪 贾跃亭令计划 监听门 江苏快3上宏发玩 街旁app 金蝶微博 金立e7发布会 京东金融更名 京东数据泄露 九又vr 凯文·米特尼克 考拉班车 考拉盒子 科大讯飞教育 科技媒体 科学家探测到引力波 空中巴铁 酷开vr 酷六网 快按钮 快播咨询 快播资讯 快播资讯首页 快播最新 雷峰 雷锋 雷锋电影 雷锋2012 雷锋报 雷锋的 雷锋的电影 雷锋的死因 雷锋的头像 雷锋的真相 雷锋电影 雷锋介绍 雷浪声 李开复写的书 李文栋 李一舟 李一舟微博 李一周 量子态隐形传输 林德康 林志颖iphone5 刘成敏 刘明辉 刘韧磊 刘世康 路宝盒子 鹿晗清晗基金陷色情门 罗永浩西门子 美国大选实时 美立知 蒙特卡洛树搜索 猛犸4浏览器 米多娱乐 觅创 明日合伙人 爬行者 潘翔 苹果ceo年薪 苹果飞行器 苹果新ceo 苹果最新消息 ⑵桨宓缒宰钚伦恃?企业社交网络 抢购信息 乔治·霍兹 亲心小号 邱懿武 曲奇单车 趣店数据疑似外泄 仁宝回应乐视欠款 人工智能图普科技. 人工智能技术 人工智能建站系统 人工智能图普科技 人魔网 日志宝 如果云 三星gearvr-vive 山寨iphone5 舌尖上的元素周期表 申威1600 申威1600处理器 深航app劫持微信 深圳车牌 神舟天宫对接成功 沈向洋 视频压缩算法 试用目录 手机气压感应器 手机水货和行货的区别 手机水货与行货的区别 数据丢失 数字化医疗 斯诺登事件最新消息 私家车不允许当专车 宋黎明 孙冰 孙丕恕 索尼honami 探针盒子 唐杨林 特斯拉处破产边缘 特斯拉进入迪拜 腾讯安全反病毒实验室 腾讯创业服务平台 腾讯优图实验室 同盾科技 图片搜索引擎大全 玩客币骗局 玩客云骗局 汪滔 王汉华 王思聪吐槽ios9 王星 王自如致歉 网红脸识别大战 网红脸识别人机大战 网易邮箱密码泄露 网易邮箱泄露 微软补丁 微软漏洞 微软面试题 微软宣布完成收购 微信5.5 为盲胞读书 温州电视台被黑 温州广电被黑 温州有线电视被黑 文件大师 无人机配件清单 吴俊杰 西湖论剑 夏航 先声教育 鲜果联播 小米2013年度发布会 小米4c发布会 小米iot 小米畅聊 小米资讯网 肖恩·范宁 肖力 新浪轻博客 嗅探 虚拟房间 迅雷大数据 迅雷新闻 迅雷资讯 迅雷资讯首页 亚航客机失联8大事实 岩田聪 遥控直升机原理 业界新闻 一吨tnt的威力 一数科技 医疗问答平台 伊莉 移动互联 易趴网 银行数据挖掘 印度发104颗卫星 英伟达收购mellanox 硬件资讯 优谈宝宝 游戏画风让人流鼻血 有鹏出行 俞太尉 俞扬 约翰斯卡利 岳路平 月饼事件 云罐 责令运营商整改 宅客 窄播 张嘉伟 张梦华 张首晟去世 张溪梦 哲也 臻识 臻识科技 织点智能 智慧 智能 智能网站 智适应 智铀科技 周鸿祎天天向上 周路明 朱坤 抓小三软件 追气球的熊孩子 咨询快播 资讯快播 资讯快播下载 自动驾驶出租车 最新病毒信息 最新色情片 最新艳照 汶川地震6周年 炫轮 睿医智能医生 魅蓝metal发布会 魅族mx四核评测 chengren游戏 chengren游戏 htc视频 htc游戏 htc游戏免费下载 h单机游戏下载 vr评测 vr世界 vr体验馆 vr网站 vr下载 vr虚拟现实 vr游戏 vr资讯 vr资源 安卓h游戏 安卓成人游戏 安卓手机成人游戏 奥秘世界 暴风魔镜4 北京虚拟现实 成年网络游戏 成仁游戏 成仁游戏单机 成人网页游戏 成人网游 成人游戏 成人h单机游戏 成人h游戏下载 成人youxi 成人单击游戏 成人单机版游戏 成人单机小游戏下载 成人单机游戏排行榜 成人单机游戏网 成人单机游戏下载 成人单机游戏下载基地 成人电脑单机游戏 成人电脑游戏 成人网络游戏 成人网页 成人网页小游戏 成人网页游戏 成人网游下载 成人游戏 成人游戏单机版 成人游戏电脑版 成人游戏机 成人游戏免费下载 成人游戏排行榜 成人游戏下载网站 成人游戏迅雷下载 成人娱乐 成人娱乐中心 成人之家 承认游戏 大朋看看 单机版成人游戏 单机成人小游戏 单机成人游戏 单机成人游戏下载 多哚 风云客 极维客 九又vr 乐客vr 罗技游戏方向盘 色请游戏 体感游戏 外星人alw17er 网页成人游戏 微软眼镜 虚拟现实游戏 虚拟现实中国社区 移动vr 掌网 最新h单机游戏 嗨镜