欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
智能时代,自动生成投研报告很简单,3步轻松搞定!食罪人

智能时代,自动生成投研报告很简单,3步轻松搞定!

在投资银行的投行业务与证券研究业务中,会涉及到大量的固定格式的报告撰写工作,比如说招股说明说中的部分章节,研报,以及投资意向书。这些报告撰写需要大量的投行初级员工进行长时间枯燥繁琐的数据罗列、整理、反复copy-paste的工作。而在这一点上,通过AI技术自动生成投研报告,效率会比人类高。目前,自动报告生成主要运用的是自然语言(NLP)中的两种技术:自然语言理解(NLU):将日常话语消化理解,并转化为机器可后续处理的结构;自然语言生成(NLG):将由机器拆分好的机构化数据以人们能看懂的自然语句表达出来。对于以上两种技术,我们可以理解为是对日常对话这一原料的拆分加工和整理成可以理解的自然语句。然而要想实现自动生成报告,需要利用以上技术完成3个步骤:1、处理海量异构数据将投行分析师需要阅读的年报、数据以及行业分析报告等等海量数据,先让机器进行消化和学习。2、分析数据在这一过程中,需要运用知识图谱中常用的知识提取与实体关联,将逻辑主干抽离出来,再结合事件地点等因素,获得报告的关键信息,并嵌入到预先设计好的报告模板中。3、报告生成经过上面两个步骤后,即可生产新闻、投行分析研报、企业研报、企业公告等等。用户只需要选择符合其需求的模板并确定好主题与关键信息,以及报告呈现的形式,便可生成基本内容。机器是死的,它没有自己的主观意识。所以,在通过人工智能技术自动生成报告后,投行的分析师可以进行校对,还可以进行人工二次编辑,加入有价值的观点和结论。这样人机协作的方式,既能提高研报写作的效率,还能提升报告的精准度。自动生成报告已经被广泛的运用到新闻行业中,在国内的科技公司中吗,具有代表性的公司当属Giiso(智搜)的智能写作技术,已经实现了自动化生产文章和报告。但是,Giiso不仅仅满足于为新闻行业提供自动文章和报告生成的服务。其智能化研报写作、文本抽取、自动摘要、知识图谱等技术服务,可以为投行、证券等金融企业,快速解决人工撰写报告效率低下的问题。在智能写作领域,Giiso有丰富的经验积累,特别是数据写作。之所以Giiso的智能写作在行业类具有领先优势,主要得益于Giiso的两大核心技术——智能语义和知识图谱基于深度学习打造的智能语义技术让机器理解自然语言的关键技术。核心是基于大数据和深度学习构建机器可以理解人类表达语义的模型。语义识别最高精度达到92.67%;平均精度:84.22%;同类方法中最高。知识图谱通过一系列的机器学习技术,把非结构化数据转化成机器可以理解的结构化知识的过程。机器人基于知识图谱技术,可以快速的学习和进化到普通人对内容的运用水平。基于知识图谱构建的追踪引擎最高精度:95.06%;平均精度:94.52%;远高于传统的搜索算法。Giiso在这两大核心技术的支撑下,再与大数据进行技术融合,分析和理解数据的重要性,从而产生简短的文字表述或结构化的报告内容。从而让机器来处理数据和信息,实现机器替代人工做绝大部分基础工作的目标。

豪快者

干货丨如何自动生成银行调查报告模板,建议收藏

平时工作中经常会遇到一些数据文字整理的格式化报告,比如银行的尽职调查报告中的会计科目分析。以前的操作方式是从EXCEL中复制出来,然后再粘贴到WORD里面,调整字体统一格式。这种方法处理一两个会计科目的分析还可以应对,但是面对几十个会计科目的分析,工作就变得重复,枯燥无趣,浪费时间。后来发现了word中邮件合并的能,让这个重复劳动变得简单了许多。今天就以实际工作中撰写调查报告为例来教大家使用邮件合并功能,解放双手。需求分析调查报告中的固定格式为:货币资金:2016-2019年,公司货币资金分别为10万元、20万元、30万元和40万元,占当期总资产比例的10.00%、20.00%、30.00%和40.00%。2019年末较2018年,增加10万元增加比例100%,主要是因为XXX我们需要做的就是:1. 将一张科目余额表按照指定格式生成不同科目的excel工作表 2. 对核心数据进行波动差异分析,例如同期上升了XX% 3. 工作人员手工填写波动原因 实际操作知道了需求之后,我们就来一步一步的设置我们的邮件合并格式,达到自动输出word文本的目的。第一步:用EXCEL建立数据文档(源文档)首先,分析一下我们的WORD报告模板,明确我们需要使用的数据。根据需要设置标题,包括第一年到第一年的会计科目余额,占当年总资产或总负债的比例,变动方向。在数据栏里特意加了两栏绝对值,主要是为了避免在后面合并的时候出现现:“减少-xx”的字样,使得生成报告具有易用性。这些统统可以放在EXCEL中作为数据保存起来。第二步:打开WORD设置模板在源文档设置好以后,打开WORD,新建文档,填写我们固定输入的那内容,如下:"XX"部分就是我们需要从EXCEL中引用的数据部分。然后点击“引用”,找到“邮件”,点击“打开数据源”,选择刚刚保存的EXCEL。点击“插入合并域”,就会显示我们在EXCEL中保存的标题栏。选择需要的“数据库域”把设置好的文本中的XX替换掉,最后调整为如下格式。基本设置已经完成,现在点击“查看合并数据”,WORD就会自动带入相关数据。效果如下:功能基本实现了,但是数据格式有点不理想,需要进行下面这一步,格式调整。第三步:调整文档格式在直接设置完成以后会发现,需要显示百分比的地方显示的是数字格式,和我们的想法有出入。我们需要的是保留两位数的百分比格式。因此需要对这几个数据后面进行调整。调整方法如下:邮件点击引用的“数据库域”,选择显示域代码,或者直接按“ALT+F9”显示域代码。在需要调整的地方进行修。需要保留两位数的在域代码中添加#0.00,如{MERGEFIELD "第二年" # 0.00}在需要百分比并保留两为数的地方添加*100 # 0.00%,如“{MERGEFIELD "当期占比" *100 # 0.00%}”。设置完成后点击更新域或“ALT+F9”,就可以预览调整后的格式。如图所示:最后:验收成果点击合并到新文档→选择“全部”,就会将数据自动生成到新文档中。PS:假如第一次使用这个功能,并且只看到一个科目,不要怀疑自己,其他的数据在下一页。执行替换就可以把所有文档合并?最后执行替换功能。生成调查报告。是不是可以省了不少力气?报告中耗时费力的部分是不是一下就完成了。如果你不想自己设置,我把文中案例里的两个文件放在我的公众号“加班狗的日常生活”里,关注并回复“调查报告模板”就可以下载使用。觉得有用,别忘了点个赞。

小故

深度 | CMU 邢波教授团队最新成果:利用 AI 自动生成医学影像报告

雷锋网消息,近日,由卡内基梅隆大学机器学习系副主任邢波教授创立的 Petuum 公司近期发表了几篇论文,介绍了如何使用机器学习自动生成医学影像报告,从而更好地辅助医生做治疗与诊断。医学影像在临床实践中被广泛应用于诊断和治疗。专业医师阅读医学影响并撰写文字报告来描述自己的发现。对于没有经验的医生来说,撰写报告很可能会出错,对于人口众多的国家的医生来说,这样的工作又耗时又枯燥。为了解决这些问题,邢波教授的团队研究了医学影像报告的自动生成,作为人类医生更准确高效地生成报告的辅助工具。为了应对这些挑战,邢波的团队建立了一个多任务学习框架,共同执行标签的预测和段落的生成;提出一个共同注意机制(co-attention mechanism),将包含异常的区域标注出来;利用一个层次LSTM模型来产生长的段落。医生不愿撰写“医学影像报告”放射学和病理学的医学图像被广泛用于医院和诊所,例如肺炎、气胸、间质性肺病、心力衰竭、骨折等等。他们通过撰写文字报告(图1)来描述在影像学检查中所检查的每个身体部位的发现,特别是每个部位是否被发现是正常的,异常的或潜在的异常。图 1. 一个包含三部分信息的胸部 X 光报告示例。在 impression 部分,放射专家结合 Findings、病人临床历史及影像学研究的指导做出诊断。Findings 部分列出了影像学检查中所检测的身体各部分放射学观察结果。Tags 部分给出了表示 Findings 核心信息的关键词。这些关键词使用医学文本索引器(MTI)进行标识。对于经验较少的放射科医师和病理科医师,特别是那些在医疗保健条件落后的医生,写医学影像报告是一件困难的事情。要正确读取胸部X线图像,他们需要以下的几项技能:对胸部正常解剖结构和胸部疾病的基本生理学的全面了解通过固定模式分析射线照片的技能评估随时间变化的能力临床表现和病史知识与其他诊断结果(实验室结果、心电图、呼吸功能检查)相关的知识但是,对于有经验的放射科医师和病理学家来说,撰写影像报告又过于繁琐和费时。在中国这样人口众多的国家里,放射科医生每天可能需要阅读数百张放射图像。将每幅图像的分析结果输入计算机大约需要5-10分钟,这占用了他们大部分的工作时间。邢波的团队认为,自动生成医学影像报告是一件有意义而且有必要的事情,但同时,这项任务也面临几个挑战。首先,一份完整的诊断报告由多种不同信息形式的内部报告组成,如图1所示,胸部X射线的报告包含 Impression描述,通常是一句话;Findings 是一段描述;Tags 是一列关键词。用一个统一的框架生成这样的不同信息,对技术提出的要求很高。我们通过构建一个多任务框架来解决这个问题,该框架将标签的预测作为一个多标签分类任务来处理,并将长描述(例如生成 Impression 和 Findings)的生成视为文本生成任务。在这个框架中,两个任务共享相同的用于学习视觉特征的CNN并且共同执行。其次,一个影像报告通常更多地集中于描述异常的结果,因为它们能直接指出疾病并指导治疗。但如何定位图片中的病变区域并附上正确的描述非常困难。我们通过引入共同注意机制(co-attention mechanism)来解决这个问题,同时参与图像和预测到的标签,并探讨视觉和语义信息的协同效应。最后,成像报告中的描述通常很长,包含多个句子甚至多个段落。生成长文本是非常重要的,我们没有采用单层LSTM(这种LSTM不能模拟长序列),而是利用报告的组成性质,采用分层LSTM来生成长文本。结合共同注意机制,层次型LSTM首先生成高级主题,然后根据主题生成详细的描述。数据集方面,研究人员使用的是印第安纳大学胸部X射线组(IU X射线),这是一组与相应的诊断报告对应的胸部X射线图像集。该数据集包含7470对图像和报告。每个报告包括以下部分:impression, findings, tags, comparison and indication 。邢波团队将impression和findings中的内容视为要生成的目标,并将MTI生成的标记作为报告的标记。相关的工作为医学影像添加文本报告为了将文本报告添加到医学影像上,需要几个步骤。在我们的设置中,添加到医学影像上的文本是完全结构化的或半结构化的(例如标签,属性,模板),而不是自然文本。通过建立传递系统来预测医学影像的特征性,其中一些特征性通过文本标签显示。给定一个医学图像,首先运用局部图像分析法进行局部分析,然后提取每个局部图像的视觉特征,最后建立一个分类器,将视觉特征按照预定义的类别分类。Shin和其他研究人员,建立了运用CNN-RNN框架的系统,可以为胸部X射线影像添加文本标签。他们使用CNN(卷积神经网络)从影像中检测疾病,并使用RNN(循环神经网络)来描述检测到的疾病的详细信息,例如:发病位置,病变程度及受影响的器官等。Zhang及其研究团队的最新研究报告显示,他们可以提供生成医疗报告。他们的目标是生成30-59字的病理报告。然而,他们生成的病理报告是半结构化的,语言不够流畅自然。通过将少量标准报告重新编写生成最后的病理报告,报告内容限于5个预定义的主题。我们研究的最终目标是:生成的病理报告可以替代医生在自然情况下撰写的病理报告。这些病理报告很长,涵盖了很多方面,相比之前研究给影像添加标签和半结构化段落来说,难度系数更大。图像说明与深度学习图像说明技术可以为指定图像自动生成文字描述。最近研究的图像文本模型大多是基于CNN-RNN框架。Vinyals及其研究团队将从CNN的最后隐藏层提取的图像特征提供给LSTM(长短期记忆网络)以生成文本。Fang 及其研究团队首先使用CNN来检测图像中的异常,然后将这些检测到的异常通过语言模型生成一个完整的句子。Karpathy及其研究团队提出使用多模式递归神经网络将视觉和语义特征二者达到一致,然后生成对于图像的描述。最近,注意机制(attention mechanisms)已被证明对于添加图像文本是有用的。Xu及其研究团队将空间视觉注意机制引入CNN中间层提取的图像特征中。You及其研究团队提出了针对给定图像标签的语义注意机制。为了更好地利用视觉特征并生成语义标签,研究团队提出了共同注意机制。我们的目标不仅仅是为图像生成一个说明。Johnson及其研究团队正在研究密集型文本,要求模型可以生成对于每个检测图像区域的文字描述。Krause,Liang及其研究团队通过分层LSTM为图像生成段落说明。我们的研究方法也是采用分层次的LSTM来生成段落标题,而与Krause及其研究团队不同的是,我们使用一个共同关注网络来生成主题。图 2. 整个模型的结构与过程。其中 MLC 代表多标签分类网络,语义特征是预测标签的词向量。粗体标记的「calcified granuloma」和「granuloma」是共同注意网络关注的标签。定量结果我们使用以下文本生成评估手段(BLEU 、METEOR 、ROUGE 和 CIDER)度量段落生成(表 1 上半部分)和单语句生成(表 1 下半部分)的结果。如表1的上半部分所示,对于段落生成来讲,使用单个 LSTM 解码器的模型的表现明显要差于使用层级 LSTM 解码器的模型。表1中的Ours-No-Attention和CNN-RNN 之间的唯一区别在于,Ours-No- Attention采用层级LSTM解码器,而CNN-RNN 仅采用单层LSTM。这两个模型之间的比较直接证明了层级LSTM的有效性。这个结果并不令人惊讶,众所周知,单层LSTM不能有效地模拟长序列。此外,单独使用语义注意(Ours-Semantic-Only)或单独使用视觉注意(Ours-Visual-Only)来生成主题向量似乎帮助不大。潜在的原因可能是视觉注意力只能捕捉图像分区域的视觉信息,而不能正确描述。虽然语义注意只知道潜在的异常,但不能通过查看图像来确认其发现。最后,我们的完整模型(Ours-CoAttention)在所有的评估指标上都取得了最好的结果,说明了提出的共同注意机制的有效性。对于单句生成的结果(如表1下半部分所示),我们模型的控制变量版(Ours-Semantic-Only和Ours-Visual-Only)与其他版本相比,要优于所有的基线模型,这表明了所提出的共同注意机制的有效性。定性结果段落生成三个模型生成影像病理报告的示例见图3,分别为Ours-CoAttention模型,Ours-No-Attention模型和Soft Attention模型。值得注意的是,下划线的句子是对异常情况的描述。首先,我们可以观察到三个模型生成的报告所包含的句子比真实报告多。其次,三个模型生成的报告和真实报告大多数的语句都是对于正常区域的描述,而只有几句话是关于异常情况的。这个观察可以解释为什么 Ours-No-Attention模型在一定程度上不能达到非常好的水平。图 3. 协同注意力 、无注意力、软注意力模型生成的段落图示。划线句子是检测到异常情况的描述。第二个图是胸部侧面 x 光图像。前两个例子的结果是与真实报告相一致的,第三个出现了部分失败,最底下的图像完全失败。这些图像来自测试数据集当我们深入了解生成文本的内容时,发现不同句子具有不同的主题,这是令人惊讶的。第一个句子通常是对图像的整体描述,而以下的句子分别描述图像的其他区域,例如:肺脏、心脏等。另外值得注意的是,Soft Attention模型和Ours-No-Attention模型只能检测图像中的异常情况,往往检测到的异常情况还是错误的。但是,Ours-CoAttention模型在前三幅图像中均能够正确描述图像中异常情况。结果表明,与Ours-CoAttention 模型及Ours-No-Attention模型相比,层次型LSTM可以更好地生成病理报告。在第三张X射线图中,Ours-CoAttention模型成功检测到右下叶肺部有异常。然而,它没有准确地描述这种异常。相比于其他X射线图来说,第三张X射线图比较暗,这可能就是Ours-CoAttention模型描述错误的潜在原因,我们的模型对这个变化非常敏感。Ours-CoAttention模型对于第四张X射线图的描述是一个失败案例。虽然模型错误地判断了图像中的主要异常,但是它确实找到了一些不寻常的区域。比如:左下叶肺部异常。此外,发现模型给出的报告中有“这可能表明”的字眼,说明模型试图推断所患疾病,这是十分令人惊讶的。为了更好地理解模型检测疾病或潜在疾病的能力,我们在表2中,给出了三大模型正态性和异常性的概率。我们认为句子包含“否”、“正常”、“清除”、“稳定”作为句子描述正常。很显然,Ours-CoAttention模型在正态性和异常性的概率上最接近真实情况。表3中的结果表明,Ours-CoAttention和VGG-19 网络对于标签预测的执行非常相似。尽管多任务学习没有改进,但我们认为,这个模型是一个端到端的模型,避免了管理复杂的流水线模式。图4显示了共同注意的可视化。图4所示的第一个特性是 Sentence LSTM 能够关注图像的不同区域和语句的不同标签,并在不同的时间步骤生成不同的主题。第二个特性是视觉注意力可以指引模型关注图像的相关区域。例如,第一个例子的第三个句子是关于“有氧”的,视觉注意力集中在心脏附近的区域。类似的行为也可以被发现的语义注意:对于第一个例子中的最后一句话,我们的模型正确地集中在作为句子的主题“退化变化”。此外,第二个例子中的第一句话的内容与语义注意力的集中矛盾是令人惊讶的。单一关注机制不太可能发生。这种矛盾意味着共同关注机制具有一定的容错性,因此共同注意可能比单一关注更为强大。最后,最后一个例子的第一句话是由于对标签不正确的注意而导致的错误描述。我们相信通过建立一个更好的标签预测模块可以减少不正确的注意力。图 4. 协同注意力在三个示例上的可视化。每个示例由四部分组成:(1)图像和视觉注意力;(2)真实标签,预测标签以及预测标签上的语义注意力;(3)生成的描述;(4)真实描述。对于语义注意力而言,注意力分数最高的三个标签被突出显示。加下划线的标签是在真实标签中出现的标签。图4还提供了标签预测的一些定性结果。结果表明,除了与图像相关的标签之外,该模型还产生许多不相关的标签。尽管共同注意机制可以过滤掉很多干扰标签,但不相关的标签仍然会误导模型,产生很多误报。我们相信一个更好的标签预测模块将有助于建模来关注正确的标签,从而帮助提高生成文本的质量。结语雷锋网了解到,近年来,人工智能,尤其是深度学习的成熟使得市场上出现了很多AI辅助诊断产品。人类基因组测序技术的革新、生物医学分析技术的进步、以及大数据分析工具的出现,为病人提供更精准、高效、安全的诊断及治疗。虽然,人工智能+影像领域也是参与企业最多,产品最丰富、涉及疾病种类最多的疾病诊断领域。,但是AI也能够参与疾病的筛查和预测、写结构化的病历、在基层担任全科医生助手的角色,AI在减少医生工作时间、提高诊断治疗效率方面起到非常大的作用。邢波的研究团队认为,他们工作的主要贡献是:提出了一个多任务学习框架,可以同时预测标签和生成文本描述;引入一个用于定位异常区域的共同注意机制,并生成相应的描述;建立一个分层的LSTM来产生长句和段落;进行大量的定性和定量的实验,以显示实验方法的有效性。雷锋网认为,邢波教授团队的研究成果不是第一家,相信也不会是最后一家。未来,随着产品迭代的不断升级,算法层面的不断打磨,医学影像结构化报告的生成方面的研究,将陆续有其他玩家进入。

炎魂

学界 | 人工智能如何更好的辅助医生?Petuum研究自动生成医疗图像报告

Petuum 专栏作者:Baoyu Jing、Pengtao Xie、Eric Xing机器之心编译在过去一年中,我们看到了很多某种人工智能算法在某个医疗检测任务中 「超越」人类医生的研究和报道,例如皮肤癌、肺炎诊断等。如何解读这些结果?他们是否真正抓住医疗实践中的痛点、解决医生和病人的实际需要? 这些算法原型如何落地部署于数据高度复杂、碎片化、异质性严重且隐含错误的真实环境中?这些问题常常在很多「刷榜」工作中回避了。事实上,从最近 IBM Watson 和美国顶级医疗中心 MD Anderson 合作失败的例子可以看出,人工智能对医疗来说更应关注的任务应该是如何帮助医生更好地工作(例如生成医疗图像报告、推荐药物等),而非理想化地着眼于取代医生来做诊断,并且绕开这个终极目标(暂且不论这个目标本身是否可行或被接受)之前各种必须的铺垫和基础工作。因此与人类医生做各种形式对比的出发点本身有悖严肃的科学和工程评测原则。这些不从实际应用场景出发的研究,甚至无限放大人机PK,对人工智能研究者、 医疗从业者和公众都是误导。知名人工智能创业公司 Petuum 近期发表了几篇论文,本着尊重医疗行业状况和需求的研究思路, 体现出了一种务实风格,并直接应用于他们的产品。为更好地传播人工智能与医疗结合的研究成果,同时为人工智能研究者和医疗从业者带来更加实用的参考,机器之心和 Petuum 将带来系列论文介绍。本文是该系列第一篇,介绍了如何使用机器学习自动生产医疗图像报告,从而更好地辅助医生做治疗与诊断。如今,放射学图像和病理学图像这样的医疗图像在医院与诊所已有普遍的应用,特别是在许多疾病的诊断与治疗上,例如肺炎、气胸、间质性肺病、心理衰竭等等。而这些疾病医疗图像的阅读与理解通常是由专业的医疗从业者完成。但对缺乏经验的放射科医师或病理学家来说,特别是在乡村地区工作的医师,编写医疗图像报告更为艰难。对经验丰富的医师而言,编写医疗图像报告又过于乏味、耗时。总之,对二者而言编写医疗图像报告是件痛苦的事。如此看来,能否使用机器学习自动生成医疗报告呢?为了做到这一点,我们需要解决多个挑战。首先,一份完整的诊断报告包含多种不同的信息形式。如下图 1 所示,胸腔 X 光照图像报告包含 Impression 描述,通常是一句话;Findings 是一段描述;Tags 是一列关键词。用一个统一的框架生成这样的不同信息,技术上非常有挑战。在这篇论文中,研究人员解决该问题的方法是建立一个多任务框架,把对标签的预测当作多标签分类任务,把长描述(例如生成 Impression 和 Findings)的生成当作文本生成任务。在此框架中,两种任务共用同样的 CNN,来学习视觉特征并联合完成任务。图 1. 一个包含三部分信息的胸部 X 光报告示例。在 impression 部分,放射专家结合 Findings、病人临床历史及影像学研究的指导做出诊断。Findings 部分列出了影像学检查中所检测的身体各部分放射学观察结果。Tags 部分给出了表示 Findings 核心信息的关键词。这些关键词使用医学文本索引器(MTI)进行标识。第二,医疗图像报告通常更注重叙述异常发现,因为这样能直接指出疾病、引导治疗。但如何定位图片中的病变区域并附上正确的描述非常困难。作者们解决该问题的方法是引入一种协同注意力机制(co-attention mechanism),它能同步关注图像和预测到的标签,并探索视觉与语义信息带来的协同效应。第三,通常医疗图像的描述非常长,包含多个语句或段落。生成这样的长文本非常重要。相比于直接采用单层 LSTM(难以建模长语句),作者们利用报告的合成特性采用了一种层级 LSTM 来生成长文本。结合协同注意力机制,层级 LSTM 首先生成高级主题,然后根据主题生成细致的描述。总而言之,该论文的主要贡献包括:提出一种多任务学习框架,能同步预测标签并生成文本描述;介绍了一种协同注意力机制来定位异常区域,并生成相应的描述;建立了一种层级 LSTM 来生成长语句、段落;通过大量定量与定性的实验展示该方法的有效性。论文:On the Automatic Generation of Medical Imaging Reports论文地址:https://arxiv.org/abs/1711.08195摘要:医学影像广泛用于诊断和治疗等医疗实践中。通常专业医师需要查看医学影像,并写文本报告来记录发现。缺乏经验的医生写报告容易出错,且在医患比例过低的国家,编写报告会耗费大量时间。为了解决该问题,我们研究了医学影像报告的自动生成系统,以帮助人类医生更准确高效地写报告。但目前该任务面临多个挑战。首先,完整的报告包含多种异质形式的信息,如用段落表示的发现和关键词列表表示的标签。第二,机器很难识别医学影像中的异常区域,在此基础上生成文本描述则更加困难。第三,报告通常比较长,包括多个段落。为了解决这些挑战,我们(1)构建一个多任务学习框架,能够同时执行标签预测和段落生成;(2)提出一种协同注意力(co-attention)机制来定位异常区域,并生成描述;(3)开发一种分层 LSTM 模型用于生成长段落。最后我们展示了该方法在胸部 x 光和病理数据集上的有效性。图 2. 整个模型的结构与过程。其中 MLC 代表多标签分类网络,语义特征是预测标签的词向量。粗体标记的「calcified granuloma」和「granuloma」是协同注意力网络关注的标签。3. 方法在本章节中,我们将介绍具体使用的方法。以下简要地介绍了整个方法的过程,各部分详细的过程或理论请查看原论文。一份完整的医学影像报告通常包括非结构化的描述(以语句和段落的形式展示)和半结构化标签(以关键字列表的形式展示),如上图 1 所示。我们提出了一种多任务层级模型,该模型带有协同注意力机制(co-attention)且能自动预测关键字并生成长段落。给定一张经过分割的图像,我们使用一个 CNN 来学习这些图像块的视觉特征。然后再馈送这些视觉特征到多标签分类网络(MLC)以预测相关的标签。在标签词汇表中,每一个标签由一个词向量表征。若给定特定图像一些预测的标签,模型会检索它们的词嵌入向量以作为该图像的语义特征。模型随后将视觉特征和语义特征馈送到协同注意力(co-attention)模型以生成能同时捕获视觉和语义信息的上下文向量。至此,编码的过程就完成了,下面模型将从背景向量(context vector)开始解码生成文本描述。医学影像的描述通常包含多条语句,并且每条语句都集中在一个特定的主题上。我们的模型利用这种组合结构以层级的方式生成报告:它首先生成一系列代表语句的高级主题向量,然后在根据这些主题向量生成一系列的语句(由单词组成的序列)。具体来说,先将背景向量输入到一个只有少量时间步的 Sentence LSTM 中,然后每一个背景向量就能生成一个主题向量。其中每个主题向量都表示一条语句的语义。随后给定一个主题向量,Word LSTM 将以它为输入生成一个单词序列或语句。主题生成的终止条件由 Sentence LSTM 控制。4. 实验我们使用以下文本生成评估手段(BLEU [13]、METEOR [4]、ROUGE [12] 和 CIDER [17])度量段落生成(表 1 上半部分)和单语句生成(表 1 下半部分)的结果。如表 1 上半部分所示,对于段落生成来讲,使用单个 LSTM 解码器的模型的表现明显要差于使用层级 LSTM 解码器的模型。对于单语句生成(见表 1 下半部分)的结果来说,我们模型的控制变量版(Ours-Semantic-Only 和 Ours-Visual-Only)相较于当前最优的模型取得了有竞争力的分值。表 1. 模型在 IU X-Ray 数据集(上半 部分)上生成段落的主要结果,以及在 PEIR Gross 数据集(下半部分)上生成单语句的结果。BLUE-n 表示最多使用 n-grams 的 BLUE 分值。为了更好地理解模型检测真实或潜在异常情况的能力,我们在表 2 中展示了描述正常情况与异常情况的语句,及它们所占的比率。表 2. 描述图像中正常情况和异常情况语句所占的比率。图 3. 协同注意力 、无注意力、软注意力模型生成的段落图示。划线句子是检测到异常情况的描述。第二个图是胸部侧面 x 光图像。前两个例子的结果是与真实报告相一致的,第三个出现了部分失败,最底下的图像完全失败。这些图像来自测试数据集图 4 展示了协同注意力的可视化。第一个特性是 Sentence LSTM 能够关注图像的不同区域和语句的不同标签,并在不同的时间步上生成不同的主题。第二个特性是视觉注意力可以指引模型关注图像的相关区域。图 4. 协同注意力在三个示例上的可视化。每个示例由四部分组成:(1)图像和视觉注意力;(2)真实标签,预测标签以及预测标签上的语义注意力;(3)生成的描述;(4)真实描述。对于语义注意力而言,注意力分数最高的三个标签被突出显示。加下划线的标签是在真实标签中出现的标签。

其主君也

斯坦福新成果:X光诊断报告自动生成

大数据文摘出品作者:文摘菌“病史:肿胀、疼痛,已获取左踝关节三视图。”“病情:矿化正常,未发现骨折或骨性病变 ... 软组织正常。”“结论:左踝关节正常。”观察X光照片、记录病情、翻看患者病史、给出诊断结果——这是一位放射科医生的日常工作。长期以来,放射科医生的这项工作既繁琐、又容易出错。幸运的是,斯坦福大学的一项最新研究成果表明,AI技术可以自动生成的放射科报告:在一个盲选实验中,一位放射科医生判断67%自动生成的诊断报告达到、甚至超越了专业放射科医生书写报告的水准。医生只需在观察X关照片后描述影像信息,简述患者病史,人工智能模型便会自动生成高准确性的诊断总结报告。近日,由斯坦福Curtis Langlotz和Chris Manning教授指导的团队发表了他们将自然语言处理技术应用于医疗诊断的最新成果。在这项研究中,他们运用自然语言处理模型阅读医生对X光照片的描述,结合患者病史,自动生成精准、流畅的诊断结果。“我们的深度学习模型能够自动给出诊断结果,生成的总结报告与人类医生的诊断高度吻合。” 该研究的第一作者张宇浩告诉文摘。在大数据文摘微信后台回复“诊断”可获取该研究完整论文。诊断报告的自动生成该研究将诊断报告的自动生成看作了一个“文本概括”问题。长篇的病情记录被视作需要概括的文本,而这一概括过程又需要结合患者的病史信息。为了解决这一问题,该研究使用了一个基于长短神经网络(LSTM)的seq2seq模型作为主结构。首先,病情记录被一个LSTM编码器转换成向量表示。同时,患者的病史信息也被另一个LSTM网络编码。之后,基于这些病情记录和病史信息的编码信息,一个LSTM解码器逐字生成最终的诊断报告。这一模型同时具备“复制-黏贴”功能。在解码器生成诊断报告的过程中,可以选择生成词库中的合适词汇,或者直接从病情记录中“复制-黏贴”相关文字。模型的完整结构如下图所示。考虑到医疗诊断报告的文本区别于普通文本,在词汇量、词汇用法语义都存在特殊性,该研究在450万放射科报道上预训练了一组全新的GLoVe词向量。结果显示,这一做法能够显著提升诊断报告的质量。该研究主要使用的数据为87,127份斯坦福医院的X光诊断报告,这些报告囊括了12种不同的身体部位,包括胸部,腹部和四肢等。诊断报告质量显著提升为量化生成报告的质量,这份研究使用了ROUGE分数作为评估指标。该指标衡量了生成文本和真实文本的重合度。研究者们将新模型与S&J-LSA、LexRank、Pointer-Generator等基准模型作了对比。结果显示,研究提出的新模型显著优于其他模型算法。比对模型的详细信息参见原论文。同时,研究者也请来了一位资深放射科医生来人工评估报告质量。在一个盲选实验中,该医生认为67%自动生成的诊断报告达到、甚至超越了专业放射科医生书写报告的水准。研究者们也探究了该模型的应用广泛程度。在深度学习模型训练中,一个经常困扰研究者的问题是,在已有数据集上训练好的模型在实际应用场景中会因为数据分布的不同而“大失水准”。那么,这个模型能否被应用到其他医院的诊断报告上?由于不同机构的放射科医生往往经过不同的训练,并且有不同的写作习惯,将这一模型迁移到其他医院的诊断流程中是一个潜在的有挑战的问题。为此,研究者们在斯坦福医院数据集上训练完模型后,直接将该模型在2,691份印第安纳大学胸部X光诊断数据集上测试。令人欣喜的是,这一模型同样有不错的表现。另外,这个模型是否也能够为训练中没有见过的“身体部位”作出诊断呢?在实际应用中,一些在诊疗过程中罕见的身体部位可能在训练过程中完全缺失。为了研究这一问题,研究者将所有数据按照身体部位分类,并分别抽出每个部位对应的数据,在剩余数据上训练模型。结果显示,“胸部”和“腹部”的诊断严重依赖相关训练数据集,而“膝关节”的诊断则显现出较小的数据依赖性。作者猜测,这是因为训练数据集中存在和“膝关节”相似的身体部位,如“踝关节”、“肘关节”等。未来计划通过对机器生成报告的逐条分析,研究者发现模型仍存在一些问题。该模型偶尔会遗漏重要结论,比如必要的后续诊断建议。同时,模型生成的报告仍存在一些的语法错误。研究者们也正在考虑如何将这一成果于实际诊断有效结合,做到确保诊断质量的同时有效精简放射医生的工作量。“希望我们的成果能够启发其他研究者们,进行更多医疗诊断报告自动生成的探索。”作者张宇浩告诉文摘。在大数据文摘微信后台回复“诊断”可获取该研究完整论文。

光之塔

质量大数据平台面对海量测量数据,如何一键生成报告?

在制造业中,测量是进行质量管理和控制的必备手段。通过测量设备改造或物联网技术实现在线测量已经逐渐取代传统手工记录在纸质表单。虽然解决了测量数据记录问题,并不意味着你的数据是有价值的。目前,很多企业已经完成了测量设备自动化改造,实现了自动或半自动测量、标准设备或非标在线测量设备,测量数据非常地方便。这些数据被海量地保存在测量设备中、PC电脑中、设备自带的工控机中等等。但是存在以下现象:1、数据分散存储,成为数据信息孤岛,使数据和相关信息的共享成为不可能完成的任务;2、数据存储格式多样:TXT、EXCEL、CSV、RTF、RES、DMO、DAT、LOG、设备自带小型数据库等等;3、每个数据文件中,并不是所有的信息都有意义;4、每个数据文件中的数据结构不同;5、有的只有数字,缺乏基本的附加信息;那么问题自然就来了:我们并不能对这些数据进行有效应用。比如一个产品有可能被不同测量设备测量,不同的参数数据有可能分散存储在不同的测量设备中,很难实现全参数数据关联整合;比如实现相互关联研究分析,或者制作一份综合的质量报告,就要花费很多时间进行数据的提取、梳理和整合。为了完成对数据的统计分析和生成各种报告,你需要经常重复做以下工作:1、经常花很多时间从各个数据源获取数据;2、需要花大量时间对数据进行梳理、清洗、整合;3、应各种要求经常花大量时间整理制作各种报告;4、根据数量频率或时间频率重复同样的过程;面对以上繁琐难题,积梦智能推出的数字梦工厂DD-factory的质量管理模块就能解决以上所有难题,面对海量数据能一键生成报告。积梦智能 DD-factory 通过数字工厂模型,打通数据流通问题,利用自研的软硬件系统,连接物理世界的人机料法环和业务世界的研产供销服,实现对工厂产品的全生命周期的数据管理,DD-factory 质量管理功能模块将企业的质量解决方案模块化、标准化,让广大生产型企业以最低的成本享受行业标杆企业的质量管理经验,加速完成企业的信息化过程,提升中国制造业整体质量水平。随着质量和大数据的融合,大数据在质量管理尤其是宏观质量管理中将发挥着越来越重要的作用,当前质量管理已全面进入宏观管理,实行质量行政监督正在向聚焦系统性安全管控和防范的方面转变。测量大数据几乎都越来越依赖于对质量大数据的收集、整理、分析的科学性,凭借质量大数据来实现科学管理将是未来的趋势,这需要通过大数据在消费者、企业、市场、政府之间建立连接的桥梁,采集大数据、分析大数据、应用大数据,进而提升质量管理水平。应用质量大数据实现海量测量数据一键生成报告只是质量大数据应用的一小部分,我们利用质量大数据最终的目的是起到防错的作用,能有效地避免因为产品生命周期相关数据不完善以及信息孤岛造成的产品质量缺陷。“质量”一个永恒的话题,无论是哪种类型的制造业都离不开质量,任何一家企业,尤其是生产型的企业均要合理的运用质量大数据平台以及质量管理工具进行质量管理,因为产品质量是驱动企业不断前进的原动力。

灵公说之

亿欧智库:2017人工智能+内容生产研究报告

文/亿欧智库今年双11,阿里的AI鲁班系统完成了4亿张海报的制作,人工智能用于内容生产的高效震惊了很多人。除了阿里的鲁班,实际上近来在文章、图片、影视、游戏等内容领域,已经陆续有了AI在应用于内容生产。这一过去一直被认为需要很强的创造性,完全依赖人的产业,正在受到AI的冲击。记者、设计师、剪辑师、作曲等一众内容工作者,他们的饭碗会因此受到影响么?为了弄清AI+内容生产进行到何种程度,对内容生产可能产生何种影响,亿欧智库撰写了这份《2017 人工智能+内容生产研究报告》,对目前AI在内容生产领域的应用进行了研究,分析了AI在文本、音频、图像、视频、互动内容五大领域的具体应用情况,展望了AI在内容生产中应用的发展趋势,供相关人士参考。报告完整版详见亿欧智库。Chapter1:AI+内容生产概念界定技术进步和产业内生需求,是推动AI开始在内容生产领域应用的两个主要动力。机器生成内容的研究很早就在持续进行,随着人工智能技术的应用,开始取得突破性进展。近两年,无监督学习、深度强化学习、迁移学习、生成对抗网络等算法的研究深入,使得AI在本文处理、音频处理和图像处理方面持续取得突破。内容产业庞大而复杂,其中一部分内容已经高度模板化和套路化,从业者大量时间花在了重复劳动上,机器的引入可以减轻这部分人力劳动。一些过去很复杂的内容处理,有了AI变得简单很多,大幅降低使用者门槛。一些需要天马星空想象力的内容创作,机器反而能生成一些人想不到的奇特内容。这些原因也使得AI在内容生产领域应用有必要性。具体到内容,报告主要研究的是常见的文本类、音频类、图像类、视频类和交互内容类5个大类的内容,主要研究AI在内容生产的三个环节:前期准备阶段、中期生产阶段和后期结果检查阶段中的应用,在这些环节,AI要么替代人,要么与人协作,进行内容的生产。报告不涉及内容的分发和运营环节。Chapter2:AI+各类型内容生产文本内容:AI写新闻稿已经在头部媒体投入实际应用,由媒体自研或与技术供应商合作,用在个别领域的新闻生产。AI生产的内容在全部媒体内容中的占比还很小。大量专业内容AI还难以替代人。AI在剧本结果预测、前期素材搜集、文本纠错等方面已经得到应用,未来应用范围或许将会逐步扩展,甚至整合到各种文本编辑器和工具中。AI在作诗、编程、编剧等方面都取得了一些进展,但都属于尝试性研究,暂无太多实际商业价值。音频内容:AI已经能够自动作出一些乐曲,可用于其它内容的背景音乐或节奏,已经有多家公司凭借AI,切入了乐曲作曲领域,推出了相关产品和服务。在专业歌曲制作领域,AI还只是参与到整个作曲过程中的一环,协助人完成一些专业歌曲的创作。AI合成声音效率比起之前已经有了很大的提升,效果离人还有距离,但在虚拟歌姬界引起了波澜。图像内容:AI已经能自动生成海报、logo等。要求不高的图像内容可以直接使用AI生产的结果。更专业的内容可以在AI生成的内容上由人二次修改。鲁班制作双11海报是AI最成功的应用之一。AI的高效也使得网络海报的大规模个性化定制,千人千面成为可能。AI在图像处理方面很多研究成果惊人,但并不指向特定的商业应用。如果成功商用,将降低部分图像处理的门槛。部分研究以滤镜应用的方式商业化,偏向大众娱乐产品,不构成内容生产环节的生产力提升。视频内容:AI预测影视作品效果指导创作已经有了成功案例,作为人决策的一个补充。AI代替人拍摄录像还难以到达专业摄像水平,只能用于偏娱乐的领域。AI剪辑视频多处于研究,目前只能生成资讯类的视频框架,由人再编辑。专业视频编辑领域还没有实际应用。互动内容:AI用于游戏素材制作的方向很多,基本都还在研究开发阶段,还没实际成果产出。潜在的想象空间很大。完全由AI制作游戏短期看还不现实,已经有公司从自动生成素材的工具开始入手。Chapter3:AI+内容生产趋势AI+内容生产整体还处于非常早期的阶段,体现在数量少、阶段早、领域窄、效果差。数量少:相关公司和实际商业应用数量少,还未到商业阶段的研究项目占到了2/3以上。阶段早:大部分都还是研究项目,商业项目也刚刚开始应用,相关公司都还在天使轮和Pre-A轮阶段。领域窄:内容生产涉及众多领域,产业上下游多个环节,目前的案例和项目多集中在一些常见内容领域。效果差:很多AI生成的内容仅业余娱乐可用,达不到专业要求。 AI当前能最高水平为人类的初级工种水平。相当长一段时期内,AI在小部分领域能够实现自动生产内容,在大部分领域,AI更适合于与人协作。在于人协作的过程中,机器可能会完成大部分机械重复工作,人完成小部分创造性工作。AI能否应用,是机器换人还是人机协作,与内容适用度和技术成熟度两个关键因素相关,技术成熟度高、内容适用度高的领域,AI将先得到应用,且自动化程度高。技术成熟度低、内容适用度低的领域,AI较晚应用,自动化程度低,人的参与程度高。总体来看,未来随着AI各方面要素的持续进步,AI+内容生产还将持续取得应用,应用范围也有望逐步扩大,尤其是在黑色产业方面有着很好的应用前景。但整体毕竟还很早期,重点需要关注的还是AI生产内容能够达到何种效果。谈论后续AI以何种产品形态商业化、如何商业落地、应用后如何影响内容产业,还为时过早。总的来说,就像是机器能画出龙的身躯,但要让龙栩栩如生,还是需要人来点睛,机器能够替代人完成内容创作的大量工作,但内容创作的核心理念、思路、精髓,仍需要人来把控。毕竟,内容以人为本,最终是给人看的。文章版权属北京亿欧网盟科技有限公司所有。文章内容系作者个人观点,不代表亿欧对观点赞同或支持。

夜气

麦肯锡报告 | 智能过程自动化:新一代公司运营模式的核心引擎

选自McKinsey&Co机器之心编译参与:侯韵楚、马亚雄、黄小天智能过程自动化共包含五项关键技术,本文将阐明如何用其来提高生产力及效率、降低运营风险并改善客户体验。自 2007 年 9 月金融危机以来,为了同时提高成本利用率、客户满意度及员工敬业度,很多公司应用了精益管理,并且有很多项目在各个方面取得了实质性影响。但数字化的进展却变得更失衡。例如在保险行业中,2016 年 10 月的一份 FIS 研究发现,在受调查的保险公司中,有 99.6%的保险公司承认在数字创新实现中面临阻碍,而 80%的公司认为他们需要数字能力来应对业务挑战。而在 2016 年,「insurtech」投资的繁荣使这个难题变得更加复杂——自 2015 年以来,111 个交易中的融资额超过了 35 亿美元。随着宏观经济条件对各行业利润率的继续施压,提高成本生产力和释放新价值重返高级管理议程首位。而问题在于,我们还能做什么?这就是智能过程自动化(IPA)出现的原因。我们相信它将是公司下一代运营模式的核心部分,许多跨行业的公司都在尝试 IPA,并取得了显著成果:50%至 70%的任务实现自动化…………转化为 20%至 35%的年运行成本效率…………且直通处理时长减少 50%至 60%…………投资回报率的百分比通常为三位数。新的技术承诺同年回报能达到两位甚至三位数,对于这一点我们应保持怀疑。但经验表明,如果执行人员能够仔细思考并理解机会的驱动因素,且能将它与其它驱动下一代运营模式的方法和能力有效结合,那么 IPA 的承诺就是真实的(了解更多相关信息,请参阅「数字领域的下一代运营模式」)。什么是智能过程自动化?IPA 的本质是「从人类手中夺走机器人」,其核心则是一套将基本过程重设与机器人过程自动化及机器学习相结合的新技术。它是一套业务流程的改进,也是下一代通过删除重复、可复制以及常规任务来帮助知识型工作者的工具;它还能简化交互与加快进程来从根本上改善客户体验。IPA 可模仿人类活动,并能随时间推移而优化学习。由于深度学习和认知技术的进步,基于规则性自动化的传统杠杆的决策能力得以增强。IPA 承诺从根本上提高效率、提升工人绩效、减少操作风险,以及改善响应时间与客户使用体验。IPA 共包括五项核心技术:机器人过程自动化(RPA):一种软件自动化工具,它能自动执行常规任务,如通过现存用户界面进行数据提取与清理。机器人有一个与人类相同的用户 ID,并能执行基于规则的任务,如访问电子邮件和系统、执行计算、创建文档和报告,以及检查文件。RPA 帮一家大型保险合作社削减了每天影响着 2500 个高风险账户的多余排队程序,并释放出 81%的 FTE 来取代主动型帐户管理职位。智能工作流程:一种管理过程的软件工具,它能集成人类和机器组执行的任务(如在 RPA 之上帮助管理过程)。这使用户得以实时启动和跟踪端到端过程的状态;该软件将会管理不同组别的切换,包括机器人和人类用户之间的切换,并提供瓶颈之处的统计数据。机器学习/高级分析:一种通过「监督」和「无监督」学习来识别结构化数据中的模式(如日常性能数据)的算法。监督算法在开始根据自己的新输入做出预测之前,会从输入和输出的结构化数据集来学习;而无监督算法会观察结构化数据,并开始提供对已识别模式的洞见。机器学习和高级分析可能会改变保险公司的游戏规则,如在提高合规性、降低成本结构及从新的洞见中获得优势的竞争中进行改变。高级分析已在领先的人力资源部门中广泛实施,来确定及评估领导和管理人员的核心品质,以便更好地预测行为,发展职业道路及规划领导权继任。自然语言生成(NLG):一种通过遵循将观察结果从数据转化为散文的规则以在人类与技术之间创建无缝交互的软件引擎。广播公司一直在使用自然语言生成来实时起草游戏情节,而结构化的性能数据被传输至自然语言引擎中,来自动编写内部和外部的管理报告。一家大型金融机构已在使用 NLG 来复写每周的管理报告。认知代理:这项技术将机器学习和自然语言生成相结合,来构建一个完全虚拟的劳动力(或称「代理」);这个代理能够执行任务、沟通、从数据集中学习,甚至可以根据「情绪检测」做出决策。认知代理可以通过电话或聊天来帮助员工和客户,如应用在员工服务中心。使用认知技术的英国汽车保险公司的转化率提高了 22%,验证错误率降低了 40%,整体投资回报率为 330%。IPA 运行时的情况会怎样?下面举一个保险公司的例子:在那里人们命令处理器从 13 个不同系统中提取数据,保证服务「一切正常」。机器人可以通过使用 IPA 来代替手动点击(RPA)、解释大量文本的通信(NLG)、制定规则下不必预编程的决策(机器学习)、提供客户建议(认知代理),并提供对系统和人员之间相互切换的实时跟踪(智能工作流程)。IPA 的价值当 IPA 接管了机械重复的任务之后,工作人员可专注于提高客户满意度,思考如何让来自企业外部——如新闻、事件、社交媒体、嵌入式传感器以及类似的任何地方——的有价值数据帮助实现业务目标。尽管实现完整的 IPA 套件能够带来全方位的裨益,但是公司可以通过实现 IPA 中的个别技术就能快速释放显著的价值。如图表 1 所示,仅 RPA 就可以带动生产力显著 增长。图表 1一家大型金融机构采用规模化的 RPA 转型,将记录到报告流程中的 60%至 70%的任务自动化,并使年度运营效率提高了 30% 甚至更高。使用相同的方法,另一个机构在超额排队过程中降低了 80%的处理成本。FT500 中的另一家金融机构使用机器人技术每年降低 1.75 亿英镑的成本,减招 120 多个全职员工 (FTE)。另外,IPA 还可以帮助领导者从在众多复杂系统中几十年的投资中获得最大利益,并且同时做出许多复杂的决策。我们也看到企业插入控制以实时激活由其他的新发现触发的其他过程。例如,创建一个耦合了自然语言生成引擎的非监督机器学习平台,可以很快地允许处理结构化地日常性能数据以生成能够帮助领导者做决策的真知灼见,同时改变内部管理过程。不再需要难以进行的功能有限的报告流程,仅仅将它们累放在桌面上就行。尤其在保险行业中,IPA 可以发挥巨大作用。如何开始你的 IPA 改革呢?IPA 不需要大量的基础设施投资,因为它处理的是企业信息系统的表示层。例如,存在于信息系统顶层的 RPA 软件,可以在不改变信息技术后端的情况下实现快速返回。某些情况下,企业可以在两个星期内建造并运行 RPA 系统并且从中获益。根据我们的经验,以下步骤在推动成功的大规模 IPA 改革中是最重要的:1. 迅速协调 IPA 在运营模型中的作用任何一个有效的 IPA 倡议必须基于明确理解企业的总体战略和它的下一代运转模型在帮助实现 IPA 的过程中所起的作用。这需要清楚地阐明目标结束状态和过程,以专注于实现它。这种清晰度允许商业领袖评估和协调实现运转模型的方法和能力。在许多情况下,IPA 在推动变革方面发挥着重要的甚至主导作用,但是当公司理解了 IPA 和公司的其他能力和方法能够共同发挥作用的时候,IPA 便能发挥其最大价值。自动化即将到来,现在是定义可能的艺术并将其战略性地应用在最有意义的地方的时候。2. 围绕整个 IPA 解决方案组合设计,以最大限度地发挥作用企业不应该仅仅浅尝辄止一部分 IPA 技术。世界前进太快以至于没有有效利用 IPA,其包含的所有技术协同工作时才能产生全面影响。企业需要设想和实施整体的优化规划以使得投资回报最大化。尽管在信息孤岛上实施自动化项目是比较容易和快速的,但是这种方法存有缺陷。单独的技术不足以依靠自身去获取价值。事实上,为了转变一个集团的工作方式,需要重设基本的过程。应制定实施的详细路线图,以确定所有自动化增强的机会,并允许企业通过平衡它们对规模化扩展初始用况的解决方案的影响来有序执行 IPA 举措。通过快速创建当前任务的概述以及执行这些任务所需的资源和能力,开始你的 IPA 之旅。然后部署经验丰富的环网孵化器团队,根据对业务线和 IPA 功能的深入理解重新设计过程和团队流程。3. 快速开发一款最小可行产品 (MVP)尽管设计一个全面的 IPA 组合是重要的,但是刚开始的时候一次解决所有问题难免令人生畏。许多管理人员被许多复杂的数据仓库项目所淹没,其中一些项目需要十年才能完成,并且大大超出预算。与其他数字化工作一样,最好选择一个偏好速度和影响的端到端的过程或者用户流程,以用 IPA 来重新设计并加强业务过程,然后努力推出最小的可行产品 (MVP),它是产品的最简化版本,但依然能完成任务。这样,你就可以快速地测试什么是有效和无效的,并作出针对性改变。IPA 可以在几周而不是几年内以更少的错误和和更少的员工的「忙碌工作」的形式提供切实的价值。早期试点项目的快速回报有助于获得利益相关方和执行发起人的支持,以便采用更深入的计划以通过全面 IPA 改革来利用可实现的潜力。4. 建立动力,捕获价值任何 IPA 的实现都应该结合快速获胜和更大的长期发展。具体的细节路线应该根植于对生产自动化模型顺序进行的过程的重新设计,以及对集团营利的方式的重新设想。例如,保险行业中的每一个产品线都有不同程度可以被标准化和自动化的潜力,并且需要核查以及排序 (如图表 2 所示)。看一些交易、保险业与定价、政策管理、债权融资和会计中的时间密集型流程,当决定了它们如何在未来发挥作用时,就从一个空白表单开始。图表 25. 嵌入持久的能力,实现可持续发展持续创造价值的一个成功途径就是创建一个卓越中心(CoE)来管理 IPA 转型,并通过能力建设、认证、标准、供应商管理以及创建可重用解决方案模式库来支持 IPA 解决方案的快速部署。这样的 CoE 应当位于中心,并且尺寸可以相当小,因为它可以调用现有的精益管理或过程优化 CoE,而业务所有权和执行应当位于业务线或数字工厂。系统控制需要到位,企业应该在业务线中嵌入关键业务分析和数字技能,以便他们能够拥有该流程。他们还需要重新设计组织结构以捕获价值,建立未来状态的运作模型以扩大其 IPA 举措,为未来结构制定蓝图,获取影响并嵌入新能力,以及提供培训和讲习班来解释为什么手动过程的自动化将解放团队以专注于更多的创造性活动。在此过程中吸引你的企业和职能团队至关重要——例如,通过建立机器人——并建立可重用的资产,如手册。建立持久的 IPA 能力的最成功的方法是结合教练、在职培训和知识共享。为了在企业级获得价值,企业需要在 IPA 水平、流程重新设计、精益原则以及领域专业知识方面具有深厚技能的人。仅有技能本身是不够的。许多组织选择引入外部支持来补充他们的人才库并加速企业转型。6. 谨慎地协调转型的管理和沟通与任何大型转型计划一样,需要一个强大的沟通计划来帮助管理重新部署、激发兴奋、并协调变革故事与企业战略。建立新的执行模型方面的成功将取决于它与组织文化以及人们能够适应敏捷实践的程度的多少相关。此外,变革冠军需要在内部发掘,以使变革成功。公司正在以极低的成本利用 IPA 投资和开发新平台、吸引客户以及争取顾问,但这些多是无关紧要的东西。将来的胜利者是那些拥抱这些新能力,将其作为下一代运行模型,并快速从中获利的人,而不是那些放不开手的落伍者。

女猎人

2018年中国大数据BI行业报告:自然语言生成和人工智能成为新标准特征

图片来自“123rf.com.cn”近年来,随着人们的数据意识和数据素养不断提升,商业智能和数据分析领域迎来了快速发展期, 据Gartner商业智能报告统计,到2020年全球的商业智能市场容量预计将达到228亿美元 。同时,大数据、人工智能、机器学习、深度学习等技术的快速发展,也促进了商业智能和数据分析产品的新一轮进化。 Gartner分析师认为,到2020年,自然语言生成和人工智能将是90%的新BI平台的标准特征,50%的分析查询将使用搜索、自然语言处理,或语音生成,或将自动生成。 但我们必须认识到,我国商业智能的市场特征、企业需求、关注点、发展阶段均与国外有所不同,以Gartner为代表的分析机构并不能准确描述我国商业智能行业的实际状况。针对这一问题,帆软数据应用研究院调研了规模不一的216家企事业单位,了解到他们的大数据BI应用状态、需求情况、对大数据BI产品功能的期待,同时基于帆软数据应用研究院对行业的长期观察和思考,形成了该篇报告。主要预测: 2018年,中国大数据BI产品将主要在自助分析的可操作性和功能丰富度、平台的安全性、数据管理能力、分析的共享能力、数据挖掘能力、大数据处理能力六大功能模块进行提升。 一、2018年中国商业智能行业发展分析 (一)行业总体形势向好 在当前经济环境下,企业盈利的压力和难度不断增加,越来越多的企业,尤其是一、二线稍具业务规模的企业,其高层都希望通过精细化运营提升市场竞争力,降低企业的运营成本。这些企业绝大多数都已经在2008年-2015年间上线了各种业务系统,存储了大量管理和运营数据,具备应用大数据BI进行数据分析和数据化管理的各种条件,这些需求将在2018年-2022年继续爆发。值得注意的是,艾瑞咨询在《2017年中国商业智能行业研究报告》中指出,我国已经进入商业智能领域第一方阵,成为发展最快的国家之一,但和美国还有比较大的差距。所以未来中国大数据BI行业总体将呈现加速度增长,市场容量将不断扩大。 (二)大数据BI厂商马太效应显现 马太效应是指强者越强,弱者越弱的现象,国内BI行业的马太效应已经显现,综合实力强大的厂商更能投入资源做好产品、服务,解决更多用户的需求和问题。可以预见,2018年中国BI行业马太效应将进一步增强,逐步淘汰掉实力弱、规模小、产品差的企业。 (三)新型自助式BI与传统型BI平分秋色 得益于敏捷、自助的特征,从2013年起新型自助式BI迎来了高速发展期,这一时期也是传统型BI的衰退期。2017年,传统型BI与新型自助式BI在国内市场中平分秋色。受访企业中,约50.2%的企业仍然在使用传统型BI,其中最典型的需求是企业常规日报、月报等汇总分析报告。约49.8%的企业应用新型自助式BI,通过报表平台+自助式BI+大数据底层平台的解决方案,来解决企业综合的数据展示和分析需求,形成经营和战略决策。在调研中我们注意到,约有18%的企业引进了新型自助式BI,部分或全部替代了传统BI。虽然传统型BI有其自身优势和应用场景,但随着新型自助式BI的不断发展,传统型BI必将逐渐退出历史舞台,从国际传统BI巨头积极调整产品结构可见一斑。 二、2017年中国商业智能用户状况分析 根据企业的IT人员和业务人员在数据分析中的工作量和投入程度占比,我们将BI用户(企业)划分为5大类型,即BI应用金字塔模型,以更好的统计、分析企业的BI应用状况。 (一)BI应用金字塔模型 1.IT完全主导型其典型特征为,IT人员做底层数据仓库,以及BI工具层面的数据模型处理的所有相关工作,完成95%以上的BI分析页面(注:主要是指用于生产、经营、管理会议所需要的数据分析页面,下同)的开发。业务人员仅负责前端数据查看,完成查看报表时相关联动钻取操作。调研中我们发现,处于“IT完全主导型”这一等级的企业,约有93.2%都在使用传统型BI工具,企业的业务人员基本没有能力,也没有需求去自主完成数据分析的工作。这些企业的业务变革并不剧烈,企业管理层认为当前的日常数据报告能够满足企业管理和决策的需要,相对缺少变革的动力。2.IT强主导型其典型特征为,IT人员做底层数据仓库,以及BI工具层面的数据模型处理的所有相关工作,完成80%~95%数量的BI分析页面。业务人员完成低于20%数量的BI分析页面。从调研数据来看,这类企业中,67.5%的企业认为当前业务人员不具备数据分析的能力。而企业需要快速完成部分数据分析工作,所以选择让IT人员更多承担工作。这类企业中普遍认为,商业智能产品本身并非能够快速上手,且业务人员仍需要统计学基础,阻碍数据分析工作从IT人员向业务人员的转移。3.业务强主导型其典型特征为,IT人员做底层数据仓库,以及BI工具层面的数据模型处理的所有相关工作,完成前期示例不超过20%数量的BI分析页面。业务人员完成超过80%数量的BI分析页面。从调研数据来看,这类企业中,超过80.2%是曾经推行传统BI的企业,并且部分业务人员是有较高学历和能力的,能够学习和掌握商业智能工具和数据分析技能,并愿意在工作中积极使用;从帆软数据应用研究院的实地走访的部分企业来看,这些企业普遍行业排名靠前,公司从高层就重视数据分析工作。4.业务完全主导型其典型特征为,IT人员做底层数据仓库,以及BI工具层面的数据模型处理的部分相关工作。业务人员完成95%以上数量的BI分析页面和相当部分BI工具层面的数据模型处理。相比于第三类使用人群(业务强主导型),这类用户的一大特点是业务变革十分迅速,从事业务工作的人员学历普遍较高,业务经营和发展需要企业快速做出决策。而基于数据分析得出的业务判断相比个人历史经验准确度更高,是这类企业基本共识。比如在新兴的互联网企业,或者新零售领域,这个特点尤为突出。5.智能自助型其典型特征为,IT人员只做底层数据仓库、数据连接、数据字典相关工作。业务人员处理所有BI工具层面的数据处理,以及所有BI分析页面。IT人员搭建数据中心,业务人员完全自主处理和分析数据,这类企业有着明显的资源密集型的特点,业务人员更多的是偏向运营相关的工作。当然,因为此类受访企业占比较少,原因分析的可信度还有待进一步调研来核实。 (二)BI用户状况分布 基于BI应用金字塔模型,2017年企业分布如下;从调研数据中,我们可以得出两大结论。1、 IT人员主导企业数据分析的模式仍占据主流,也就是IT驱动仍是2017年企业商业智能平台应用现状 。从数据调研的受访企业来看,有高达60.5%的企业的数据分析工作仍是第二类型(IT强主导型),甚至有21.5%的企业的数据分析工作处在第一类型(IT完全主导型),这显然和业务人员自助数据分析的目标距离遥远。 2、新型自助BI正在成为商业智能市场的主流。 17.5%的企业是在2017年上线了新型自助BI,实现了让少部分业务人员自助完成BI数据分析的目标。 三、2018年商业智能用户需求分析 (一)企业多级部门数据分层次IT权限和平台管控,占受访企业97.6% 需求描述:BI工具支持企业的多级部门的数据/分析页面权限管控,使得不同层级的部门机构只能看到本部门机构和辖属部门机构的数据/分析页面。需求产生的原因:有的信息中心为释放压力,放权给业务部门使用数据,一旦口子打开,数据缺口就会像洪水一样泛滥,就又会走向另外一个极端,导致放权下的数据管理混乱,数据口径不统一,部门之间的数据壁垒等等问题就会出现,同时这将给企业带来极大的数据安全隐患。满足该需求对企业的价值和意义:在满足业务部门BI数据自助分析的同时,兼顾企业的数据权限管控,形成企业以IT部门集中管理下的良性数据分析风貌,杜绝企业数据安全隐患。 (二)业务人员可通过BI工具进行自助数据分析,占受访企业94.5% 需求描述:业务人员可以在浏览器前端,对自己权限范围内的数据进行多维拖拽探索和自助分析,发掘隐含在数据中的业务价值。需求产生的原因:企业的传统信息化建设中,IT信息中心对公司数据进行高度集中的管控,来自企业各职能部门的数据处理以及报表就会全部由IT人员来输出,一旦业务部门需求集中扎堆,就会造成响应不足,业务部门怨声载道。信息中心自身成员熬夜加班做报表,成就感却很低。满足该需求对企业的价值和意义:通过高效灵活的BI工具,业务人员对自己权限范围内感兴趣数据进行多维拖拽探索和自助分析,以工具简单易上手的低学习成本,让真正对分析业务价值最熟悉的业务人员实现自助数据分析探索,最大化业务数据的分析维度和分析效率,灵活发掘数据中可能潜在的业务价值,同时也解放了IT人员的劳动力,降低企业人力成本。 (三)可快速搭建型自助BI业务数据模型,占受访企业87.5% 需求描述:数据库表中的数据需要基于业务分析主题进行分类管理,相关数据表之间支持手动/自动构建关联模型,同时建立的关联模型支持灵活应用,无需反复编辑修改或创建新的模型,一次建立即可灵活满足多重业务场景进行数据分析使用。需求产生的原因:传统BI工具创建的底层数据关联相互独立,无法重复利用,一旦遇到新的业务数据计算分析场景,数据关联就需要修改或重新创建,极为麻烦,非常不利于IT人员维护。满足该需求对企业的价值和意义:通过BI工具快速构建的新型自助式BI业务数据模型,较传统BI工具针对不同业务分析场景需要多次、重复建模的应用痛点,极大地提高了BI工具的企业中业务数据分析应用的效率,解放了以往IT人员对数据维护的压力。 (四)OLAP多维分析:上卷、下钻、旋转、切片、联动、跳转等,占受访企业84.5% 需求描述:BI工具支持强大的页面OLAP多维分析功能,包括分析视角的上卷、下钻,维度的旋转切换,指标的切换,分析数据的切片过滤,组件之间的联动过滤、页面超级链接跳转等。需求产生的原因:随着业务发展的复杂化,单一角度的数据分析往往难以再发掘出更多有价值的潜在业务信息,取而代之的是需要BI工具能够满足强大的页面OLAP多维分析功能。满足该需求对企业的价值和意义:通过BI工具强大的OLAP多维分析功能,以实现多角度、多关联数据之间的数据无限层次探索分析,发掘出数据中潜在的业务价值。 (五)大数据处理性能处理能力达到十亿数据秒级响应,占受访企业63.6% 需求描述:BI工具可支撑处理亿级以上大数据分析计算的秒级响应,提供多维加速引擎对传统关系型数据仓库(SQLServer、Oracle、Mysql等)进行数据提速处理,同时也支持实时对接企业大数据平台(Vertical、Kylin、Greenplum等)进行数据分析计算。需求产生的原因:一方面,传统关系型数据库在面对上亿级别以上数据量时,容易出现性能瓶颈,长时间的查询等待往往会导致业务数据分析效率太低。另一方面,当今信息化水平飞速发展,越来越多的企业已经有了自己的高性能大数据平台,对于这部分企业来说,拥有一款能够直接对接大数据平台进行数据分析的工具尤为总要。满足该需求对企业的价值和意义:BI工具提供的强大数据计算处理引擎,能够降低企业数据查询等待时间成本,提高业务数据分析效率。同时,通过直接对接企业大数据平台,还可满足企业实时数据分析的需求。 (六)业务人员可完成工具层面的零代码数据加工处理工作,占受访企业57.5% 需求描述:BI工具可通过快速易上手的交互方式,让业务人员也能完成工具层面的零代码数据加工处理工作,例如例如表合并、分组统计、结构数据分层、过滤、增加列、同比环比、累计值、所有值、公式运算等数据清洗和数据处理方法,实现对数据的无限层次多维透视分析统计。需求产生的原因:当业务需求相对偏复杂时,简单的维度和指标统计往往无法直接计算出业务所需要的计算结果,以往的处理方式往往可能是业务部门提需求给IT,然后IT经过SQL或者代码对底层数据表加工处理,然后最终导出一张excel数据表给业务部门,期间的反复沟通和等待时间往往降低了企业的业务数据分析应用效率。满足该需求对企业的价值和意义:通过BI工具,使得业务人员也能快速实现对数据的无限层次多维透视分和析加工统计,降低了传统模式下的沟通成本和等待时间,提高了企业业务数据分析的应用效率。 (七)移动端数据分析查看支持,占受访企业44.9% 需求描述:BI工具支持移动端数据分析多维分析查看功能(兼容PC端的上卷、下钻、旋转、切片、联动、跳转等),对于BI工具的应用app支持便捷的扫码登陆、离线查看、批注、分享等功能,同时满足某些社区平台如微信、钉钉的企业公众号集成。需求产生的原因:在当今这个移动设备便捷时代,仅仅PC端的数据分析已经不能满足某些特定时间和场所的业务分析需求了,而BI对移动端的支持已经成了必然要满足的功能点。满足该需求对企业的价值和意义:通过移动端的BI分析查看,使得数据分析不仅仅局限于PC端,较大地增强了数据分析的便捷性。同时微信和钉钉的集成接入,让业务通过社区平台也能直接查看想要的数据分析页面,更是为移动端数据分析锦上添花。 四、中国大数据BI产品功能预测 结合用户需求调研,和我国BI厂商的产品计划研究,2018年如下六个大的功能模块将会得到增强。 (一)提升自助分析的可操作性和功能丰富度 为满足业务人员可通过BI工具进行自助数据分析的需求,中国大数据BI产品需要改善自助分析的功能和可操作性,包括图表的丰富性。前端布局自定义搭配,让业务人员随心所欲布置。比如仪表板自由布局,可快速拖拽生成所需要分析的页面;在全面支持常见的柱状图、条形图等图形基础上,增加支持中国(世界)地图、GIS地图、桑基图等大数据图表;为了适应更加多样的用户,大数据BI平台需要支持强大的OLAP多维分析功能,包括分析视角的上卷、下钻,维度的旋转切换,指标的切换,分析数据的切片过滤,组件之间的联动过滤、页面超级链接跳转等。业务人员在OLAP多维分析的基础上,能够在数据分析查看时,再次对所有维度进行二次的维度指标加工,并无限层次多维透视分析统计,全面开放业务人员对数据的处理和分析操作,以满足当前中国用户多个视角、多个层级的分析需求,把传统业务分析的智慧充分沉淀到数据分析系统中来。为了给不同用户提供个性化的视觉体验,大数据BI平台支持表格动态数值预警功能和图形设置动态警戒线,支持图表样式风格自由拖拽调整。同时,也需要大数据BI平台智能自动设置预警值和样式风格等。 (二)提升平台的数据挖掘能力 为满足企业业务人员自助数据分析和自动挖掘的需求,中国大数据BI产品需要在已有的数据可视化和数据分析的功能基础上,增强数据自动挖掘能力,使业务人员在能够掌握挖掘基本概念的基础上,深入挖掘分析业务数据,为业务运营提供数据结论支持。大数据BI平台需要支持嵌入式高级分析功能,用户能够轻松使用平台内置的高级分析功能,也可以通过导入和集成外部开发的高级分析模型。比如平台内含数据挖掘常见算法(如线性预测、时序预测、聚类、分类等),或者提供外接其他数据挖掘平台和工具的可视化接口(如R语言或者Python语言),甚至内含适合特定业务场景的挖掘模型。 (三)提升平台大数据处理能力 为满足企业对大数据BI平台实时响应的需求,中国大数据BI产品需要将当前大数据处理能力提升一个量级,达到10亿数据量秒级响应水平,同时支持丰富多样的数据源。大数据BI平台需要支持丰富的数据源,如企业主流的关系型数据库、大数据平台、NOSQL数据库以及多维数据库,需要支持实时对接数据平台和分布式引擎拓展,同时支持跨数据源关联,同时支持对较大级别数据量进行数据抽取和索引建模,提高数据分析效率。 (四)提升平台的数据管理能力 为了满足中国企业业务人员用户对数据处理的需求,中国大数据BI平台需要提升自身的元数据管理能力、数据的ETL处理能力、数据存储能力。提高元数据管理能力,使得用户能够集中管理元数据,包括对元数据进行检索、提取、处理、存储、分享复用和对外发布。中国企业的业务人员将需要在数据分析的过程中,直接操作经过IT人员标准化处理的元数据。近几年来,中国数据分析人才迅速增加,企业中也成长出一批有一定数据分析能力的业务人才,这些中国企业业务人才更多的是需要对数据进行ETL处理和存储,这就需要平台功支持用于查询、提取、转换和加载的功能,具有索引、管理、调度数据的能力。 (五)提升平台分析的共享能力 随着ERP、OA、MES、HIS等常见业务系统的完善,企业少则数十套IT系统,多则上千套系统。新型自助BI需要能够与多个系统同时融合,全面分析企业的业务数据。这就需要中国大数据BI产品需要加强产品与不同软件系统的集成融合能力,这是中国企业面临的共同难题。大数据BI平台需要支持嵌入式部署,如主流的应用服务器,支持跨平台的权限集成和页面集成。大数据BI平台不同用户创建的分析页面,可以方便地分享给其他成员。同时,在企业的分析用户设计仪表板时,可以复用仪表板中的图表、维度、指标等,支持用户分享指定页面进行给其他部门成员,便于互动沟通交流。为满足企业人员实时办公、互通信息的需要。大数据BI平台还需要支持移动端上共享和查看分析结果,支持在移动端对分析结果进行数据层级钻取穿透、联动等。 (六)提升平台的安全性 为了满足企业多级部门同时使用、不同权限的功能,中国大数据BI产品除了要提供灵活丰富的用户管理功能、权限控制功能,还需要内置强大的用户行为监控与分析功能,确保企业的数据安全和信息保密。大数据BI平台将支持持批量导入用户,支持同步企业统一权限管理数据库中的用户,以企业IT系统统一的用户管理方式进行用户管理。支持用户以企业IT系统统一的用户权限认证方式进行权限管理。同时,需要支持短信平台功能,并可用于用户账号身份验证等,多种用户和权限管理方式,来满足广大中国企业的不同的安全级别要求和安全管理策略。随着大数据BI在中国的发展,中国企业自身的大数据BI平台已有众多员工账号。这就对大数据BI平台提出新的挑战,除了要拦截非法用户,还要对大数据BI平台有效用户进行有效监控。2018年,大数据BI平台需要支持监控用户的操作行为,支持监控页面被访问的频次、访问来源,甚至是支持监控访问到的数据范围。为了保证大数据BI平台系统持续支持企业经营管理,需要大数据BI平台支持系统数据迁移到企业数据库,支持对系统进行备份与还原,备份可以手动或设置周期定时备份。同时,支持云端服务器部署和本地服务器部署,支持多机热备,达到企业的灾备要求。此外,为了有效避免BI平台出现严重异常,还需要支持监控自身的运行性能,遇到系统性能风险,提前给出系统预警信号。本文来自亿欧,创业家系授权发布,略经编辑修改,版权归作者所有,内容仅代表作者独立观点。

创圣

用了5年Excel,换了这个神奇的报表工具,不禁感叹:国产真香

作为一个在数据行业摸爬滚打多年的老江湖,我初入行的时候和大部分人一样,当了很长一段时间的“表哥”,才开始做真正的数据分析,辅助业务决策。不过无论是当纯粹的“表哥表姐”,还是专业的数据分析师,都难逃做报表这一关。提到做报表,自然而然就能想到Excel,从大学到毕业后工作2年,我对Excel的都处于一种狂热的追捧状态,认为在数据处理、报表制作方面来讲Excel是最佳选择。在我大学的期间,我就把Excel用得很熟练了,学会了各种基本函数的用法、数据透视表操作,还用Excel做一些简单的数据挖掘工作。不可否认的是,Excel给我的职业生涯开了个好头,对刚入行的小白来说,熟练掌握Excel分析和报表制作技巧还能了解一些数据挖掘知识,很快就能在同批新手数据分析师中脱颖而出。但是工作2年后,我对Excel热爱已经荡然无存,甚至有点厌恶。本来是抱着一腔数据分析的热情,结果每天就是做一些基础的报表需求工作,大量的时间花在取数,数据处理,报表制作上,真正的分析工作只占5%的时间。而且Excel对于简单逻辑的报表和小规模数据集,数据处理起来还是很快的,但是一旦遇到复杂的大数据量数据集就卡得要死,效率很低。再加上数据无法实时更新,需要耗费很多重复人力在更换数据源上,并且可视化效果也有限。当时我在的部门,全部是用Excel做数据分析的,虽然总有人吐槽,但也没人提出更好的解决办法,大家就依然沉浸在加班取数做表……取数做表的氛围中。后来新换一个主管,带着我们用开源报表工具实施报表项目。用了开源报表工具,大数量问题解决了,也实现了报表的个性化定制,但是新的问题又来了,开源报表工具没办法适应需求的变化,项目搞到一半,需求一变化,代码改起来就手忙脚乱,经常因为业务改需求导致项目延期上线。被开源报表折腾够呛之后,我们又准备试试商业报表工具,四处打听了一番之后,了解到了FineReport这个国产报表工具,在业内口碑不错,打听了一下消息,也有不少竞品公司在用它于是,我们就对这个报表工具展开了研究,对我们来说,选工具最重要的就是这几点:1、易用2、上手难度低3、性能好4、性价比高,FineReport在各方面的表现都很好,也改变我以前对国产软件的一贯偏见。先说取数的问题,这是让绝大部分数据人最头疼的事儿,大部分企业的CRM、ERP、OA 等业务系统都是独立运行的,各个系统的数据不能打通,取数就要到不同的系统中查询导出,再加上各个系统的数据口径不一致,取数、整合数据的环节就要耗费70%的精力。FineReport系统架构FineReport提供了多源数据整合的功能,可以和多个系统的数据源连接,跨数据库、跨数据表取数,把来自于不同系统中的数据集中到一张报表中,比传统的SQL+Excel整合数据的方式效率高得多。报表开发方面,FineReport也比Excel更专业,它是一个纯Java开发的报表软件,相对于开源报表来说,它的功能都是封装好的,用户不需要编码直接就能用,而且它的界面设计风格和Excel类似,兼容Excel常用的公式,稍微会点Excel就能很快上手。另外,它带有普通报表、聚合报表、决策报表三种报表模式,基本上覆盖了我们工作中遇到的绝大部分的报表需求,比如普通的分组报表、行式报表,复杂票据之类的中国式的复杂报表,还有就是驾驶舱、大屏之类的可视化报表。普通报表模式一般用来做分组报表、行式报表等基础报表,制作模板的时候处理对象是数据字段,这一点和Excel区别,Excel是对单元格数据进行操作。然后依靠着单元格的扩展与父子格的关系来实现模板效果行式报表聚合报表是专门用来做制作不规则的复杂报表。一张报表中各个模块相互独立,像下面这种,这样的报表用Excel做的话,我估计你得花半天时间来回对齐格线决策报表模式功能很强大,可以自由拖拽设计表单界面,自适应页面大小显示,制作炫酷的可视化驾驶舱或者大屏,各个图表组件通过参数设置能够实现联动和钻取分析,这些用Excel做就得要学会透视表和vba,而且还没办法解决数据实时更新的问题拖拽制表FineReport制作的驾驶舱模板FineReport制作的可视化大屏反正整体来说,FineReport在报表开发方面的优势可以总结成这三个方面:直接从数据库中读数,周期性的报表用一个报表模板就可以一劳永逸,每次同步一下就可以自动生成,比Excel手动统计汇总方便太多。操作简单,大部分的功能都封装成模块了,直接就能用,而且sql语句可以拖拽生成,不用一行行码代码。而且FineReport软件内置了常用的报表模板,比如财务分析常见的资产负债表,模板的指标和计算公式都设置好了,直接往里面填数据,就可以快速生成报表,节约大量时间。数据处理速度快,报表一部分依靠数据库,一部分依靠FineReport的行式报表引擎,相比于Excel的单机效率高了N倍。除了开发性能高,FineReport还有一个亮点就是支持填报。通过设计好的填报模板可以直接向数据库中录入数据,可以通过填报校验条件设置来保证入库数据的准确性。我看见好多公司收集数据的办法就是用Excel,把一张Excel表传来传去,最后拿到手还要检查数据准确性,用FineReport填报报表,只需要把填报模板发给对应人,填完数据自动审核入库,省一半劳动力接下来再说说数据安全和报表后期管理运维的问题。企业无论选什么样系统还是工具,最担心的就是数据安全的问题,原始的excel报表开发模式很难保证数据安全,在报表流转查看的过程中极有可能发生数据隐私泄露的情况。不过FineReport在设计的过程中显然考虑了这一点,提供了一个数据决策系统来对报表系统资源、用户、模板进行统一管理,方便我们IT人员对系统进行运维。管理员可以根据用户的企业角色或者部门分配报表查看和编辑的权限,保障数据安全,除此以外,还可以通过定时调度、智能运维、连接配置等功能实现对报表系统的整体配置和运维。从上面说的几点来看,FineReport在企业报表应用上完胜Excel,而且它还可以集成在OA,ERP,CRM内,懂点java的话还可以做更深层次的开发,比如我同事用这个开发了一个公司内部的考试系统,获得老板一阵夸赞。能遇见这样优秀的国产软件着实让我体会到了国产真香,再想到前两天哈工大被禁用Matlab软件的事,让很多用着国外软件的企业惴惴不安,也让大部分的企业意识到国产化替代的重要性。虽然我们在国产化软件研发上还有很长的一段路要走,不过当下这些优秀国产软件的涌现,也让我们在国产化替代上更有信心!