欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
7 Papers|GCN大佬公开博士论文;谷歌提出扩展型BERT架构徐爱

7 Papers|GCN大佬公开博士论文;谷歌提出扩展型BERT架构

机器之心 & ArXiv Weekly Radiostation参与:杜伟、楚航、罗若天本周的重要论文包括谷歌提出的扩展型 BERT 架构 Tapas,以及 GCN 作者的博士论文。目录:SYNTHESIZER: Rethinking Self-Attention in Transformer ModelsInteractive Video Stylization Using Few-Shot Patch-Based TrainingTransferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-RankingHow to Train Your Energy-Based Model for RegressionTAPAS: Weakly Supervised Table Parsing via Pre-trainingmemeBot: Towards Automatic Image Meme GenerationDeep Learning with Graph-Structured RepresentationsArXiv Weekly Radiostation:NLP、CV、ML更多精选论文(附音频)论文 1:SYNTHESIZER: Rethinking Self-Attention in Transformer Models作者:Yi Tay、Dara Bahri、Che Zheng 等论文链接:https://arxiv.org/pdf/2005.00743v1.pdf摘要:众所周知,点积自注意力(dot proct self-attention)对于 SOTA Transformer 模型是至关重要且不可或缺的。但有一个疑问,点积自注意力真的这么重要吗?在本文中,来自谷歌研究院的几位作者研究了点积自注意力机制对于 Transformer 模型性能的真正重要点和贡献。通过一系列实验,研究者发现(1)随机对齐矩阵(random alignment matrice)的执行效果出人意料地好;(2)从 token-token(查询 - 键)交互中学习注意力权重并不是那么重要。基于此,研究者提出了 Synthesizer,这是一个无需 token-token 交互即可学习合成注意力权重的模型。本研究提出的 Synthesizer 模型架构图。在 WMT’14 英语 - 德语、WMT’14 英语 - 法语机器翻译任务以及 10 亿语言建模(LM1B)任务上的 NMT 和 LM 效果对比。在摘要式归纳(CNN / 每日邮报)和对话生成(PersonalChat)任务上归纳和对话效果对比。推荐:本研究提出的 Synthesizer 在 MT、语言建模、摘要式归纳、对话生成以及多任务语言理解等一系列任务上的性能均媲美于最原始的(vanilla)Transformer 模型。论文 2:Interactive Video Stylization Using Few-Shot Patch-Based Training作者:Ondej Texler、David Futschik、Daniel Skora 等论文链接:https://ondrejtexler.github.io/res/Texler20-SIG_patch-based_training_main.pdf摘要:在本文中,捷克理工大学和 Snap 公司的研究者提出了一种用于关键帧视频风格化的学习方法,借助这种学习方法,艺术家可以将风格从少数选定的关键帧迁移至序列其他部分。这种学习方法的主要优势在于最终的风格化在语义上有意义,也就是说,运动目标(moving object)的特定部分根据艺术家的意图进行风格化处理。与以往的风格迁移方法相比,本研究提出的学习方法既不需要任何冗长的预训练过程,也不需要大型训练数据集。研究者展示了在仅使用少数风格化范例且隐式保持时序一致性的情况下,如何从零开始训练外观转换网络。由此得出的视频风格化框架支持实时推理、并行处理以及任意输出帧的随机访问。此外,这种学习方法还可以合并多个关键帧中的内容,同时不需要执行显式混合操作。研究者验证了这种学习方法在各种交互场景中的实用性,在这些场景中,用户在选定关键帧中绘画,并且绘画风格可以迁移至已有的记录序列或实时视频流中。利用本研究中学习方法的风格化序列范例。具有关键帧的视频风格化设置。完整帧训练方法与本研究中少样本 Patch 训练方法的效果比较。推荐:本研究中少样本 Patch 训练方法的亮点在于它可以在与帧无关的模式下运行,这对当前严重依赖随机访问和并行处理的专业视频编辑工具非常有利。论文 3:Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking作者:Hongjun Wang、Guangrun Wang、Liang Lin 等论文链接:https://arxiv.org/pdf/2004.04199.pdf摘要:在本文中,来自中山大学、广州大学和暗物智能科技的研究者们通过提出以一种学习误排序的模型来扰乱系统输出的排序,从而检验当前性能最佳的 re-ID 模型的不安全性。由于跨数据集的可迁移性在 re-ID 域中至关重要,因此作者还通过构建新颖的多级网络体系结构进行半黑盒式攻击,该体系结构将不同级别的特征金字塔化,以提取对抗性扰动的一般和可迁移特征。该体系可以通过使用可微分的采样来控制待攻击像素的数量。为了保证攻击的不显眼性,研究者还提出了一种新的感知损失,以实现更好的视觉质量。在四个最大的 re-ID 基准数据集(即 Market1501、CUHK03、DukeMTMC 和 MSMT17)上进行的广泛实验不仅显示了该方法的有效性,而且还为 re-ID 系统的鲁棒性提供了未来改进的方向。Market-1501 和 CUHK03 上 AlignedReID 被攻击前后的 Rank-10 结果。绿色代表正确匹配。红色代表错误匹配。整体架构图。多阶段判别器图示。推荐:本文的亮点在于将将 SOTA 行人再识别系统精度降至 1.4%,并已被 CVPR 大会接收为 Oral 论文。论文 4:How to Train Your Energy-Based Model for Regression作者:Fredrik K. Gustafsson、Martin Danelljan、 Thomas B. Schon 等论文链接:https://arxiv.org/pdf/2005.01698v1.pdf摘要:近年来,基于能量的模型(Energy-based Model,EBM)在计算机视觉领域越来越流行。虽然这些模型通常用于生成图像建模,但最近的研究已经将 EMB 应用于回归任务(Regression Task),并在目标检测和视觉跟踪领域实现 SOTA。但是训练 EBM 不是一件简单的事情。另外,生成式建模(Generative Modeling)可以利用多种多样的方法,但将 EBM 应用于回归任务没有获得充分的研究。因此,如何训练 EBM 实现最佳的回归性能目前尚不清楚。在本文中,来自瑞典乌普萨拉大学和苏黎世联邦理工学院的研究者对这些问题展开了详实研究,提出了一种噪声对比估计(Noise Contrastive Estimation, NCE)的简单高效扩展,并与 1D 回归和目标检测任务上的 6 种流行方法进行了性能对比。对比结果表明,本研究提出的训练方法应被认为实最佳。研究者还将他们的方法应用到视觉跟踪任务上,在 5 个数据集上实现新的 SOTA。对于边界框回归等任务,本研究提出以噪声对比估计的简单高效扩展(文中表示为 NCE+)来训练基于能量的模型(EBM)。1D 回归实验训练方法的 D_KL 和训练成本对比。图左:用于 1D 回归实验的四种表现最佳方法的详细比较;图右:COCO-2017 Val 数据集上,用于目标检测实验的四种表现最佳方法的详细比较。四种方法均分别为 ML-IS、KLD-IS、NCE 和本研究提出的 NCE+。推荐:本研究中的跟踪器在 LaSOT 目标跟踪数据集上实现了 63.7% 的 AUC,在 TrackingNet 目标跟踪数据集上实现了 78.7% 的 Success。论文 5:TAPAS: Weakly Supervised Table Parsing via Pre-training作者:Jonathan Herzig、Pawe Krzysztof Nowak、Julian Martin Eisenschlos 等论文链接:https://arxiv.org/pdf/2004.02349.pdf摘要:谷歌在本文中提出了一种扩展型的 BERT 架构。该架构可对问题与表格数据结构进行联合编码,最终得到的模型可直接指向问题答案。并且,这种新方法所创建的模型适用于多个领域的表格。要想得到优良的模型,优质的数据自然是不可或缺的。谷歌首先使用了数百万个维基百科表格对模型进行预训练,然后又在三个学术级表格问答数据集上进行实验,结果表明新方法的准确度表现极具竞争力。不仅如此,谷歌开源了模型训练和测试代码,还公开分享了他们在维基百科数据上得到的预训练模型。本研究提出的 Tapas 模型以及对于问题 “排名前二的总天数(total number of days for the top two)” 的示例模型输出。问题 “查询(query)” 的编码以及使用 Tapas 特定嵌入的简单表格。表格(左)与对应的问题示例(右)。问题 5 是会话式。推荐:谷歌的这篇论文将 BERT 模型应用到了基于表格的问答场景中,为弱监督式的表格解析性能带来了显著提升。论文 6:memeBot: Towards Automatic Image Meme Generation作者:Aadhavan Sadasivam、Kausic Gunasekar、Yezhou Yang 等论文链接:https://arxiv.org/pdf/2004.14571v1.pdf摘要:近日,来自美国亚利桑那州立大学的研究者对 meme 图生成方法进行了改进提升。在这篇论文中,研究者提出了一种根据给定的输入语句来生成匹配图片的方法。这是一项很有挑战性但有趣的 NLP 任务。通过对 meme 图生成机制的深入了解,研究者决定将 meme 图生成与自然语言翻译相结合。在自然语言翻译工作中,为了将输入的语句转换为目标语言,必须对语句的完整含义进行解码,分析其含义,然后将源语句的含义编码为目标语句。类似地,此处也可以通过将源语句的含义编码为一对图像和标题,传达与源语句相同的含义或情感,从而将语句翻译成「梗」。受到这种方法的启发,研究者提出了一种端到端的编码 - 解码模型「memeBot」,面向任意给定的语句来生成 meme 图。同时在训练的过程中,他们制作出了首个大型 meme 图字幕数据集。memeBot 示意图。memeBot 模型架构图。对于给定输入序列,通过结合模板选择模块(template selection mole)选择的和标签生成 transformer(caption generation transformer)生成的表情包标签来创建新的表情包。附录 A:实验中所用 meme 字幕数据集包括的模版和图像。推荐:在制作沙雕表情包这件事上,AI也略胜一筹。论文 7:Deep Learning with Graph-Structured Representations作者:Thomas Kipf论文链接:https://pure.uva.nl/ws/files/46900201/Thesis.pdf摘要:近日,GoogleAI 大脑团队研究科学家、GCN 作者、阿姆斯特丹大学机器学习博士生 Thomas Kipf 宣布其博士论文《深度学习图结构表征》(Deep Learning with Graph-Structured Representations)可以下载了。在论文中,作者提出了利用结构化数据进行机器学习的新方法,这些方法主要基于结构化表示以及图表示的神经网络模型计算,由此当从具有显式和隐式模块结构的数据学习时可以提升泛化性能。GCN 作者 Thomas Kipf 宣布公开其博士论文(178 页)。论文部分目录。推荐:这篇博士论文涵盖了深度学习领域的一系列新兴主题,如图卷积网络和结构发现等。ArXiv Weekly Radiostation机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:本周 10 篇 NLP 精选论文是:1. A Survey on Dialog Management: Recent Advances and Challenges. (from Yinpei Dai, Huihua Yu, Yixuan Jiang, Chengguang Tang, Yongbin Li, Jian Sun)2. Topological Sort for Sentence Ordering. (from Shrimai Prabhumoye, Ruslan Salakhutdinov, Alan W Black)3. Exploring Controllable Text Generation Techniques. (from Shrimai Prabhumoye, Alan W Black, Ruslan Salakhutdinov)4. CODA-19: Reliably Annotating Research Aspects on 10,000+ CORD-19 Abstracts Using Non-Expert Crowd. (from Ting-Hao 'Kenneth' Huang, Chieh-Yang Huang, Chien-Kuang Cornelia Ding, Yen-Chia Hsu, C. Lee Giles)5. AdapterFusion: Non-Destructive Task Composition for Transfer Learning. (from Jonas Pfeiffer, Aishwarya Kamath, Andreas Rücklé, Kyunghyun Cho, Iryna Gurevych)6. Extracting Headless MWEs from Dependency Parse Trees: Parsing, Tagging, and Joint Modeling Approaches. (from Tianze Shi, Lillian Lee)7. Soft Gazetteers for Low-Resource Named Entity Recognition. (from Shruti Rijhwani, Shuyan Zhou, Graham Neubig, Jaime Carbonell)8. Cross-lingual Entity Alignment for Knowledge Graphs with Incidental Supervision from Free Text. (from Muhao Chen, Weijia Shi, Ben Zhou, Dan Roth)9. TORQUE: A Reading Comprehension Dataset of Temporal Ordering Questions. (from Qiang Ning, Hao Wu, Rujun Han, Nanyun Peng, Matt Gardner, Dan Roth)10. Structured Tuning for Semantic Role Labeling. (from Tao Li, Parth Anand Jawale, Martha Palmer, Vivek Srikumar)本周 10 篇 CV 精选论文是:1. The AVA-Kinetics Localized Human Actions Video Dataset. (from Ang Li, Meghana Thotakuri, David A. Ross, Joo Carreira, Alexander Vostrikov, Andrew Zisserman)2. Adversarial Training against Location-Optimized Adversarial Patches. (from Sukrut Rao, David Stutz, Bernt Schiele)3. Streaming Object Detection for 3-D Point Clouds. (from Wei Han, Zhengdong Zhang, Benjamin Caine, Brandon Yang, Christoph Sprunk, Ouais Alsharif, Jiquan Ngiam, Vijay Vasudevan, Jonathon Shlens, Zhifeng Chen)4. StereoGAN: Bridging Synthetic-to-Real Domain Gap by Joint Optimization of Domain Translation and Stereo Matching. (from Rui Liu, Chengxi Yang, Wenxiu Sun, Xiaogang Wang, Hongsheng Li)5. Dual-Sampling Attention Network for Diagnosis of COVID-19 from Community Acquired Pneumonia. (from Xi Ouyang, Jiayu Huo, Liming Xia, Fei Shan, Jun Liu, Zhanhao Mo, Fuhua Yan, Zhongxiang Ding, Qi Yang, Bin Song, Feng Shi, Huan Yuan, Ying Wei, Xiaohuan Cao, Yaozong Gao, Dijia Wu, Qian Wang, Dinggang Shen)6. CONFIG: Controllable Neural Face Image Generation. (from Marek Kowalski, Stephan J. Garbin, Virginia Estellers, Tadas Baltruaitis, Matthew Johnson, Jamie Shotton)7. Self-Supervised Human Depth Estimation from Monocular Videos. (from Feitong Tan, Hao Zhu, Zhaopeng Cui, Siyu Zhu, Marc Pollefeys, Ping Tan)8. Occlusion resistant learning of intuitive physics from videos. (from Ronan Riochet, Josef Sivic, Ivan Laptev, Emmanuel Dupoux)9. Multi-Head Attention with Joint Agent-Map Representation for Trajectory Prediction in Autonomous Driving. (from Kaouther Messaoud, Nachiket Deo, Mohan M. Trivedi, Fawzi Nashashibi)10. Enhancing Geometric Factors in Model Learning and Inference for Object Detection and Instance Segmentation. (from Zhaohui Zheng, Ping Wang, Dongwei Ren, Wei Liu, Rongguang Ye, Qinghua Hu, Wangmeng Zuo)本周 10 篇 ML 精选论文是:1. Partially-Typed NER Datasets Integration: Connecting Practice to Theory. (from Shi Zhi, Liyuan Liu, Yu Zhang, Shiyin Wang, Qi Li, Chao Zhang, Jiawei Han)2. Time Dependence in Non-Autonomous Neural ODEs. (from Jared Quincy Davis, Krzysztof Choromanski, Jake Varley, Honglak Lee, Jean-Jacques Slotine, Valerii Likhosterov, Adrian Weller, Ameesh Makadia, Vikas Sindhwani)3. Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture. (from Christopher Brix, Parnia Bahar, Hermann Ney)4. Interpreting Rate-Distortion of Variational Autoencoder and Using Model Uncertainty for Anomaly Detection. (from Seonho Park, George Adosoglou, Panos M. Pardalos)5. Physics-informed neural network for ultrasound nondestructive quantification of surface breaking cracks. (from Khemraj Shukla, Patricio Clark Di Leoni, James Blackshire, Daniel Sparkman, George Em Karniadakiss)6. Bullseye Polytope: A Scalable Clean-Label Poisoning Attack with Improved Transferability. (from Hojjat Aghakhani, Dongyu Meng, Yu-Xiang Wang, Christopher Kruegel, Giovanni Vigna)7. Plan2Vec: Unsupervised Representation Learning by Latent Plans. (from Ge Yang, Amy Zhang, Ari S. Morcos, Joelle Pineau, Pieter Abbeel, Roberto Calandra)8. Demand-Side Scheling Based on Deep Actor-Critic Learning for Smart Grids. (from Joash Lee, Wenbo Wang, Dusit Niyato)9. APo-VAE: Text Generation in Hyperbolic Space. (from Shuyang Dai, Zhe Gan, Yu Cheng, Chenyang Tao, Lawrence Carin, Jingjing Liu)10. EDD: Efficient Differentiable DNN Architecture and Implementation Co-search for Embedded AI Solutions. (from Yuhong Li, Cong Hao, Xiaofan Zhang, Xinheng Liu, Yao Chen, Jinjun Xiong, Wen-mei Hwu, Deming Chen)

藏尸楼

阿尔伯塔大学博士毕业论文:基于图结构的自然语言处理

机器之心发布机器之心编辑部自然语言处理(Natural Language Processing)是人工智能的核心问题之一,旨在让计算机理解语言,实现人与计算机之间用自然语言进行通信。阿尔伯塔大学(University of Alberta)刘邦博士在他的毕业论文《Natural Language Processing and Text Mining with Graph-Structured Representations》中,对基于图结构(graph-structured representations)的自然语言处理和文本挖掘进行了深入研究。这篇博士论文将自然语言处理和文本挖掘的多个核心任务与图结构的强大表示能力结合起来,从而充分利用深度学习的表示能力和文本中的结构信息来解决诸多问题:(1)组织信息(Information Organization):提出了基于树/图结构的短文本/长文本对的分解算法以提高语意匹配任务(semantic matching)。基于文本匹配,进一步提出事件粒度的新闻聚类和组织系统 Story Forest;(2)推荐信息(Information Recommendation):提出了 ConcepT 概念挖掘系统以及 GIANT 系统,用于构建建模用户兴趣点以及长短文本主题的图谱(Ontology)。构建的兴趣图谱 Attention Ontology 有助于对用户与文本的理解,并显著提高推荐系统的效果;(3)理解信息(Information Comprehension):提出了 ACS-Aware Question Generation 系统,用于从无标注的文本中生成高质量的问答对,大大降低问答系统的数据集构建成本,并有助于提高阅读理解系统的效果。论文链接:https://sites.ualberta.ca/~bang3/files/PhD-Thesis.pdf引言自然语言处理(NLP)旨在读取和理解未结构化的自然语言文本来完成不同的任务。「如何表示文本」以及「如何进行计算」是其中的两个核心问题。早期的 NLP 研究中,利用 bag-of-words 模型表示文本,通过统计不同单词的频次来形成文本的向量表示,同时结合统计方法进行文本处理,这丢失了文本的词序信息以及单词之间的联系,本质上是用 one hot encoding 来表示每个单词;在深度学习中,研究者根据单词的共现来学习词向量,每个单词由一个 dense vector 表示,语意相似或联系紧密的词在向量空间中距离更小,再结合 RNN 模型(LSTM,GRU 等)进行文本编码完成各种任务;其后又有研究工作将文本类比图像,编码形成矩阵表示,结合 CNN 类模型进行计算;近年来,预训练语言模型,利用自监督学习训练各类大型语言模型,从而给单词或文本赋予上下文敏感的(context-sensitive),多层的语义向量表示,其采用的模型是多层的 Transformer。自然语言的形式及其语意具有层次性(hierarchical),组合性(compositional)和灵活性(flexible)。已有的研究并未充分利用各类文本中存在的语义结构。图(graph)是一种通用且强大的表示形式,可以表达各种不同对象以及它们之间的联系,无论是在自然语言处理,还是在社交网络,现实世界等各种场景都无处不在。本论文在深度学习强大的表示学习能力的基础上,设计并结合了不同的文本的图结构化表示,并利用图结构计算模型,例如图神经网络(Graph Neural Networks), 去解决不同的自然语言处理和文本挖掘问题。论文包含三大部分:第一部分介绍了文本的聚类和匹配,提出各类匹配问题的结构化算法,并进一步提出 Story Forest 系统用于新闻事件的聚类组织和结构化表示。该系统落地到腾讯 QQ 浏览器热点事件挖掘。第二部分关注文本挖掘,提出了 Attention Ontology 兴趣图谱,挖掘和描述用户不同粒度的兴趣点,建立不同兴趣点之间的联系,并可用于刻画文章主题。这部分工作显著提高了 QQ 浏览器,手机 QQ,微信等应用中的信息流推荐系统的效果。第三部分关注文本生成,提出了 ACS-QG 系统,自动从无标注文本中生成高质量的问答对,可用于问答系统的训练,有助于大大减少数据集创建成本,以及提高机器阅读理解的能力。图 1. 文本表示形式以及计算模型的演化图 2. 论文的组成框架第一部分:文本的匹配与聚类第三章 Story Forest 事件聚类组织系统在信息爆炸的年代,查询并找到有价值的信息,对用户而言并不是非常简单的任务。目前的搜索引擎或者信息流服务,会给用户提供一个文章列表。这些新闻文章会包含大量冗余信息,缺乏结构化的组织。本文提出 Story Forest 系统,对新闻文章做事件(event)粒度的聚类,使得报道同一个现实中的事件的不同文章聚类成一个节点,相关联的事件形成结构化的故事树(story tree), 来表征关联事件之间的时间顺序和发展关系。图 3.「2016 年美国总统大选」的故事树,树中的每一个节点代表一个事件已有的文本聚类方法不能很好地对文章进行事件粒度的聚类效果。本文提出 EventX 聚类算法,它是一种双层聚类算法:在第一层聚类中,利用所有文章中的关键词,形成关键词网络(Keyword Graph)并对其进行图分割,分割后的每一个关键词子图,代表一个大的话题,再利用相似度将每篇文章分配到一个最相似的关键词子图之下;在第二层聚类中,每一个关键词子图下的文章形成一个文章图(doc graph), 相连的边代表两篇文章讲述同一个事件,再对文章图进行社区检测(community detection),从而做了第二次聚类。每一个文章子图里的文章代表一个事件。通过双层聚类,即可以对文章对之间做细粒度的语义比较,又可以控制时间复杂度。在得到事件聚类之后,不同的事件节点通过故事结构组织算法,在线插入到已有的故事树中形成故事结构。如果一个事件不属于任何已有的故事树,则形成一个新的故事。图 4. Story Forest 系统以及 EventX 聚类算法第四章 基于图分解和图卷积的长文本匹配文本匹配是判断两个文本之间的关系或者相关度,是 NLP 中的核心问题,有很多的任务其核心都可视为一个文本匹配任务。根据匹配的源文本和目标文本的长短,我们可以将文本匹配任务分成四大类:长文本匹配任务,例如 Story Forest 系统中,一个核心的任务是判断两个文章是否在讲同一个事件;短-长文本匹配,例如输入 query 搜索匹配的文章;短文本匹配,例如问答对匹配,句子对相似度衡量等;长-短文本匹配,例如文本主题分类等等。图 5. 根据源文本和目标文本的长短,将不同文本匹配任务分成四类本章专注于长文本匹配任务,这是很重要的研究问题,然而在此之前,很少的研究工作专注于此。已有的算法基于 Siamese Neural Network 或者 CNN 来编码句子对或者句子之间的交互,无法很好的处理长文本匹配的任务。因为长文本的长度,导致计算复杂度较高;语言的灵活性,导致文本对之间对应的内容难以对齐;同时编码器也难以准确地编码长文本的语义。本文提出 Concept Interaction Graph 用于分解一篇或者一对文章。其主要思想是「化整为零,分而治之」。CIG 中的每个节点包含几个高度关联的关键字,以及和这些关键字高度相关的句子集。当进行文本对匹配时,每个节点包含来自两篇文章的两个句子集。这样,多个节点代表了两篇文章中的不同的子话题,并囊括了文章中的一部分句子并进行了对齐。节点之间的边代表不同子话题之间的联系紧密度。图 6. 根据文章构建 Concept Interaction Graph 的 toy example基于 Concept Interaction Graph,论文进一步提出通过图神经网络(Graph Neural Networks)对文本对进行局部和全局匹配。具体而言,对每个节点上的文本对,利用编码器进行局部匹配,从而将长文本匹配转化为节点上的短文本匹配;再通过图神经网络来将文章结构信息嵌入到匹配结果中,综合所有的局部匹配结果,来得到全局匹配的结果。图 7. 基于 Concept Interaction Graph 和图卷积神经网络的长文本匹配第五章 基于层次化分解和对齐的短文本匹配对于短文本匹配,论文提出了层次化句子分解(Hierarchical Sentence Factorization)来将句子分解为多层的表达,每一层都包含完整的所有单词,并且语句重排列为「predicate-argument」的顺序。随着层数的增加,一个句子逐渐被分解为更加细粒度的语义单元。因此,利用这种多层次,重排序的句子表示,我们可以对齐两个句子,并结合不同的语义粒度去比较他们的语义距离。图 8. 基于层次化句子分解(Hierarchical Sentence Factorization)的句子匹配这种句子分解技术利用了 Abstract Meaning Representation 来对句子做 semantic parsing。然后,它通过一系列的操作,使得每一层都包含句子中的所有单词。对于每一个语义单元,都是谓词(predicate)在前,参数(argument)在后。这种表示充分展现了自然语言的层次性,组合性,并利用归一化的词序来克服自然语言表达的灵活顺序。基于句子的层次分解,论文进一步提出无监督的 Ordered Word Mover's Distance, 结合了最优传输理论的思想去建模句子之间的语义距离。其效果经试验验证显著优于 Word Mover's Distance。同时,论文也提出了将句子的多语义粒度表达,应用于不同的文本匹配模型中,例如 Siamese Neural Networks 中。实验证明,多粒度的匹配效果,显著优于只利用原句进行匹配的效果。第二部分:文本挖掘第六章 ConcepT 概念挖掘系统概念蕴涵了世界的知识,促进了人类的认知过程。从文档中提取概念并构建它们之间的联系对于文本理解以及下游任务有着重要的作用。认识「概念」(concept)是人类认识世界的重要基石。例如,当看到本田思域(Honda Civic)或者现代伊兰特(Hyundai Elantra)时,人们可以联想到「油耗低的车」或者「经济型车」这类的概念,并且能进而联想到福特福克斯(Ford Focus)或者尼桑 Versa(Nissan Versa)等车型。图 9. 人类能对事物进行概念化并产生联想过去的研究工作,包括 DBPedia, YAGO, Probase 等等知识图谱或者概念库,从维基百科或者网页文章中提取各种不同的概念。但是这样提取的概念和用户的认知视角并不一致。例如,与其认识到丰田 4Runner 是一款丰田 SUV 或者说是一种汽车,我们更感兴趣是否能把它概念化为「底盘高的汽车」或者「越野型汽车」。类似地,如果一篇文章在讨论《简爱》,《呼啸山庄》,《了不起的盖斯比》等电影,如果我们能认识到它在讨论「小说改编的电影」这个概念,那么会帮助极大。然而,目前的知识图谱等工作目的是建立一个关于这个世界的结构化知识表示,概念提取自语法严谨的文章。因此,它们不能从用户的视角去对文本(例如 query 和 document)进行概念化,从而理解用户的意图。另一方面,目前的工作也主要在于提取长期稳定的概念,难以提取短时间出现的热门概念以(例如「贺岁大片」,「2019 七月新番」)及它们之间的联系。我们提出了 ConcepT 概念挖掘系统,用以提取符合用户兴趣和认知粒度的概念。与以往工作不同的是,ConcepT 系统从大量的用户 query 搜索点击日志中提取概念,并进一步将主题,概念,和实体联系在一起,构成一个分层级的认知系统。目前,ConcepT 被部署在腾讯 QQ 浏览器中,用以挖掘不同的概念,增强对用户 query 意图的理解和对长文章的主题刻画,并支持搜索推荐等业务。目前它已经提取了超过 20 万高质量的基于用户视角的概念,并以每天挖掘超过 11000 个新概念的速度在不断成长。ConcepT 系统的核心算法架构同样适用于英语等其他语言。图 10. ConceptT 概念挖掘流程:从用户搜索点击日志中挖掘概念ConcepT 系统还可以用于给文章打上概念标签。主要包含两种策略:基于匹配的标记算法和基于概率推断的标记算法。图 11. ConcepT 文章标记流程:将文章打上关联的概念标签图 12. ConcepT 系统从用户搜索 query 中提取的概念展示图 13. 在线 A/B test 结果。ConcepT 系统对 QQ 浏览器信息流业务各项指标有明显提升。其中最重要的指标曝光效率(IE)相对提升了 6.01%。图 14. ConcepT 系统对文章打上概念标签。目前每天可处理 96700 篇文章,其中约 35% 可以打上概念标签。我们创建了一个包含 11547 篇文章的概念标记数据用以评测标记的准确率。人工评测发现,目前系统的标记准确度达 96%。第七章 用户兴趣点建模 Attention Ontology上一章中,我们介绍了概念挖掘系统。为了更加全面的刻画用户兴趣点,我们进一步挖掘包括概念(concept)和事件(event),话题(topic)等等在内的多种短语,并和预定义的主题(category)以及实体库中的实体(entity)等形成上下位等关系。我们将这个包含多种节点,多种边关系,用于用户兴趣点或关注点建模的图谱命名为 Attention Ontology。图 15. Attention Ontology,包含五种节点,代表不同语义粒度的用户兴趣点;三种关系,代表节点之间的上下位,包含,以及关联。Attention Ontology 可以解决「推荐不准」和「推荐单调」的问题。例如:当一个用户看了关于「英国首相特蕾莎梅辞职讲话」的文章后,目前基于关键词的推荐系统可能会识别关键词「特蕾莎梅」,从而推荐给用户很多关于特蕾莎梅的文章。然而这大概率并不是用户的兴趣点。这是「推荐不准」的问题,原因在于系统中缺乏或无法识别合适粒度的兴趣点。另一方面,系统也可能继续推荐更多关于「英国首相特蕾莎梅发表演讲」的文章,这些文章与用户已经浏览过的文章产生了冗余,无法带给用户更多有价值的信息,因此用户也不感兴趣。这是「推荐单调」的问题,而这个问题的本质在于缺乏不同兴趣点之间的联系。Attention Ontology 中包含不同粒度的用户兴趣点,并且不同的节点之间有边来表示它们之间的联系。例如根据 Attention Ontology,我们可以认识到「特蕾莎梅辞职讲话」是和「英国脱欧」这一中等粒度的兴趣点相关的。如果用户浏览了「英国脱欧」这一兴趣点下的不同事件的文章,我们便可以识别出用户不是关注「特蕾莎梅」这个人或者「特蕾莎梅辞职演讲」这一个特定事件,而是关心「英国脱欧」这一话题。而另一方面,知道了用户关注这一话题之后,利用不同兴趣点之间的联系,我们可以给用户推荐相关的文章,从而解决推荐不准和推荐单调的问题。为了挖掘不同性质的短语,如概念和事件短语,论文提出了 Query-Title Interaction Graph(QTIG)用于建模 query 文章 title 之间的联系。这种表示结构将不同 query 和 title 之间的对齐信息,词的 tag,词之间的距离,语法依赖等等信息嵌入在节点特征和边的特征中。利用这种表示,论文进一步提出 GCTSP-Net 模型,将短语挖掘问题建模为「节点分类+节点排序」的问题。该模型对 QTIG 进行节点二分类,抽取出属于目标短语的词;再将节点排序建模为一个旅行商问题,寻找一个最优路径将所有的分类为正的节点进行排序。按照得到的路径,将分类为正的节点串联起来,便得到了输出短语。图 16. Query-Title Interaction Graph. 图中绿色节点为属于输出短语的词。每一个节点代表 query 或 title 中的一个独特的词,边代表两个词相邻或者存在语法依赖。论文设计并实现了构建 Attention Ontology 并将其应用在不同应用中的 GIANT 系统。GIANT 系统包含几大模块:首先,根据用户的搜索 query 和点击日志形成的二分图,来进行聚类得到不同的 query-doc clusters。每个 query-doc cluster 包含一个或多个相似的 query,以及他们的 top 点击的文章。对每一个 query-doc cluster, 我们将其转化为 Query-Title Interaction Graph 表示,并利用 GCTSP-Net 抽取潜在的短语。接下来,我们再利用不同的算法去抽取不同短语之间的关系,形成 Attention Ontology。最后,利用 Attention Ontology 去实现多种应用,包括文章的 tagging,query 的概念化,文本的聚类组织等。同时,Attention Ontology 中的节点可用于在用户画像中描述用户的兴趣点。这样可以提高用户和其感兴趣的文章之间的匹配,从而提高推荐系统的效果。图 17. GIANT 系统架构第三部分:文本生成第八-九章 问答对自动生成问题生成是一种非常重要的文本生成问题,它可以应用在问答系统的训练数据生成,对话系统,教育等等应用中。图 18. 问题生成的不同应用及重要性已有的问题生成系统一般给定一句话和一个答案,要求系统生成某个特定的问题。这种系统属于 answer-aware question generation 系统。然而,它们生成的问题质量并不够好。一个核心问题在于,给定输入的句子和一个答案,我们能问出多个不同的并且合理的问题,是「一对多匹配(one-to-many mapping)」,而训练集中每个输入只有一个标准答案,是「一对一匹配(one-to-one mapping)」。图 19. 根据同样的输入可以问不同的问题本文提出 answer-clue-style aware question generation(ACS-QG)任务,将人提问的过程建模成四步:第一,根据输入选择一部分作为答案(answer);第二,选择一部分和答案相关的信息作为线索(clue)在问题中复述或转述;第三,根据答案选择问题的种类(style),例如 who, where, why 等等,共 9 种;第四,根据输入的句子和以上三种信息(答案 answer,线索 clue, 问题种类 style),生成问题。图 20. 根据输入生成问题的过程问题生成的过程可以从语法树的角度去观察:选择答案片段就像是从语法树中覆盖了一部分信息,而选择线索片段(clue)的过程就是在覆盖的信息附近,选择一部分节点作为提示输出到问题中。图 21. 利用语法树建模问题生成过程本文提出的 ACS-QG 系统,可以从无标注的句子中,生成高质量的问答对数据。它由以下模块组成:数据集创建模块,可以从目前已有的问答数据集(例如 SQuAD)中,创建 ACS-QG 任务的训练数据集;输入选择模块,可以从无标注的句子中,合理的选择和创建(answer, clue, style)三元组作为问题生成的输入;问题生成模块,可以利用输入三元组生成问题,这个模块的训练数据来自于第一个数据集创建模块;质量控制模块,用于过滤低质量的问答对。图 22. ACS-QG 问题生成系统实验证明,ACS-QG 系统能生成大量高质量的问答对,并且效果显著优于一系列已有的问题生成算法。第十章 结论和未来工作本论文利用图结构建模了一系列 NLP 问题中的文本数据,并结合深度学习模型,提高了多种任务的效果。论文中的各种研究,对信息的聚类组织,推荐,以及理解有着重要的意义。未来的研究方向包括:长文本理解,多任务协同学习,以及通用的基于图结构的表示,学习与推理。本论文中的研究已经发表在 SIGMOD,KDD,ACL,WWW,TKDD,CIKM 等各类 top conference 中,论文列表可在作者个人主页找到:https://sites.ualberta.ca/~bang3/publication.html

流浪汉

《博士生写作手册》:一本通用的博士论文写作“秘籍”

你对自己博士论文的前景感到不知所措吗?你担心博士学位的学习会占据你整个生活吗?也许,你正需要这样一本手册,一本能帮助你更清晰地思考,更有效地与读者交流的写作秘籍——《博士生写作手册》。该书由新华出版社于近日正式出版,是针对各学科领域博士生的论文写作指导用书。作者戴斯蒙德·托马斯现为英国埃塞克斯大学教授、英语教学研究所主任,十多年来为博士研究生讲授写作技巧课程。他在本书中针对博士论文写作的各阶段进行了系统而细致的指导,从确定研究主题、探索关键概念、搭建理论框架、完成全稿,再到形成自己的学术风格,逐一给出解释和建议。书中每一章都有研究人员的见解,以及实践任务和自我评估练习,帮助读者掌握每一个阶段的技巧。对于来自不同学科的论文写作者来说,这是非常宝贵的写作秘诀。《博士生写作手册》[英]德斯蒙德·托马斯 著李腊花 陈龙 译ISBN:978-7-5166-5041-7新华出版社 2020年12月定价:49.00元原文转自:新华出版社

杜弼

毛寿龙:博士论文的写作基础和方法

每年5月,都是博士论文的答辩季。每年很多博士生参加答辩。看到好的博士论文,导师们会爽心悦目、浑身通透、连连叫好,但看到不好的博士论文,往往会让导师看得气血凝滞、呼吸不畅,甚至看论文都要看到吐。那么如何写好博士论文呢?笔者认为,做到如下两点,就会有很好的博士论文。一、博士论文的写作基础要好如果说托儿所、幼儿园的学前教育是成长,小学、中学是打基础,大学是学专业基础,研究生开始专业研究,博士生则是真正开始了专业的学术研究。博士生,既然是叫博士,首先就要有比较博的基础。本专业的本科基础、硕士基础肯定是要补的。基础要扎实。在博士阶段,本专业的基础要扎实,而且还需要了解相关专业,尤其是人文学科基本情况。有扎实的人文学科的基础,如果还有自然科学的基本知识,尤其是有很好的数学、逻辑学的修养,会更好。具体地说,相关的名著,有很好的阅读基础。人类文明的基本的名著,都能够阅读,并且知道其中的核心思想。这样,可以给博士生的研究,奠定一个非常好的基础。我个人认为,一定要阅读至少100本名著,才会有比较好的学习基础。在此基础上,博士生最好对三个研究领域,有非常好的专业基础。了解其基本的文献、知道其基本的进展,能够有比较好的学术训练基础。在此基础上,博士生在自己的博士研究选题领域,熟练掌握基本的文献,并可以以基本文献为基础,知道这些基本文献的优势和进一步可能提升的方向,形成自己的理论思维,形成自己的理论框架,形成自己的学术贡献。在这一切都做好准备之后,博士生需要熟练地掌握和运用相关的研究方法,并形成方法的设计,搜集实证的资料,包括案例和数据,并付诸实施。二、博士论文的写作要求在写作的时候,需要把握如下各个方面:导言部分,有清晰的研究背景,包括掌握的实际材料的总体把握,和文献资料的总体把握,并在此基础上形成自己要研究的实际问题和学术问题。提出实际问题和学术问题之后,需要对此进行系统的现有文献的梳理,为自己的博士论文研究提供相关的研究基础,不仅仅要提出一般性的研究缺陷,更重要的是为自己的研究寻找文献的基础,如果有缺陷,则要找自己的研究能够提出贡献的缺陷,否则不是博士论文需要解决的缺陷。在文献基础上,需要进行研究设计。包括研究方法设计和理论分析框架的设计。这些都可以有单独的文献基础,为自己的研究方法设计和理论分析框架设计,提供基础。不仅仅为博士论文的研究提供方法和理论分析框架,还需要提出方法论和理论贡献的方向。包括回应方法论的,和理论的问题。正文部分,则是根据论文的需要,进行案例分析。可以单案例分析,也可以多案例分析。也可以进行数据模型分析。当然也可以进行其他质性分析。这里需要注意的是,让论文主体部分有一个比较好的逻辑框架,自成一体,自圆其说。最后是结论部分。回顾总结整个核心论文。回应导言部分的背景探讨,研究是不是“应景”。也要在此总结和提升导言部分的文献基础和方法论基础。是不是做到了进一步的提升。论文的研究,还可以在哪些方面进行进一步的努力。现在很多有瑕疵的博士论文,形式上的问题,一般都是研究问题不太清楚或者缺乏聚焦,文献不是很有关系,研究方法缺乏设计,理论分析框架缺乏提升,正文部分缺少逻辑,结语部分缺乏回应。这是论文的通病。需要注意。有一个很好的基础,然后又有十分圆满的论文研究思路和写作框架,在写作中能够从背景中直接切入要研究的实际问题和理论问题,并在文献的基础上进行研究方法的设计、理论分析框架的塑造,有充分的研究资料,到处都有各自的文献和实际材料的支持,有富有逻辑的正文写作,到结语又有非常凝练的干货,对提出的实际问题和理论问题有一个简单扼要的切中要害的回应,对现有文献和研究方法也有提升,知道自己的核心学术贡献,以及进一步提升研究的方向。这样的论文,导师们看了肯定会精神大好,答辩委员会看了也会精神抖擞,搞不好评个优秀论文,为今后的学术生涯奠定一个非常坚实的学术起点。按照这个要求,我个人认为奥斯特罗姆教授《公共事物的治理之道》一书是一个非常好的模版。大家可以学习模仿。编辑:Karlcelia,联系邮箱:maoshoulong@ruc.e.cn毛寿龙,中国人民大学公共管理学院公共财政与公共政策研究所教授,公共政策研究院(IAPP-ruc)执行副院长,北京市海淀和谐社区发展中心理事长,深圳大学城市治理研究院学术委员。Shelter and food

美容店

90后在读博士帮你捋清论文写作思路!金字塔原理优化行文结构

来源:募格课堂 作者:雅丹宝宝,90后在读博士,乐观开朗,积极向上,是一只奋斗在科研路上的小蜗牛。学术论文,它不仅是硕博学生呈现给导师、外审专家、同行的科研成果,更是一个体现作者思维的过程。对于这一过程,我们的理想状态是“想清楚、说明白、知道写什么、怎么写”。但是,在现实中,硕博论文往往出现问题意识不强、思维不明晰、材料堆积、观点罗列等问题。究其原因,首先是“没想清楚”带来了思维混乱,而思维混乱进一步导致了“写不明白”。也就是说,“想清楚、写明白”是这一思维过程的关键。要如何才能做到呢?《金字塔原理》为我们提供了理清思路、高效写作的方法。一、为什么要用金字塔原理进行硕博论文写作简单的说,金字塔原理就是,一切论述都围绕“塔尖”的中心论点展开,这就好比硕博论文,通篇都是围绕所研究的核心问题、核心论点展开。进一步的,金字塔原理在总体结构、内部结构等更为细致的方面,也为硕博论文写作提供了借鉴。(一)金字塔原理的总体结构与硕博论文写作契合 从总体上来看,金字塔原理可以概括为4个方面:第一,结论先行,即文章只有一个中心思想,并且放在文章的最前面;第二,以上统下,即每一层次上的思想都是对相对应的下一层次思想的总结和概括;第三,归类分组,即每一组的思想必须属于同一逻辑范畴;第四,逻辑递进,即每一组中的思想必须按照逻辑顺序排列。而这种结论先行、自上而下的表达,纵向总结概括、横向归类分组的方式,是硕博论文阐述、论证研究问题的有效途径。(二)金字塔原理的内部结构与硕博论文写作契合 金字塔的内部结构,首先表现为不同层级,通过疑问/回答式对话,将阐述的思想纵向相关;其次表现为横向上的分组,各组思想按逻辑顺序形成横向关系,以演绎推理/归纳推理的方式回答上一层次的疑问。其形式大体如下:上图这种清晰的表达,符合硕博论文的写作要求,即围绕研究主题,对思想进行组织,纵向提出疑问、横向对其回答。与此同时,横向上不仅要回答上一层次引出的论点,还要保证符合逻辑。二、“想明白”——如何构建金字塔结构的硕博论文构建金字塔结构的硕博论文,需要遵循“界定问题——结构化分析问题——分析/找到解决方案——组成金字塔结构进行论述”的思路,即是否有问题?问题在哪?为什么这个问题会存在?应该怎么做?并将以上的思维过程,组成金字塔结构进行论述。(一)如何界定问题?问题,是现状与目标之间的差距。但是这个“差距”并不是凭空产生的,而是源于某一背景,即在一系列的条件下产生。在硕博论文写作之前,围绕研究主题收集的材料,阐述研究背景,但是在背景之中我们看到了非理想现象(R1),而我们的期望结果是(R2),如何从R1到R2就构成了我们的研究问题。(二)如何结构化的分析问题?“结构化分析问题”,是从“界定问题”到“找到解决方案”的中间环节,通过此阶段,可以找到问题产生的原因。在分析原因的过程中,要带有一定的“方向感”,也就是对可能的原因进行假设,以此为切入点对问题进行分析。伴随着材料的收集,证明这些假设原因是否能够确立。(三)如何找到解决方案?“解决问题只不过是通过对问题的表述,使解决方案不言自明”。所以,解决方案源于前文对问题进行不断的逻辑分析的过程。通过分析,展现导致非期望结果(R1)的内在结构,如果问题是该结构造成的结果,那么,解决方案就在于对该结构进行调整。(四)如何组成金字塔结构进行论述?金字塔结构的硕博论文,主要包括:引出核心研究问题的序言、纵向上疑问/回答式的对话、横向上演绎/归纳推理。首先,思考序言的叙述方式,即引出核心研究问题的方式要符合思维逻辑,并引发下文需要论述的疑问;其次,明晰纵向上主题与子主题之间的关系,引导疑问/回答式对话;最后,阐述横向上各层级子主题之间的关系,进行逻辑。三、“写清楚”——论文序言及主体的具体写法序言和主体是一篇硕博论文的主要组成部分,如果能够对这两部分进行清晰、细致的阐述,将能够回答文章的核心问题,而结论自然是水到渠成的。那么,如何将其写清楚?(一)论文序言的具体写法 序言的撰写,应遵循“背景——冲突——疑问——答案”的思路,在具体的写作中,四者的顺序是可以根据需要进行调整的。序言的写作可以如下图所示:背景描述:阐述与文章主题相关的内容,但其应具有一个重要的特征,即能够将关键点锁定在特定的时间、空间,在特定背景中提出冲突。冲突:某种不利的、非预期的变化,为提出疑问奠定了基础。疑问:接下来会怎么样?是整篇文章需要回答的问题。答案:提出对上述疑问的回答,并依据金字塔原理纵、横构建全文结构。(二)论文主体的具体写法纵横结构:论文主体部分,其实就是对序言部分“初始疑问”的具体回答、对“答案”的具体阐述,主要通过纵、横结构展开。纵向上,从初始疑问出发,通过疑问/回答的方式,层层提出疑问。并且,上一层次是对下一层次思想的概括、总结,下一层次是对上一层次思想的解释、支持。对纵向上提出的层层疑问,需要横向结构进行回答。并且,横向上的每一组的思想,都必须属于同一逻辑范畴,比如是原因分析,则必须各要素是一致的原因分析。标题:硕博论文属于体量较大的文章,需要通过标题进行清晰表述,一般情况下,通过各级标题形成的目录,可以展示全文的主要思想和分析逻辑。在具体写作中,需要注意以下三点:第一,标题代表了该组横向结构的整体思想,组中的所有思想需要共同解释、支持标题;第二,标题提炼精髓,应简明扼要,并且,相同的观点、建议等,使用相同的句型;第三,每组标题应提前集中介绍,即大标题下应有一段话,集中介绍下面标题的主要内容。行文:具体到每一段的书写,需要注意行文结构,其主要包括:各部分之间的承上启下、上下文之间的过渡、文末总结。承上启下主要是,总结前一部分中的中心思想,和下一部分的主要论点相结合,并用在下一部分的起始句中;上下文之间的过渡主要是,用简短的文字介绍每一关键句要点,明晰已经论述和下一步论述内容,也保证了论点与论点之间的连接流畅;文末总结,即阐明所传达的重要性信息。总的来看硕博论文就是将解决问题的思维的过程进行呈现,我们依据一定的原理进行构建、书写,不仅有助于高效、优质的完成论文写作,也将助力于系统思维的形成。金字塔原理的应用,可以体现在论文整体构建、逐层分析、字里行间等各个方面,从而有助于将硕博论文“想清楚、写明白”。

阿拉亚

如何出炉一篇SCI的初稿

作为一名博士,SCI论文是我无法避开的一个话题,也是众多硕博研究生无法避开的痛。小编近期出炉的稿子幸运地中了二区的期刊,为此近期在课题组中讲解如何撰写学术论文。所以,小编整理以后分享给大家参考。(由于小编攻读的是理学博士,本文仅从理工科角度撰写)1 前言在我们开始撰写论文之前,小编不得不说的一些就是,大家知道什么是SCI么?知道论文期刊的等级又怎么划分么?所以,在我们撰写SCI论文之前,我们必须了解什么是SCI,它是个什么东西。SCI是指《科学引文索引》,英文名Science Citation Index, 简称 SCI ,是国际公认的进行科学统计与科学评价的主要检索工具,这就是SCI的由来。众所周知,博士毕业需要有小论文以后才能毕业,而国内稍微好些的学校和科研机构对博士毕业所需小论文的要求基本是多少篇SCI起,这也是为什么土博士们对SCI孜孜不倦的追求了。接下来我们切入主题。2 确定论文题目关于如何确定论文的题目,不同学科背景下的学者们状态不一。就小编了解,很多学者是在初稿完成以后而确定的主题,也有些是确定主题后才开始的研究工作。这两者之间各有千秋,众所周知,理工科的实验结果有着太多的不确定性,按照前期的思路完成实验以后,会发现结果与预期结果南辕北辙,而在实验的过程中,往往是把论文中结果讨论与分析部分顺带完成了,这也是为什么许多学者在所有工作完成以后,才确定题目。无论如何,小编认为,我们在开展工作的前期需要有一个中心思路,了解我们是为了解决什么工作而开展的这项科研工作,在我们所有数据完成处理,并且完成了数据结果分析以后在确定论文的题目。3 文章框架这里,小编就按照理工科最常见的框架给大家介绍。摘要(Abstract)摘要部分主要是对全文的概况,主要是需要写的是目的、方法、结果以及意义。大多期刊的要求是350 words以内,所以各位在尽可能写清楚的同时,要精简句子。可以在最后写。2.引言(Introction)引言可谓是文章的门面,是文章的重头戏,如果引言写得不够好的话,那么大概率论文是要被拒稿。那么引言主要包括了:研究对象,研究现状,提出你的问题,研究意义。引言的撰写上一定要根据研究现状提出自己的问题,在研究现状的撰写上需要注意文章的引用以及在逻辑上的环环相扣和徐徐递进,一定要条理清晰,从而引出你的问题。3.方法(Methods)方法的介绍上应该侧重在自己所提方法,或者核心方法上,引用别人的方法尽量是引用文献一带而过,因为引用的更不容易犯错。小编遇到过一个审稿人,从头到尾给你推了一遍公式,然后告诉你的公式推错了。论文中应该尽量避免这种错误。4.结果(Results)关于文章数据处理、结果讨论部分,由于不同学科不太一样,这里就不再细说。但是对于结果,尤其是以图像和表格形式展示的,应该说明如何得到的,然后再对其分析。5.讨论(Discussion)讨论部分也是论文中比较难写的一部分了,小编在这里也是比较的迷糊了。这里,小编借用上次一个审稿人给的意见,讨论不仅仅是对自己结果的分析,更应该有引用与他人研究对比,而且不应该是只突出自己的优势,也需要说明自己的局限性以及对未来工作的展望。6.总结(Conclusion)总结部分应以简单的句子概况本文所做的工作,得到的结果以及优势,不能过于繁琐,需要与摘要相呼应。7.参考文献(Reference)参考文献不多说,推荐一个软件,Endnote,个人觉得不错,大家可以试试。(仅从小编个人经验出发,如有有疑惑欢迎留言交流)

鲫蛆甘带

4种主流API架构风格对比

本文主要讨论了四种 API 架构的风格,阐述了各自的优缺点,并介绍了每种API架构适合的情况。两个单独的应用程序需要中介程序才能相互通信。因此,开发人员经常需要搭建桥梁——也就是应用程序编程接口(API),来允许一个系统访问另一个系统的信息或功能。为了快速、大规模地集成不同的应用程序,API 使用协议或规范来定义那些通过网络传输的消息的语义和信息。这些规范构成了 API 的体系结构。在过去,人们已经发布了多种不同的 API 架构风格。每个架构风格都有它独有的标准化数据交换的模式。这一系列的 API 架构风格的选项,引发了大量的关于哪种架构风格才是最好的争论。不同时间的 API 架构风格,图源:Rob Crowley今天,许多 API 的使用者将 REST 称作“消亡的 REST”(REST in peace),并且为 GraphQL 感到欢欣鼓舞。而十年前,又完全是另一幅光景:REST 是替代 SOAP 的赢家。这些观点的问题在于,它们的出发点只是为某种技术背书,而不是去考虑它实际的属性和特性如何与当前的需求相匹配。四种 API 架构风格01RPC:调用另一个系统的函数远程过程调用是一种允许在不同上下文中远程执行函数的规范。RPC 扩展了本地过程调用的概念,并将其放在 HTTP API 的上下文中。最初的 XML-RPC 是存在问题的,因为很难确保 XML 有效负载的数据类型。因此,后来 RPC API 开始使用一个更具体的 JSON-RPC 规范,该规范被认为是 SOAP 的更简单的替代方案。gRPC 是 Google 在 2015 年开发的最新 RPC 版本。gRPC 可插拔支持负载均衡、追踪、运行状况检查和身份验证,它非常适合连接不同的微服务。RPC的工作机制客户端调用一个远程的过程,将参数和附加信息序列化为消息,然后将消息发送到服务端。服务端在接受到消息后,将信息的内容反序列化,执行所请求的操作,然后将结果发送回客户端。客户端和服务端各自负责参数的序列化和反序列化。远程过程调用的机制,图源:Guru99RPC的优势简单直接的交互。RPC 使用 GET 来获取信息,使用 POST 来处理其他所有操作。服务端和客户端之间交互的机制归结为调用端点并获得响应。易于添加新函数。如果 API 有了新的需求,我们可以轻松地添加另一个执行这个需求的端点:1)编写一个新函数,并将其放在一个新端点之后;2)现在,客户可以访问这个端点,并获取符合其需求的信息。高性能。轻量级的有效负载不会对网络产生压力,以此提供高性能,这对于共享服务器和在工作站网络上执行并行计算非常重要。RPC 还能够优化网络层,使得不同服务之间每天发送海量消息变得非常高效。RPC的不足和底层系统紧密耦合。API 的抽象级别有助于其可重用性。API 与基础系统的耦合越紧密,对其他系统的可重用性就越差。RPC 与基础系统的紧密耦合不允许其在系统函数和外部 API 之间建立抽象层。这很容易引起安全问题,因为关于基础系统的细节实现很容易会泄漏到 API 中。RPC 的紧密耦合使得可伸缩性要求和松散耦合的团队难以实现。因此,客户端要么会担心调用特定端点的带来的任何可能的副作用,要么需要尝试弄清楚要调用的端点,因为客户端不了解服务器如何命名其函数。可发现性低。在 RPC 中,无法对 API 进行检验总结,或者发送请求来开始理解根据需求应该调用哪个函数。函数爆炸性增长。创建新函数非常容易。因此,相较于重新编辑现有的函数,我们会倾向于创建新的功能,最终产生大量难以理解的、功能重叠的函数。RPC的用例RPC 模式在八十年代开始使用,但这并不意味着它已经过时了。诸如 Google、Facebook(Apache Thrift)和 Twitch(Twirp)这样的大公司如今正在内部使用高性能的 RPC 版本,来执行极高性能、低开销的消息传递。它们庞大的微服务系统要求内部通信在使用短消息的情况下也保持清晰。命令 API。RPC 是用于将命令发送到远程系统的正确选择。例如,Slack API 是非常以命令为中心的:加入频道、离开频道、发送消息。因此,Slack API 的设计者以类似于 RPC 的样式对其进行了建模,使其小巧、紧凑并且易于使用。用于内部微服务的客户特定的 API。由于是在单个提供者和单个使用者之间建立直接的集成,我们不想像 REST API 那样,花太多时间通过网络传输大量的元数据。凭借高消息速率和消息性能,gRPC 和 Twirp 成为了用于微服务的可靠用例。通过在底层使用 HTTP 2,gRPC 能优化网络层,使其非常高效地在不同服务之间每天传送大量信息。然而,如果你并不是要着眼于提高网络性能,而是要在发布高度独立的微服务团队之间建立一个稳定的 API 联系。REST 就能做到。02SOAP:使数据作为服务可用SOAP 是一个 XML 格式的、高度标准化的网络通讯协议。在 XML-RPC 发布的一年后,SOAP 由微软发布、并继承了许多 XML-RPC 的特性。在 REST 紧随其后发布,一开始它们是被同时使用,但很快 REST 赢得了这次比赛,成为了更流行的协议。SOAP 的工作机制XML 数据格式拖累了很多数据规范。伴随着大量的消息结构,XML 数据格式使得 SOAP 成为了最冗长的 API 架构风格。SOAP 的消息由这些部件组成:一个信封标签:用于开始和结束每条消息包含请求或响应的正文一个标头:用于表示消息是否由某些规范或额外要求的来确认故障通知:包含了可能在请求处理过程能够发生的任何错误一个 SOAP 消息的例子,图源:IBMSOAP API 的逻辑由 Web 服务描述语言(WSDL)编写。该 API 描述语言定义了端点并描述了可以执行的所有过程。这使得不同的编程语言和 IDE 能够快速建立通信。SOAP 支持有状态和无状态消息传递。在有状态的情况下,服务器存储接收到的信息可能非常繁琐复杂。但这对于涉及多方和复杂交易的操作是合理的。SOAP 的优势独立于语言和平台。内置创建 Web 服务的功能使得 SOAP 能够处理消息通信的同时发送独立于语言和平台响应。绑定到各种协议。SOAP 在适用于多种场景的传输协议方面是十分灵活的。内置错误处理。SOAP API 规范允许返回带有错误码及其说明的的 XML 重试消息。一系列的安全拓展。SOAP 与 ES-Security 集成,因此 SOAP 可满足企业级事务要求。它在事务内部提供了隐私和完整性,同时允许在消息级别进行加密。SOAP 消息级别的安全性:在标头元素的认证数据以及加密的正文SOAP 的不足如今,由于如下几种原因,许多开发人员在听到必须集成 SOAP API 的想法后都会感到不安。仅使用 XML。SOAP 消息包含大量的元数据,并且在请求和响应时仅支持繁冗的 XML 格式。重量级。由于 XML 文件的大小,SOAP 服务需要很大的带宽。非常专业化的知识。构建 SOAP API 服务器需要对所有涉及到的协议以及它们及其严格的限制都有很深的了解。乏味的消息更新。由于需要额外的工作来添加或者删除某个消息属性,这种死板的 SOAP 模式减慢了其被采用的速度。SOAP 的用例目前,SOAP 体系结构最常用于企业内部或与其信任的合作伙伴的内部集成。高度安全的数据传输。SOAP 严格的消息结构,安全性和授权功能使其成为在 API 和客户端之间执行正式软件协议的最合适的选择,同时又符合 API 提供者与 API 使用者之间的法律合同。这就是为什么金融组织和其他企业用户选择使用 SOAP 的原因。03REST:使数据作为资源可用REST 如今是一种无需解释的 API 架构风格,它由一系列的架构约束所定义,旨在被广泛 API 使用者采用。当前最常见的 API 架构风格最初由 Roy Fielding 在其博士论文中提出的。REST 使得服务端的数据可用,并以简单的格式(通常是 JSON 和 XML)来表示它。REST 的工作机制REST 的定义并不像 SOAP 那样严格。RESTful 体系结构应该遵守如下六个体系结构约束:统一接口:无论设备或应用程序类型如何,都可以采用统一的方式与给定的服务端进行交互。无状态:请求本身包含处理该请求所需要的状态,并且服务端不存储与会话相关的任何内容。缓存客户端 - 服务器体系结构:允许双方独立发展应用程序的层级系统服务端向客户端提供可执行代码的能力实际上,某些服务仅在某种程度上是 RESTful 的。而它们的内核采用了 RPC 样式,将较大的服务分解为资源,并有效地使用 HTTP 基础结构。但 REST 的关键部分是超媒体(又称 HATEOAS),是超文本作为应用程序状态引擎(Hypertext As The Enginer Of Application State)的缩写。基本来说,这意味着 REST API 在每个响应中都提供元数据,该元数据链接了有关如何使用该 API 的所有相关信息。这样便可以使客户端和服务端解耦。因此,API 提供者和 API 使用者都可以独立发展,而这并不会阻碍他们的交流。理查森成熟度模型作为实现真正完整且有用的 API 架构的目标。图源:Kristopher Sandoval“HATEOAS 才是 REST 的关键功能,因为它真正使得 REST 成为 REST。但由于大多数人不使用 HATEOAS,因此他们实际上是在使用 HTTP RPC。”这是 Reddit 上表达的一些激进观点。确实,HATEOAS 是 REST 的最成熟版本。但是,这非常难以实现,因为这要求 API 客户端要比它们如今构建和使用的方式变得更先进和智能得多。因此,即便是如今非常好的 REST API 也不一定总是能做到这一点。这就是为什么 HATEOAS 主要是作为 RESTful API 设计的长期开发的愿景而存在。当服务端实现 REST 的某些功能和 RPC 的某些功能时,在 REST 和 RPC 之间确实可能存在这样一个灰色区域。但 REST 是基于资源或名词的,而不是基于动作或动词。以动词为中心的 RPC 模型和以名词为中心的 REST 模型中的操作对比在 REST 中,使用例如 GET、POST、PUT、DELETE、OPTIONS 可能还有 PATCH 等 HTTP 方法来完成操作。图源:Thomas DavidREST 的优势客户端和服务端的解耦:由于 REST 尽可能地解耦了客户端和服务端,REST 相较于 RPC 可以提供更好的抽象性。具有抽象级别的系统能够封装其实现细节,以更好的标示和维持它的属性。这使得 REST API 足够灵活,可以随着时间的推移而发展,同时保持稳定的系统。可发现性:客户端和服务端之间的通信描述了所有内容,因此不需要外部文档即可了解如何与 REST API 进行交互。缓存友好:REST 重用了许多 HTTP 工具,也是唯一一种可以在 HTTP 层面上缓存数据的 API 架构风格。与其相对的是,在任何其他 API 上实现缓存都需要配置其他缓存模块。多种格式支持:REST 拥有支持多种格式用于存储和交换数据的能力,这是它如今成为搭建公共 API 的主要选择的原因之一。REST 的不足没有标准的 REST 结构:在构建 REST API 方面,没有具体的正确方法。如何对资源进行建模以及哪些资源需要建模取决于不同的情况。这使得 REST 在理论上很简单,但在实践中却很困难。庞大的负载:REST 会返回大量丰富的元数据,以便客户端可以仅从响应中了解有关应用程序状态的所有必要信息。对于具有大量带宽容量的大型网络系统来说,这种“啰嗦”的通信并不算很大的负载。但带宽容量并非总是足够的。这也是 Facebook 在 2012 年提出 GraphQL 架构风格的关键驱动因素。响应过度和响应不足问题。REST 的响应包含的数据会过多或不足,通常会导致客户端需要发送另一个请求。REST 的用例管理 API。在系统中,专注于管理对象并面向许多使用者的 API 是最常见的 API 类型。REST 帮助此类 API 具有强大的可发现性,良好的文档编制,因此 REST 非常适合此对象模型。简单的资源驱动型应用程序。在用于连接不需要查询灵活性的资源驱动型应用时,REST 是一种非常有效的方法。04GraphQL:仅请求所需要的数据REST API 需要被多次调用才能返回所需要的资源。所以,GraphQL 被发明了,并改变了这一切游戏的规则。GraphQL 是一种语法,它描述了如何进行精确的数据请求。有些应用程序的数据模型具有许多相互引用的复杂实体,在这种情况下,实现 GraphQL 是值得的。如何从 GraphQL 端点仅获取所需要的数据,图源:Mohit Tikoo如今,GraphQL 的生态系统正在蓬勃发展,出现了例如 Apollo、GraphiQL 和 GraphQL Explorer 等强大的库和工具。GraphQL 的工作机制GraphQL 从构建模式(Schema)开始。模式是对于用户可以在 GraphQL API 中进行的所有查询及其返回的所有类型的描述。模式构建非常困难,因为它需要使用模式定义语言(SDL)进行强类型化。因为在客户端进行查询之前已经定义好了模式,所以客户端可以验证其查询语句,以确保服务端能够对查询语句进行响应。在查询语句到达后端应用程序时,GraphQL 操作将根据整个模式进行解释,并向前端应用程序返回解析到的数据。API 向服务端发送一个庞大的查询,该 API 返回一个仅包含我们所需数据的 JSON 响应。GraphQL 的查询语句执行,图源:Jonas Helfer除了包含 RESTful 的 CRUD 操作,GraphQL 还有订阅(subscriptions)机制,允许接收来自服务端的实时通知。GraphQL 的优势具有类型的模式:GraphQL 提前公开了它能做什么,从而提高了其可发现性。通过将客户端指向 GraphQL API,我们可以发现什么查询语句是可用的。没有版本控制:版本控制的最佳实践是不要对 API 进行版本控制。尽管 REST 提供了不同的 API 版本,GraphQL 使用的是不断更新的单一版本,这使用户可以持续访问新功能,并有助于提供更整洁、更可维护的服务器代码。详细的错误消息:GraphQL 以类似于 SOAP 的方式提供所发生错误的详细信息。它的错误消息包括所有解析器,并指向确切的发生故障时的查询部分。灵活的权限:GraphQL 允许选择性地公开某些功能,同时保留私人信息。而相对应的是,REST 体系架构不能仅显示部分数据,要么是全部数据,要么是没有数据。GraphQL 的不足性能问题。GraphQL 权衡了复杂性,来实现其强大功能。一个请求中的嵌套字段太多会导致系统过载。因此,对于复杂的查询,REST 仍然是更好的选择。缓存复杂度。由于 GraphQL 不再使用 HTTP 缓存语义,因此使用者需要额外自定义缓存。大量的预开发教育。由于没有足够的时间来了解 GraphQL 的某个操作和 SDL,因此许多项目决定采用众所周知的 REST 方法。GraphQL 的用例移动 API。在这种情况下,网络性能和单个消息有效负载优化很重要。因此,GraphQL 为移动设备提供了更有效的数据加载方式。复杂的系统和微服务。GraphQL 能够隐藏其 API 背后的多个系统集成的复杂性。GraphQL 从多个地方聚合数据,并将它们合并为一个全局的模式。对于随时间推移而逐渐扩展的遗留基础架构或第三方 API 来说,这尤其重要。05哪种 API 模式最适用你的用例?每个 API 项目都有不同的限制和需求。通常,API 架构的选择取决于:所使用的编程语言,你的开发环境,以及你的资源预算,包括人力资源和财务资源。在了解了每种设计风格的利与弊之后,API 设计人员可以选择最适合项目的那一种。具有强耦合性的 RPC 很适用于内部微服务,但它对外部 API 或者 API 服务而言不是一个好的选择。SOAP 的使用有些麻烦,但它强大的安全拓展使它在计费操作、预订系统和支付方面是无可替代的。REST 是针对 API 的最高级别的抽象和最佳模型。但它往往会有些“啰嗦”而增加系统的负担 —— 如果你使用的是移动设备,这是个问题。GraphQL 在数据获取方面向前迈出了一大步,但并不是每个人都有足够的时间和精力来掌握它。归根结底,去针对一些小型的用例来尝试某种特定 API 架构,并去了解它是否适合你的用例以及是否解决了你的问题,这样做是比较合适的。如果它适用于你的用例,就可以尝试扩展并查看它是否适用于更多的用例。原文链接:https://levelup.gitconnected.com/comparing-api-architectural-styles-soap-vs-rest-vs-graphql-vs-rpc-84a3720adefa来源:架构头条(转载请注明出处)—END—因平台规则更改,大家有时会与推送擦肩而过。

称道数当

怎样写好一篇硕博研究生论文

每个学校的审核审核标准会有不同,而且每个人的专业领域的通用词汇也会有很大的差距,因此不管硕博毕业生还是本科毕业生,他们在写作论文时都要贴近自己的专业领域。但是相对于本科毕业论文,硕博研究生的毕业论文的观点更难明确,尤其是在论文写作方面会显得尤为困难,那么具体如何写好一篇硕博研究生论文呢?还是需要大家掌握下面的事项。第一,明确写作的思路论文写作中一定要掌握自己的论文题目,这往往是最难确立的,毕竟大学本科生的论文题目只要贴近自己的专业性质便可,而对于硕博研究生来说,他们必须有自己研究的题目,而且要根据文献资料以及自己研究的成果来充分的论述主题,因此为了保证论文的顺利,一定要明确自己的写作思路。第二,有灵魂的框架结构论文写作最关键的就是大体的框架,一个框架就代表着论文的整体,而在有了大框架之后便可以进行进行任务的细化,并落实到实际行动当中,而且在有框架下,每一个一级标题就会慢慢细化成二级或者三级目录,这样从一个大的框架变成了一个量化计划,在写作中也会变得更加方便,也因为细化的计划,研究生在寻找资料中也有了针对项。第三,检查论文的完整度硕博研究生在写好论文之后一定要检查论文的完整度,毕竟他们研究的主题是自己决定的,并不像大学本科生那样的研究主题更好确立,为了使自己的毕业论文顺利通过,一定要检查自己的论文是否充分有力的论证了自己的观点,是否与自己的主题相贴合,如有出入一定要提前修改,避免自己面临更大的失误。要知道硕博毕业生都写过大学本科毕业论文,因此他们关于毕业论文写作有一定的技巧,而对于如何精化论文就需要按照上面的方法来做,这也是为他们毕业奠定良好的基础,祝愿他们顺利毕业。

逼猴儿

《博士生写作手册》:一本通用的博士论文写作“秘籍”

你对自己博士论文的前景感到不知所措吗?你担心博士学位的学习会占据你整个生活吗?也许,你正需要这样一本手册,一本能帮助你更清晰地思考,更有效地与读者交流的写作秘籍——《博士生写作手册》。该书由新华出版社于近日正式出版,是针对各学科领域博士生的论文写作指导用书。作者戴斯蒙德·托马斯现为英国埃塞克斯大学教授、英语教学研究所主任,十多年来为博士研究生讲授写作技巧课程。他在本书中针对博士论文写作的各阶段进行了系统而细致的指导,从确定研究主题、探索关键概念、搭建理论框架、完成全稿,再到形成自己的学术风格,逐一给出解释和建议。书中每一章都有研究人员的见解,以及实践任务和自我评估练习,帮助读者掌握每一个阶段的技巧。对于来自不同学科的论文写作者来说,这是非常宝贵的写作秘诀。《博士生写作手册》[英]德斯蒙德·托马斯 著李腊花 陈龙 译ISBN:978-7-5166-5041-7新华出版社 2020年12月定价:49.00元原文转自:新华出版社

溟涬

阿尔伯塔大学博士毕业论文:基于图结构的自然语言处理

机器之心发布机器之心编辑部自然语言处理(Natural Language Processing)是人工智能的核心问题之一,旨在让计算机理解语言,实现人与计算机之间用自然语言进行通信。阿尔伯塔大学(University of Alberta)刘邦博士在他的毕业论文《Natural Language Processing and Text Mining with Graph-Structured Representations》中,对基于图结构(graph-structured representations)的自然语言处理和文本挖掘进行了深入研究。这篇博士论文将自然语言处理和文本挖掘的多个核心任务与图结构的强大表示能力结合起来,从而充分利用深度学习的表示能力和文本中的结构信息来解决诸多问题:(1)组织信息(Information Organization):提出了基于树/图结构的短文本/长文本对的分解算法以提高语意匹配任务(semantic matching)。基于文本匹配,进一步提出事件粒度的新闻聚类和组织系统 Story Forest;(2)推荐信息(Information Recommendation):提出了 ConcepT 概念挖掘系统以及 GIANT 系统,用于构建建模用户兴趣点以及长短文本主题的图谱(Ontology)。构建的兴趣图谱 Attention Ontology 有助于对用户与文本的理解,并显著提高推荐系统的效果;(3)理解信息(Information Comprehension):提出了 ACS-Aware Question Generation 系统,用于从无标注的文本中生成高质量的问答对,大大降低问答系统的数据集构建成本,并有助于提高阅读理解系统的效果。论文链接:https://sites.ualberta.ca/~bang3/files/PhD-Thesis.pdf引言自然语言处理(NLP)旨在读取和理解未结构化的自然语言文本来完成不同的任务。「如何表示文本」以及「如何进行计算」是其中的两个核心问题。早期的 NLP 研究中,利用 bag-of-words 模型表示文本,通过统计不同单词的频次来形成文本的向量表示,同时结合统计方法进行文本处理,这丢失了文本的词序信息以及单词之间的联系,本质上是用 one hot encoding 来表示每个单词;在深度学习中,研究者根据单词的共现来学习词向量,每个单词由一个 dense vector 表示,语意相似或联系紧密的词在向量空间中距离更小,再结合 RNN 模型(LSTM,GRU 等)进行文本编码完成各种任务;其后又有研究工作将文本类比图像,编码形成矩阵表示,结合 CNN 类模型进行计算;近年来,预训练语言模型,利用自监督学习训练各类大型语言模型,从而给单词或文本赋予上下文敏感的(context-sensitive),多层的语义向量表示,其采用的模型是多层的 Transformer。自然语言的形式及其语意具有层次性(hierarchical),组合性(compositional)和灵活性(flexible)。已有的研究并未充分利用各类文本中存在的语义结构。图(graph)是一种通用且强大的表示形式,可以表达各种不同对象以及它们之间的联系,无论是在自然语言处理,还是在社交网络,现实世界等各种场景都无处不在。本论文在深度学习强大的表示学习能力的基础上,设计并结合了不同的文本的图结构化表示,并利用图结构计算模型,例如图神经网络(Graph Neural Networks), 去解决不同的自然语言处理和文本挖掘问题。论文包含三大部分:第一部分介绍了文本的聚类和匹配,提出各类匹配问题的结构化算法,并进一步提出 Story Forest 系统用于新闻事件的聚类组织和结构化表示。该系统落地到腾讯 QQ 浏览器热点事件挖掘。第二部分关注文本挖掘,提出了 Attention Ontology 兴趣图谱,挖掘和描述用户不同粒度的兴趣点,建立不同兴趣点之间的联系,并可用于刻画文章主题。这部分工作显著提高了 QQ 浏览器,手机 QQ,微信等应用中的信息流推荐系统的效果。第三部分关注文本生成,提出了 ACS-QG 系统,自动从无标注文本中生成高质量的问答对,可用于问答系统的训练,有助于大大减少数据集创建成本,以及提高机器阅读理解的能力。图 1. 文本表示形式以及计算模型的演化图 2. 论文的组成框架第一部分:文本的匹配与聚类第三章 Story Forest 事件聚类组织系统在信息爆炸的年代,查询并找到有价值的信息,对用户而言并不是非常简单的任务。目前的搜索引擎或者信息流服务,会给用户提供一个文章列表。这些新闻文章会包含大量冗余信息,缺乏结构化的组织。本文提出 Story Forest 系统,对新闻文章做事件(event)粒度的聚类,使得报道同一个现实中的事件的不同文章聚类成一个节点,相关联的事件形成结构化的故事树(story tree), 来表征关联事件之间的时间顺序和发展关系。图 3.「2016 年美国总统大选」的故事树,树中的每一个节点代表一个事件已有的文本聚类方法不能很好地对文章进行事件粒度的聚类效果。本文提出 EventX 聚类算法,它是一种双层聚类算法:在第一层聚类中,利用所有文章中的关键词,形成关键词网络(Keyword Graph)并对其进行图分割,分割后的每一个关键词子图,代表一个大的话题,再利用相似度将每篇文章分配到一个最相似的关键词子图之下;在第二层聚类中,每一个关键词子图下的文章形成一个文章图(doc graph), 相连的边代表两篇文章讲述同一个事件,再对文章图进行社区检测(community detection),从而做了第二次聚类。每一个文章子图里的文章代表一个事件。通过双层聚类,即可以对文章对之间做细粒度的语义比较,又可以控制时间复杂度。在得到事件聚类之后,不同的事件节点通过故事结构组织算法,在线插入到已有的故事树中形成故事结构。如果一个事件不属于任何已有的故事树,则形成一个新的故事。图 4. Story Forest 系统以及 EventX 聚类算法第四章 基于图分解和图卷积的长文本匹配文本匹配是判断两个文本之间的关系或者相关度,是 NLP 中的核心问题,有很多的任务其核心都可视为一个文本匹配任务。根据匹配的源文本和目标文本的长短,我们可以将文本匹配任务分成四大类:长文本匹配任务,例如 Story Forest 系统中,一个核心的任务是判断两个文章是否在讲同一个事件;短-长文本匹配,例如输入 query 搜索匹配的文章;短文本匹配,例如问答对匹配,句子对相似度衡量等;长-短文本匹配,例如文本主题分类等等。图 5. 根据源文本和目标文本的长短,将不同文本匹配任务分成四类本章专注于长文本匹配任务,这是很重要的研究问题,然而在此之前,很少的研究工作专注于此。已有的算法基于 Siamese Neural Network 或者 CNN 来编码句子对或者句子之间的交互,无法很好的处理长文本匹配的任务。因为长文本的长度,导致计算复杂度较高;语言的灵活性,导致文本对之间对应的内容难以对齐;同时编码器也难以准确地编码长文本的语义。本文提出 Concept Interaction Graph 用于分解一篇或者一对文章。其主要思想是「化整为零,分而治之」。CIG 中的每个节点包含几个高度关联的关键字,以及和这些关键字高度相关的句子集。当进行文本对匹配时,每个节点包含来自两篇文章的两个句子集。这样,多个节点代表了两篇文章中的不同的子话题,并囊括了文章中的一部分句子并进行了对齐。节点之间的边代表不同子话题之间的联系紧密度。图 6. 根据文章构建 Concept Interaction Graph 的 toy example基于 Concept Interaction Graph,论文进一步提出通过图神经网络(Graph Neural Networks)对文本对进行局部和全局匹配。具体而言,对每个节点上的文本对,利用编码器进行局部匹配,从而将长文本匹配转化为节点上的短文本匹配;再通过图神经网络来将文章结构信息嵌入到匹配结果中,综合所有的局部匹配结果,来得到全局匹配的结果。图 7. 基于 Concept Interaction Graph 和图卷积神经网络的长文本匹配第五章 基于层次化分解和对齐的短文本匹配对于短文本匹配,论文提出了层次化句子分解(Hierarchical Sentence Factorization)来将句子分解为多层的表达,每一层都包含完整的所有单词,并且语句重排列为「predicate-argument」的顺序。随着层数的增加,一个句子逐渐被分解为更加细粒度的语义单元。因此,利用这种多层次,重排序的句子表示,我们可以对齐两个句子,并结合不同的语义粒度去比较他们的语义距离。图 8. 基于层次化句子分解(Hierarchical Sentence Factorization)的句子匹配这种句子分解技术利用了 Abstract Meaning Representation 来对句子做 semantic parsing。然后,它通过一系列的操作,使得每一层都包含句子中的所有单词。对于每一个语义单元,都是谓词(predicate)在前,参数(argument)在后。这种表示充分展现了自然语言的层次性,组合性,并利用归一化的词序来克服自然语言表达的灵活顺序。基于句子的层次分解,论文进一步提出无监督的 Ordered Word Mover's Distance, 结合了最优传输理论的思想去建模句子之间的语义距离。其效果经试验验证显著优于 Word Mover's Distance。同时,论文也提出了将句子的多语义粒度表达,应用于不同的文本匹配模型中,例如 Siamese Neural Networks 中。实验证明,多粒度的匹配效果,显著优于只利用原句进行匹配的效果。第二部分:文本挖掘第六章 ConcepT 概念挖掘系统概念蕴涵了世界的知识,促进了人类的认知过程。从文档中提取概念并构建它们之间的联系对于文本理解以及下游任务有着重要的作用。认识「概念」(concept)是人类认识世界的重要基石。例如,当看到本田思域(Honda Civic)或者现代伊兰特(Hyundai Elantra)时,人们可以联想到「油耗低的车」或者「经济型车」这类的概念,并且能进而联想到福特福克斯(Ford Focus)或者尼桑 Versa(Nissan Versa)等车型。图 9. 人类能对事物进行概念化并产生联想过去的研究工作,包括 DBPedia, YAGO, Probase 等等知识图谱或者概念库,从维基百科或者网页文章中提取各种不同的概念。但是这样提取的概念和用户的认知视角并不一致。例如,与其认识到丰田 4Runner 是一款丰田 SUV 或者说是一种汽车,我们更感兴趣是否能把它概念化为「底盘高的汽车」或者「越野型汽车」。类似地,如果一篇文章在讨论《简爱》,《呼啸山庄》,《了不起的盖斯比》等电影,如果我们能认识到它在讨论「小说改编的电影」这个概念,那么会帮助极大。然而,目前的知识图谱等工作目的是建立一个关于这个世界的结构化知识表示,概念提取自语法严谨的文章。因此,它们不能从用户的视角去对文本(例如 query 和 document)进行概念化,从而理解用户的意图。另一方面,目前的工作也主要在于提取长期稳定的概念,难以提取短时间出现的热门概念以(例如「贺岁大片」,「2019 七月新番」)及它们之间的联系。我们提出了 ConcepT 概念挖掘系统,用以提取符合用户兴趣和认知粒度的概念。与以往工作不同的是,ConcepT 系统从大量的用户 query 搜索点击日志中提取概念,并进一步将主题,概念,和实体联系在一起,构成一个分层级的认知系统。目前,ConcepT 被部署在腾讯 QQ 浏览器中,用以挖掘不同的概念,增强对用户 query 意图的理解和对长文章的主题刻画,并支持搜索推荐等业务。目前它已经提取了超过 20 万高质量的基于用户视角的概念,并以每天挖掘超过 11000 个新概念的速度在不断成长。ConcepT 系统的核心算法架构同样适用于英语等其他语言。图 10. ConceptT 概念挖掘流程:从用户搜索点击日志中挖掘概念ConcepT 系统还可以用于给文章打上概念标签。主要包含两种策略:基于匹配的标记算法和基于概率推断的标记算法。图 11. ConcepT 文章标记流程:将文章打上关联的概念标签图 12. ConcepT 系统从用户搜索 query 中提取的概念展示图 13. 在线 A/B test 结果。ConcepT 系统对 QQ 浏览器信息流业务各项指标有明显提升。其中最重要的指标曝光效率(IE)相对提升了 6.01%。图 14. ConcepT 系统对文章打上概念标签。目前每天可处理 96700 篇文章,其中约 35% 可以打上概念标签。我们创建了一个包含 11547 篇文章的概念标记数据用以评测标记的准确率。人工评测发现,目前系统的标记准确度达 96%。第七章 用户兴趣点建模 Attention Ontology上一章中,我们介绍了概念挖掘系统。为了更加全面的刻画用户兴趣点,我们进一步挖掘包括概念(concept)和事件(event),话题(topic)等等在内的多种短语,并和预定义的主题(category)以及实体库中的实体(entity)等形成上下位等关系。我们将这个包含多种节点,多种边关系,用于用户兴趣点或关注点建模的图谱命名为 Attention Ontology。图 15. Attention Ontology,包含五种节点,代表不同语义粒度的用户兴趣点;三种关系,代表节点之间的上下位,包含,以及关联。Attention Ontology 可以解决「推荐不准」和「推荐单调」的问题。例如:当一个用户看了关于「英国首相特蕾莎梅辞职讲话」的文章后,目前基于关键词的推荐系统可能会识别关键词「特蕾莎梅」,从而推荐给用户很多关于特蕾莎梅的文章。然而这大概率并不是用户的兴趣点。这是「推荐不准」的问题,原因在于系统中缺乏或无法识别合适粒度的兴趣点。另一方面,系统也可能继续推荐更多关于「英国首相特蕾莎梅发表演讲」的文章,这些文章与用户已经浏览过的文章产生了冗余,无法带给用户更多有价值的信息,因此用户也不感兴趣。这是「推荐单调」的问题,而这个问题的本质在于缺乏不同兴趣点之间的联系。Attention Ontology 中包含不同粒度的用户兴趣点,并且不同的节点之间有边来表示它们之间的联系。例如根据 Attention Ontology,我们可以认识到「特蕾莎梅辞职讲话」是和「英国脱欧」这一中等粒度的兴趣点相关的。如果用户浏览了「英国脱欧」这一兴趣点下的不同事件的文章,我们便可以识别出用户不是关注「特蕾莎梅」这个人或者「特蕾莎梅辞职演讲」这一个特定事件,而是关心「英国脱欧」这一话题。而另一方面,知道了用户关注这一话题之后,利用不同兴趣点之间的联系,我们可以给用户推荐相关的文章,从而解决推荐不准和推荐单调的问题。为了挖掘不同性质的短语,如概念和事件短语,论文提出了 Query-Title Interaction Graph(QTIG)用于建模 query 文章 title 之间的联系。这种表示结构将不同 query 和 title 之间的对齐信息,词的 tag,词之间的距离,语法依赖等等信息嵌入在节点特征和边的特征中。利用这种表示,论文进一步提出 GCTSP-Net 模型,将短语挖掘问题建模为「节点分类+节点排序」的问题。该模型对 QTIG 进行节点二分类,抽取出属于目标短语的词;再将节点排序建模为一个旅行商问题,寻找一个最优路径将所有的分类为正的节点进行排序。按照得到的路径,将分类为正的节点串联起来,便得到了输出短语。图 16. Query-Title Interaction Graph. 图中绿色节点为属于输出短语的词。每一个节点代表 query 或 title 中的一个独特的词,边代表两个词相邻或者存在语法依赖。论文设计并实现了构建 Attention Ontology 并将其应用在不同应用中的 GIANT 系统。GIANT 系统包含几大模块:首先,根据用户的搜索 query 和点击日志形成的二分图,来进行聚类得到不同的 query-doc clusters。每个 query-doc cluster 包含一个或多个相似的 query,以及他们的 top 点击的文章。对每一个 query-doc cluster, 我们将其转化为 Query-Title Interaction Graph 表示,并利用 GCTSP-Net 抽取潜在的短语。接下来,我们再利用不同的算法去抽取不同短语之间的关系,形成 Attention Ontology。最后,利用 Attention Ontology 去实现多种应用,包括文章的 tagging,query 的概念化,文本的聚类组织等。同时,Attention Ontology 中的节点可用于在用户画像中描述用户的兴趣点。这样可以提高用户和其感兴趣的文章之间的匹配,从而提高推荐系统的效果。图 17. GIANT 系统架构第三部分:文本生成第八-九章 问答对自动生成问题生成是一种非常重要的文本生成问题,它可以应用在问答系统的训练数据生成,对话系统,教育等等应用中。图 18. 问题生成的不同应用及重要性已有的问题生成系统一般给定一句话和一个答案,要求系统生成某个特定的问题。这种系统属于 answer-aware question generation 系统。然而,它们生成的问题质量并不够好。一个核心问题在于,给定输入的句子和一个答案,我们能问出多个不同的并且合理的问题,是「一对多匹配(one-to-many mapping)」,而训练集中每个输入只有一个标准答案,是「一对一匹配(one-to-one mapping)」。图 19. 根据同样的输入可以问不同的问题本文提出 answer-clue-style aware question generation(ACS-QG)任务,将人提问的过程建模成四步:第一,根据输入选择一部分作为答案(answer);第二,选择一部分和答案相关的信息作为线索(clue)在问题中复述或转述;第三,根据答案选择问题的种类(style),例如 who, where, why 等等,共 9 种;第四,根据输入的句子和以上三种信息(答案 answer,线索 clue, 问题种类 style),生成问题。图 20. 根据输入生成问题的过程问题生成的过程可以从语法树的角度去观察:选择答案片段就像是从语法树中覆盖了一部分信息,而选择线索片段(clue)的过程就是在覆盖的信息附近,选择一部分节点作为提示输出到问题中。图 21. 利用语法树建模问题生成过程本文提出的 ACS-QG 系统,可以从无标注的句子中,生成高质量的问答对数据。它由以下模块组成:数据集创建模块,可以从目前已有的问答数据集(例如 SQuAD)中,创建 ACS-QG 任务的训练数据集;输入选择模块,可以从无标注的句子中,合理的选择和创建(answer, clue, style)三元组作为问题生成的输入;问题生成模块,可以利用输入三元组生成问题,这个模块的训练数据来自于第一个数据集创建模块;质量控制模块,用于过滤低质量的问答对。图 22. ACS-QG 问题生成系统实验证明,ACS-QG 系统能生成大量高质量的问答对,并且效果显著优于一系列已有的问题生成算法。第十章 结论和未来工作本论文利用图结构建模了一系列 NLP 问题中的文本数据,并结合深度学习模型,提高了多种任务的效果。论文中的各种研究,对信息的聚类组织,推荐,以及理解有着重要的意义。未来的研究方向包括:长文本理解,多任务协同学习,以及通用的基于图结构的表示,学习与推理。本论文中的研究已经发表在 SIGMOD,KDD,ACL,WWW,TKDD,CIKM 等各类 top conference 中,论文列表可在作者个人主页找到:https://sites.ualberta.ca/~bang3/publication.html