应该懂的自然语言处理知识

菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

　　文章从NLP是什么、能做什么、目前遇到的难题三个方面，对NLP展开分析。
　　NLP是人工智能的一个子领域，作为AI产品经理，我们至少要知道NLP是什么，它能做什么事，这样我们就能获得一种解决问题的思维，将遇到的问题和方法连接起来。接下来我从NLP是什么、能做什么、目前遇到的难题三个方面来简单介绍下NLP。
　　一什么是NLP
　　NLP，中文叫自然语言处理，简单来说，是一门让计算机理解、分析以及生成自然语言的学科，大概的研究过程是：研制出可以表示语言能力的模型提出各种方法来不断提高语言模型的能力根据语言模型来设计各种应用系统不断地完善语言模型。
　　NLP理解自然语言目前有两种处理方式：
　　1。基于规则来理解自然语言，即通过制定一些系列的规则来设计一个程序，然后通过这个程序来解决自然语言问题。输入是规则，输出是程序；
　　2。基于统计机器学习来理解自然语言，即用大量的数据通过机器学习算法来训练一个模型，然后通过这个模型来解决自然语言问题。输入是数据和想要的结果，输出是模型。
　　接下来简单介绍NLP常见的任务或应用。
　　二NLP能做什么：
　　1。分词
　　中文可以分为字、词、短语、句子、段落、文档这几个层面，如果要表达一个意思，很多时候通过一个字是无法表达的一个含义的，至少一个词才能更好表达一个含义，所以一般情况是以词为基本单位，用词组合来表示短语、、句子、段落、文档，至于计算机的输入是短语或句子或段落还是文档就要看具体的场景。由于中文不像英文那样词与词之间用空格隔开，计算机无法用区分一个文本有哪些词，所以要进行分词。目前分词常用的方法有两种：
　　基于规则：Heuristic（启发式）、关键字表
　　基于机器学习统计方法：HMM（隐马尔科夫模型）、CRF（条件随机场）
　　（注：在这里就不具体介绍方法的原理和实现过程了，大家感兴趣，可以自行百度了解）
　　现状分词这项技术非常成熟了，分词的准确率已经达到了可用的程度，也有很多第三方的库供我们使用，比如jieba，所以一般在实际运用中我们会采用jieba自定义词典的方式进行分词。
　　2。词编码
　　现在把我喜欢你这个文本通过分词分成我、喜欢、你三个词，此时把这三词作为计算机的输入，计算机是无法理解的，所以我们把这些词转换成计算机能理解的方式，即词编码，现在普遍是将词表示为词向量，来作为机器学习的输入和表示空间。目前有两种表示空间：
　　（1）离散表示：
　　A。Onehot表示
　　假设我们的语料库是：
　　我喜欢你你对我有感觉吗
　　词典｛我：1，喜欢：2，你：3，对：4，有：5，感觉：6，吗：7｝。一共有七个维度。
　　所以用Onehot表示：
　　我：〔1，0，0，0，0，0，0〕
　　喜欢：〔0，1，0，0，0，0，0〕
　　吗：〔0，0，0，0，0，0，1〕
　　即一个词用一个维度表示
　　B。bagofword：即将所有词的向量直接加和作为一个文档的向量。
　　所以我喜欢你就表示为：〔1，1，1，0，0，0，0〕。
　　C。Bigram和Ngram（语言模型）：考虑了词的顺序，用词组合表示一个词向量。
　　这三种方式背后的思想是：不同的词都代表着不同的维度，即一个单位（词或词组合等）为一个维度。
　　（2）分布式表示：word2vec，表示一个共现矩阵向量。其背后的思想是一个词可以用其附近的词来表示。
　　离散式或分布式的表示空间都有它们各自的优缺点，感兴趣的读者可以自行查资料了解，在这里不阐述了。这里有一个问题，当语料库越大时，包含的词就越多，那词向量的维度就越大，这样在空间储存和计算量都会指数增大，所以工程师在处理词向量时，一般都会进行降维，降维就意味着部分信息会丢失，从而影响最终的效果，所以作为产品经理，跟进项目开发时，也需要了解工程师降维的合理性。
　　3。自动文摘
　　自动文摘是指在原始文本中自动摘要出关键的文本或知识。为什么需要自动文摘？有两个主要的原因：
　　（1）信息过载，我们需要在大量的文本中抽出最有用、最有价值的文本；
　　（2）人工摘要的成本非常高。目前自动文摘有两种解决思路：第一种是extractive（抽取式），从原始文本中找到一些关键的句子，组成一篇摘要；另一种方式是abstractive（摘要式），计算机先理解原始文本的内容，再用自己的意思将其表达出来。自动文摘技术目前在新闻领域运用的最广，在信息过载的时代，用该技术帮助用户用最短的时间了解最多、最有价值的新闻。此外，如何在非结构的数据中提取结构化的知识也将是问答机器人的一大方向。
　　4。实体识别
　　实体识别是指在一个文本中，识别出具体特定类别的实体，例如人名、地名、数值、专有名词等。它在信息检索、自动问答、知识图谱等领域运用的比较多。实体识别的目的就是告诉计算机这个词是属于某类实体，有助于识别出用户意图。比如百度的知识图谱：
　　周星驰多大了识别出的实体是周星驰（明星实体），关系是年龄，搜索系统可以知道用户提问的是某个明星的年龄，然后结合数据周星驰出生时间1962年6月22日以及当前日期来推算出周星驰的年龄，并把结果直接把这个结果显示给用户，而不是显示候选答案的链接。
　　此外，NLP常见的任务还有：主题识别、机器翻译、文本分类、文本生成、情感分析、关键字提取、文本相似度等，以后有时间再为大家做简单介绍。
　　三NLP目前存在的难点
　　1。语言不规范，灵活性高
　　自然语言并不规范，虽然可以找一些基本规则，但是自然语言太灵活了，同一个意思可以用多种方式来表达，不管是基于规则来理解自然语言还是通过机器学习来学习数据内在的特征都显得比较困难。
　　2。错别字
　　在处理文本时，我们会发现有大量的错别字，怎么样让计算机理解这些错别字想表达的真正含义，也是NLP的一大难点
　　3。新词
　　我们处在互联网高速发展的时代，网上每天都会产生大量的新词，我们如何快速地发现这些新词，并让计算机理解也是NLP的难点
　　4。用词向量来表示词依然存在不足
　　上述，我们讲到，我们是通过词向量来让计算机理解词，但是词向量所表示的空间，它是离散，而不是连续，比如表示一些正面的词：好，很好，棒，厉害等，在好到很好的词向量空间中，你是不能找到一些词，从好连续到很好，所以它是离散、不连续的，不连续最大的问题就是不可导。计算机是处理可导的函数非常容易，不可导的话，计算量就上来了。
　　当然现在也有一些算法是计算词向量做了连续近似化，但这肯定伴随着信息的损失。总之，词向量并不是最好的表示词的方式，需要一种更好的数学语言来表示词，当然可能我们人类的自然语言本身就是不连续的，或者人类无法创建出连续的自然语言。
　　小结：
　　通过上述的内容，我们已经大概知道了NLP是什么、能做什么以及目前存在的难题。作为人工智能产品经理，了解NLP技术能够提高我们自己的技术理解力，在理解行业需求、推进项目开展都有非常大的帮助，其实这可以让我们获得是一种连接能力，将需求与工程师连接起来，将问题与解决方案连接起来。虽然NLP等人工智能技术存在很多不足，但我们需要调整好自己的心态，人工智能应用化才刚刚开始，必然是不够完美的，不要成为批判者，而是成为人工智能时代的推进者。

越界的亲妈1hr晚上十点，孙静加完班回家。刚走出电梯，见到她妈黑着脸杵在门口。孙静不打算先说话，反正老太太是来抢房，顺便吵架的。前阵子，公司嘉奖十周年优秀员工，给创造丰厚利润……千古奇文管子心术字字千金千古圣贤原文心之在体，君之位也；九窍之有职，官之分也。心处其道。九窍循理；嗜欲充益，目不见色，耳不闻声。故曰上离其道，下失其事。毋代马走，使尽其力；毋代鸟飞，使弊其羽翼；毋先物动……夙兴夜寐到底是什么意思这背后的典故又是怎样的在三国时期，要想每天睡个好觉可能都不是个容易事，不管是百姓还是官员精神都是时刻紧绷的。刘备死后，诸葛亮成了蜀国的主心骨，而且诸葛亮本人十分喜欢操心，各大食物都要亲自过问，每天都……孙子孙武孙膑是什么关系揭秘孙子孙武孙膑的区别说起我国的并发，很多人呢都会想到：不战而屈之兵，善之善者也、上兵伐谋，其次伐交，其次伐兵，其下攻城等等一些经典名句。而这些兵法名句都是出自于我国历史上春秋时期著名的军事家孙子所……忙内是什么意思最近很多人都在说这个忙内是什么意思，小编第一次听这样的词语，也不知道是什么意思，小编猜测根据字面的意思好像是媳妇这类的吧，忙自己家里面的事情，所以叫忙内了，但是好像并不是这样的……一代名舰俾斯麦号战列舰陨落揭秘说起二战时的海战，德国海军是非常的强大的，有水下著名的狼群U型潜艇作战群之外还有水上的战列舰战斗单位。在二战各大海战中，属最有名的就是匹斯麦号战列舰。在作战中盟军战舰宣泄了20……男人的人品如何看这三件事就知道了对一个人来说，什么最重要？是他的长相吗，还是他的学历，亦或是他的财富？其实，这些都不是，答案是人品。人只有一个好的人品，才能活得最透彻，最有价值，也最对得起自己的良心。当……再恩爱的夫妻也怕三件事万千人海里，幸好遇见你。点击右上角关注，你的心事有我愿意听。爱情从最初的相识到相爱，再到最后进入婚姻彼此相守，这是一个漫长的过程，可能有的时候会觉得，两个人待在一起……准妈妈体重影响胎儿智力准妈妈的体重会影响到胎儿的智力哦。传统观念认为，最希望看见的是新生儿是个小胖墩。其实，宝宝过胖是没有好处的，不仅影响智力还会引发多种疾病。所以，想要生出达标的宝宝，孕妇要控制体……解读女人们困惑的个性秘密人们常说，女人是一本书。但这本书可不是很容易就可以读懂的，尤其是在性问题上。不过，男人研究女人的心思，了解对方的所思所想，毕竟是一种积极的努力，这也许正是走向幸福与和谐性交往的……关羽为什么看不起孙权儿子关羽之女最后嫁给了谁孙权曾向关羽提亲，希望能让关羽把女儿嫁给自己的儿子，也算让双方同盟关系更加紧密。不过关羽得知孙权用意后却大发雷霆，丝毫不给面子的拒绝了此事，甚至还羞辱了孙权。关羽为何会如此恼怒……气愤我就这样被男友他们一家耍了四年曾经认为会一辈子在一起的男友现在已经成功变成了前男友。我们从大一开始恋爱，经历了很多很多。为了他我错过了等级考试，数度逃课，接受别人的耻笑和白眼在他被劝退的黑暗日子里我对他不离……

<<<<<<－>>>>>>

月季绿瓣病的防治月季绿瓣病主要表现为花瓣细窄，呈绿色等片或叶片状，花冠变绿，花变叶，是月季绿瓣病的典型症状。凡患有此病的植株，在同样的栽培管理条件下，株型都要比一般的月季品种矮化。月季绿……上班族应如何自我解压精神上的压力过大，往往导致各种疾病，或者让人养成一些不良习惯如抽闷烟、暴饮暴食等，这些情况或者致命、或者会演变成致命疾病。下班后，除了阅读、倾诉、在家看电视、出门KTV、蒙头大……春季踏青要注意什么事项1、预防花粉过敏春天百花争艳，要注意预防花粉过敏。首先要找准过敏源，最好先到医院进行检查，查出自己的过敏源，如果没有进行过彻底的脱敏治疗，在选择的春游地点，应尽量回避有花……无花果皮可以吃吗可以吃可清肺去火润肠通便无花果是人们在生活中常见的一种水果，不仅味道甜美多汁，营养价值也是非常丰富的，就连孕妇也是可以吃的。但是很多人们在吃无花果的时候，都要纠结无花果皮可以吃吗，其实是可以吃的，因为……为什么修电脑的叫自己不要杀毒和清理垃圾本行业问题我来回答下，我就是题主说的那个传说中的修电脑的。其实更确切的来说我是一名公司网络硬件运维人员，为什么修电脑的叫自己不要杀毒和清理垃圾。主要有以下三个方面的原因。……蓝海战略还不是战略最早看《蓝海战略》一书，是98年在中欧的图书馆。本想随便翻翻，却立即被作者新颖的案例和实用的工具所吸引，印象颇深。后来在培训中，也经常向学员介绍书中的工具。从创新的角度看……如何打造旺运家具好风水家具是每个家庭中都不可缺少的，从家居风水的角度来看，家具的款式、颜色、摆放也有非常多的讲究。假如摆放符合风水原理，符合你的命理可以起到帮扶作用；相反家具假如摆放不当，轻则会让你……娶了这四个生肖的女人既旺财又添福对于一个成功的男人来说，背后应该有一个默默支持的女人给予帮助。恋星座小编认为，如果一个男人娶了一个好女人，就能够一辈子人丁兴旺，让家庭和睦财富多多。不得不说这样的人谁都想娶，娶……上网课用电脑还是手机好上网课用什么设备比较好我们都知道，上网课是最近一段时间比较流行的一种上课方式，由于受疫情影响，几乎全国的学校都已经延迟开学了，学生们不得不在家上课，通过网络直播进行学习。上网课一般都是用电脑或者手机……新买的杜鹃花能换盆吗什么情况下杜鹃花需要换盆随着人们生活质量的提高，越来越多的人喜欢在家里养一些花花草草，而杜鹃花则更是深受人们的喜爱。那么新买的杜鹃花能换盆吗？什么情况下杜鹃花需要换盆？我们一起来看看。新买的杜鹃……澳洲迪肯大学景观建筑专业入学要求解析迪肯大学提供学士、硕士、博士课程，专业训练及工业员工培训，共有七万多名学生修读学位或非学位课程，其中包括二万名接受专业训练的学生，是澳大利亚学生规模最为庞大的大学之一。接下来主……朱顶红开花后怎么处理朱顶红非常好看，接下来我们就来讲一讲朱顶红开花后怎么处理操作方法01：hr如果朱顶红开过花后，我们应该用剪刀把开过的朱顶红花剪掉，这样子的话就会减少对植株营养的吸收……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网