我在计算机上使用 PageRank 制作了一个小型搜索引擎的原型。我有兴趣在其上构建知识图谱,它应该只返回在正确上下文中的查询网页,类似于 Google 如何找到搜索问题的相关答案。我看到了很多关于知识图谱的宣传,但没有很多文献,几乎没有伪代码,例如构建模型的指南。有人知道如何在内部创建这样的知识图谱吗?
知识图谱是一个流行语。它是为达到一个结果而组合在一起的模型和技术的总和。你旅程的第一站从Natural language processing、Ontologies和Text mining开始。它是人工智能的一个广泛领域,去here对该领域进行研究调查。
在构建自己的模型之前,我建议您使用专用工具箱(例如gensim)尝试不同的标准算法,您将了解 tf-idf,LDA,文档特征向量等。
我假设你想使用文本数据,如果你想使用其他图像进行图像搜索,它是不同的。
构建模型只是第一步,Google 知识图谱中最困难的部分是每天实际扩展到数十亿个请求。
一个好的处理管道可以在Apache Spark“当前一代 Hadoop”之上“轻松”构建。它提供了一个弹性的分布式数据存储,如果你想扩展,这是必需的。
如果你想保持你的数据作为一个图,如在图论(如 pagerank),实时查询,我建议你使用Bulbs,这是一个框架,“就像一个 ORM 图,但不是 SQL,你使用图遍历语言 Gremlin 查询数据库。
对于图形分析,您可以使用 Spark 、GraphX模块或GraphLab。
希望有帮助。
我知道我真的很晚了但是首先要澄清一些术语:知识图和本体的 ODF 定义的一个子集它可能是类似的 (我在 Semantic Web 范式中谈论的)。在语义 Web 堆栈中基础是 RDF 它是一种将图形定义为三元组 (Subject,Predicate,Object) 的语言。它定义了一个元模型,例如谓词如 rdf:type 和节点如 rdfs:
我说,因为 IMO 构建知识图谱的一个最好的方法是定义一个本体,然后使用各种语义 web 工具加载数据 (例如,从电子表格) 到本体中。从 IMO 开始的最好的工具是Protege ontology editor from Stanford。它是免费的,对于一个免费的开源工具非常可靠和直观。并且有一个很好的教程如何使用 Protege 和学习 OWL 以及其他 Semantic Web 教程如 SHQACL
本站系公益性非盈利分享网址,本文来自用户投稿,不代表边看边学立场,如若转载,请注明出处
评论列表(14条)