Web 语义化


单词语义化表示了它的意义 事物的语义化意味着事物 Web 语义化 = Web的意义


什么是 Web 语义化

什么是语义化 就是让机器可以读懂内容

  • 甲壳虫乐队 是一个来自利物浦 受欢迎的 乐队
  • 约翰列侬 是披头士乐队的 成员
  • "Hey Jude"是由披头士的代表作

上面的句子的意义 容易理解 但这些语句怎么 被计算机理解呢

语句由语法规则创建 语言的语法定义了 语言语句的规则 但是如何让语法变为语义呢

语义网 是让机器 理解数据 语义网技术 包括一套描述语言和推理逻辑 通过一些格式对本体(Ontology)进行描述

语义网 并不是网页之间的链接

语义网 描述了事物之间的关联((如 A 是 B的一部分 Y 是 Z 的成员)及事物的属性(如大小 高度 年龄 价格等)

The Web

语义网 的实现是基于XML(可扩展标记语言eXtensible Markup Langauge)语言 和 资源描述框架(RDF)来完成的 XML是一种用于定义标记语言的工具 其内容包括XML声明 用以定义语言语法的DTD (document type declaration文档类型定义) 描述标记的详细说明以及文档本身 而文档本身又包含有标记和内容 RDF则用以表达网页的内容



资源描述框架

RDF(Resource Description Framework) 即资源描述框架 是W3C推荐的用来 描述WWW上的信息资源 及其之间关系的语言规范

RDF(S)是 语义网的重要组成部分 它使用URI来标识不同的对象(包括资源节点 属性类 或属性值) 可将不同的URI连接起来 清楚表达对象间的关系



实现

语义网 虽然是一种更加美好的网络 但实现起来却是一项复杂而浩大的工程 目前 语义网 的体系结构正在建设中 主要需要以下两方面的支持

1) 数据网络的实现

通过一套统一的 完善的 数据标准 对网络信息进行 彻底详细的标记 使得 语义网 能够精准的 识别信息 区分信息的作用和含义要使 语义网 搜索更精确彻底 更容易判断信息的真假 从而达到实用的目标 首先需要制订标准 该标准允许用户给网络内容添加元数据(即解释详尽的标记) 并能让用户精确地指出他们正在寻找什么 然后 还需要找到一种方法 以确保不同的程序都能分享不同网站的内容 最后 要求用户可以增加其他功能 如添加应用软件等

语义网 的实现是基于XML(可扩展标记语言eXtensible Markup Langauge)语言 和 资源描述框架(RDF)来完成的 XML是一种用于定义标记语言的工具 其内容包括XML声明 用以定义语言语法的DTD (document type declaration文档类型定义) 描述标记的详细说明以及文档本身 而文档本身又包含有标记和内容 RDF则用以表达网页的内容

2)具有语义分析能力的 搜索引擎

如果说 数据网络 能够短时间通过亿万的个体实现 那么网络的 语义化 智能化 就要通过人类尖端智慧群体的努力实现 研发一种具有语义分析能力的 信息搜索引擎 将成为语义网的最重要一步 这种引擎能够理解人类的自然语言 并且具有一定的推理和判断能力

语义搜索 引擎(semantic search engine)和 具有 语义分析 能力的搜索引擎(semantically enabled search engine)是两码事 前者不过是语义网络的利用 一种信息搜索方式 而具有语义分析能力的搜索引擎是一种能够理解 自然语言 通过计算机的推理而进一步提供更符合用户心理的答案


前景

语义网 体系结构的研究还没有形成 令人满意的 严密的逻辑描述 与 理论体系

语义网 的实现需要三大关键技术的支持 XML RDF和 Ontology

XML(eXtensible Marked Language 即可扩展标记语言) 让 信息提供者 根据需要 自行定义标记及属性名 从而使XML文件的结构可以复杂到任意程度

它具有良好的数据存储格式和可扩展性 高度结构化以及便于网络传输等优点 再加上其特有的NS机制及XML Schema所支持的多种数据类型与校验机制 使其成为语义网的关键技术之一

目前关于语义网关键技术的讨论主要集中在RDF和Ontology身上

RDF是W3C组织 推荐使用的用来描述资源及其之间关系的 语言规范 具有简单 易扩展 开放性 易交换和易综合等特点

值得注意的是 RDF 只定义了资源的描述方式 却没有定义用哪些数据描述资源 RDF由三个部分组成:RDF Data Model RDF Schema和RDF Syntax

附上

语义网 通过扩展现有的互联网 在信息中加入表示其含义的内容 使计算机可以自动与人协同工作 语义网 中的各种资源不再只是各种相连的信息 还包括其信息的真正含义 从而提高计算机处理信息的自动化和智能化 计算机并不具有真正的智能 语义网 的建立需要研究者们对信息进行有效的表示 制定统一的标准 使计算机可以对信息进行有效的自动处理

(来源:何斌 张立厚《信息管理原理与方法》 清华大学出版社 2007年7月第二版)


语义网 体系结构

  • 第一层 Unicode与URI 是整个体系结构的基础
  • 第二层 XML+NS+XMLSchema,负责语法上表示数据的内容和结构 通过使用标准的格式语言将网络信息的表现形式 数据结构和内容分离
  • 第三层 RDF+RDF Schema 提供语义模型 用于描述网上的信息和类型 其中 RDF(Resource Description Framework) 即资源描述框架 是W3C推荐的用来描述WWW上的信息资源及其之间关系的语言规范 RDF(S)是语义网的重要组成部分 它使用URI来标识不同的对象(包括资源节点 属性类或属性值)并可将不同的URI连接起来 清楚表达对象间的关系
  • 第四层 本体词汇层 本体是关于领域知识的概念化 形式化的明确规范 在语义网体系结构中
    本体的作用主要表现在 1) 概念描述 即通过概念描述揭示领域知识
    2) 语义揭示 本体具有比RDF更强的表达能力 可以揭示更为丰富的语义关系
    3) 一致性 本体作为领域知识的明确规范 可以保证语义的一致性 从而彻底解决一词多义 多词一义和词义含糊现象
    4) 推理支持 本体在概念描述上的确定性及其强大的语义揭示能力在数据层面有力地保证了推理的有效性
  • 第五层 逻辑层 负责提供公理和推理原则 为智能服务提供基础 其中 描述逻辑(DescriptionLogic)是基于对象的知识表示的形式化 它吸取了KL-ONE的主要思想 是一阶谓词逻辑的一个可判定子集 它与一阶谓词逻辑不同的是 描述逻辑系统能提供可判定的推理服务 除了知识表示以外 描述逻辑还用在其它许多领域 它被认为是以对象为中心的表示语言的最为重要的归一形式 描述逻辑的重要特征是很强的表达能力和可判定性 它能保证推理算法总能停止 并返回正确的结果 在众多知识表示的形式化方法中 描述逻辑在十多年来受到人们的特别关注 主要原因在于 它们有清晰的模型-理论机制 很适合于通过概念分类学来表示应用领域 并提供了很用的推理服务
  • 第六层证明层和第七层信任层负责提供认证和信任机制