兴趣点(POI)是地理信息系统中的一个术语,泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、餐馆、加油站、医院、超市等。兴趣点的主要用途是对事物或事件的地址进行描述,能在很大程度上增强对事物或事件位置的描述能力和查询能力,提高地理定位的精度和速度。
地理编码
地理编码(geo-Coding)是兴趣点查询的基础,是实现基于地理信息系统空间化和可视化分析的桥梁。地理编码技术可以用于整合社会各部门的专业数据,并将其同地理空间数据关联起来,方便人们从宏观上进行把握,纵向上进行数据搜索和挖掘。一个兴趣点应该至少包含3个方面的信息:名称、类别和地理坐标。
1.地理编码概念
广义的地理编码概念是指对地理对象进行空间位置标识、计算和处理的过程。这里的地理对象可以是具有一定地理意义和实用意义的地理实体(如某大厦)、地理要素类、地理区域和范围(如行政区域、街道、影像像素等)等。地理编码通过对地理对象在确定的参考系中按一定的规则赋予唯一的和可识别的代码,从而唯一确定地理对象的空间位置,也就是说建立地理对象与代码之间的映射关系。该映射既可以是地理对象与地址的映射,也可以是地理对象与坐标系统的映射。
狭义的地理编码概念是常用的定义,是指将自然语言描述的地理位置信息根据既定的地址模型和编码规则,生成在计算机中存储的编码。要让计算机识别一个地址描述信息并定位到空间位置,就必须实现将它数字化,建立相应的地理编码。
地理编码通过在含地址的表格数据与相关图层之间建立联系,把地理坐标分配给含相应地址的表格数据记录,并为其创建一个相应的要素图层。它将全部实体按照预先拟定的分类系统,选择最适宜的量化方法,按实体的属性特征和集合坐标的数据结构,记录在计算机的储存设备上。
2.地理编码原则
(1)编码唯一性:所谓唯一性就是指编码与实体一一对应,但允许一个实体有多种文字表述。
(2)编码的可扩展性:通过预留类目为可能增加的编码对象准备可扩展的空间。
(3)兼容性:在标准不统一的情况下,通过兼容性设计,使得不同的标准可以协调共存。
(4)科学实用性:编码能够反映编码对象的最稳定本质特征,能够满足地理编码应用的需求,简单易用。
(5)空间性:编码能够在一定程度上包含实体的空间属性。
3.地理编码基本原理
地理编码的基本原理是根据属性数据特征点的地理坐标或空间地址(如省市行政编码、街区编号、邮政编码、楼号等),将数据库中的属性数据和它在地图上相对应的空间图形要素建立一一对应的关系,即给每个数据赋予X、Y值,从而确定该点在图上的位置。
4.地理编码流程
地理编码的过程通常包括两个明确的步骤:地址标准化和地址匹配。地址标准化是指在进行地理编码之前,将道路地址处理为一种熟悉的、常用的格式,纠正道路和地址名称的拼写形式等。地址匹配是将自然语言描述的地址位置信息根据既定的地址模型和编码规则进行智能语义分析和解析,获取其对应的空间坐标信息和地理编码的关联过程。地址匹配主要根据特定的属性信息或相应的条件确定符合具有的地址属性信息或条件的相应的地理空间位置,并将符合要求位置进行标注并显示在地图上,其主要目的是为输入的属性信息和条件查找最准确的匹配结果。因此,地理编码数据库中不仅要存储地理实体的位置数据,如道路地址、路名、楼名、地名、邮政区、行政区划等,而且要存储这些位置数据所对应的地图定位信息(空间坐标)。
5.地理编码方法
一般来讲,地理编码主要有以下两种方式:
(1)基于地理格网的地理编码
地理格网是按一定的数学规则对地球表面进行分割,形成彼此邻接又不交叉的多个多边形(四边形、三角形),并赋予标识符(即地理编码),这些多边形(格网单元)之间的空间关系是隐含的。基于地理格网的地理编码通过格网建立相对关联的方法,建立地理对象的地址属性,其实质是对地理对象的二维地理位置编码(实体→地理位置、格网坐标)和解码(地理位置、格网坐标→实体)。
基于地理格网的地理编码是一种适用广泛的地理编码方法。从地理编码的几个要素来说,几乎每一种地理对象都可以采用基于格网的地理编码方法;而地理格网本身就是一种基于地理标识符的间接空间参考系。美国、英国、澳大利亚等国家就是建立国家格网后以此种编码方式为社会提供各种地理实体基于位置的服务的。
基于地理格网的地理编码优点在于定位精确,精度可以根据需要较为自由的控制,如美国的编码精度可以控制在1m~10km之内,特殊应用甚至可以达到mm级别。格网建立以后,各级之间关系明确、使用方便。而且格网经均匀裁切,可以无缝拼接。缺点在于较难精确记录点状和线状地理实体,难以建立地理对象之间的空间拓扑关系。它需要建立一整套严密的从大地基准、参考椭球、投影方式、首选格网的规定、格网原点、格网划分规则、格网标识编码以及格网精度等各个方面去描述的格网系统,需要综合考虑包括确定编码的最小地理对象或单元在内的多种因素。
(2)基于地理实体地址编址的地理编码
这种地理编码采用地理实体与地址建立直接关联的方法,建立地理实体的地址属性。它是针对地理实体的一种传统意义上的地理编码,将地址、门牌、建筑物名、企事业单位名称等空间位置的自然语言描述转化为地址编码,其实质就是建立地理实体与地址(空间位置)的一一对应关系,也是对地理对象的二维地理位置编码(实体→地址)和解码(地址→实体)。它一般建立在基于坐标的空间参考系中。
这种方式的优点在于它的编码方式易于被大家接受,而且符合人们惯用的思维方式,推广容易。缺点在于,现有地址使用的不规范性以及中文地址本身的不规范性和重复性,使得这种编码方式存在技术上的难点以及可能存在潜在错误及漏洞,地址数据的标准化及其标准化处理工作量也非常大。
在实际应用中,基于地理实体地址编址的地理编码方式有3种:定位到道路、定位到区域以及定位到道路和定位到区域相结合的方式。定位到道路是通过道路名和门牌号码进行匹配,在参考主题中每一个路段都具有道路名和起止门牌号码信息,在地理编码时,首先根据地址信息中道路名找到参考主题中相同名称的路段(一般情况下有多个路段),然后根据地址信息中的门牌号及每个路段的起止门牌号码信息找到门牌号所在路段,最后根据门牌号及该路段的起止门牌号码信息进行内插确定该记录在该路段上的位置。定位到区域是将地址中具有区域属性的记录与地图地址相应属性的区域记录进行比较,如果匹配成功,则将待查地址区域以点要素形式生成在地图的相应区域内。利用已有的楼宇信息,将位于楼宇中的企业定位到楼宇中也是定位到区域的方法。
一个较为完善成熟的地理编码系统应该具有如下功能:
(1)语义解析。能够深入理解地址内部,理解地址串语义层面的信息,如识别地址中等价冗余的部分,自动尝试解析出最精确的地址要素。
(2)地址匹配。能够利用解析出来的地址信息,允许用户在匹配时指定不同的策略,例如在不同精度上匹配,匹配满足某些特定条件的地址。
兴趣点查询方法
兴趣点查询是通用搜索引擎发展到一定阶段后,随着用户的个性化服务需求而出现的,即是按照用户的兴趣选择相应类别,查询相关的POI信息。对于LBS用户而言,可以通过输入关键字进行属性查询,如查询名为“XXX”的酒店;也可以按范围和类别进行查询,如查询5km范围内的加油站。兴趣点查询方法类似于Web搜索方法,可采用布尔逻辑模型、向量空间模型和概率模型等数学模型来建立查询检索模型。
1.兴趣点查询流程
兴趣点查询首先需要激活一次定位服务,获取当前的位置,再激活一次窗口查询,得到兴趣点列表。一个典型的兴趣点查询流程如下:
① 用户激活一个定位服务,发送自己的识别码;
② 定位服务从电信运营商的定位服务器获得用户位置,将该位置返回给用户;
③ 服务器根据请求参数,返回地图并显示;
④ 启动一个POI查询;
⑤ 服务器完成一次空间查询,返回查询结果给用户。用户如果对查询结果不满意,则可以上报问题,提供自己了解的信息,系统在数据库中生成一条记录。
2.用户访问日志分析
用户访问日志记录了用户访问搜索引擎时的行为,真实反映用户的需求和兴趣。访问日志分析是优化搜索引擎的重要手段之一,可以将用户访问日志直接应用到搜索结果排序算法中,然后加入用户反馈排序,提高搜索结果的准确性,优化POI搜索引擎。
将用户访问日志分析应用到搜索结果排序的流程如下。
首先,建立好相似度模型;然后,收集大量用户访问日志;最后,利用反馈相似度模型训练这批用户访问日志,得到用户查询集合和POI集合的反馈相似度S(Q,P)。并以文件形式保存S(Q,P)。最后,在用户查询时,使用S(Q,P)指导搜索结果排序,提高用户满意度,优化POI搜索引擎。
具体做法如下:当用户输入查询(记作q1)时,首先查找文本索引,获取匹配的POI集合。对于匹配的POI集合中的每一个POI(记作p1),动态计算q1和p1的文本相似度(记作T(q1,p1)),同时从S(Q,P)中静态查找q1和p1的反馈相似度S(q1,p1)。对T(q1,p1)和S(q1,p1)进行交叉排序得到q1和p1的最终相似度S(q1,p1)。按最终相似度从大到小排序显示给用户。
兴趣点数据的更新维护
兴趣点数据的准确性和实时性,对于LBS的可用性至关重要。由于城市建设快速发展,导致兴趣点也随着地形地貌、业务单位规划的变更而相应地变化,这就要求兴趣点数据能得到不断的丰富和更新。据不完全统计,每年兴趣点的变更量约占兴趣点总量的20%左右,由此必须建立高效可行的兴趣点动态管理和定期维护更新机制,以满足城市管理的需要。
兴趣点数据的更新一直以来就被认为是一项耗费大、周期长的工作,易于变化也是兴趣点数据的一大特点,这给兴趣点数据的更新带来了很大的困难,传统的周期性更新方式已不能适用于对兴趣点数据的更新。
Google和Go2Map采用的兴趣点数据更新方法是一种较新的模式。Google和Go2Map都推出了各自的地图社区服务。地图社区服务主要通过一种开放式论坛的形式提供。用户可以对自己所知道的位置进行标注,发布到服务器上,与其他用户进行共享。这种方法将用户这个庞大的群体纳入到了数据生产者行列,为兴趣点数据更新提供了新的途径和方法。但这一数据更新模式也带来一些问题。首先,这些自由发布的数据和信息的正确性无法得到保证;其次,一些用户发布的信息涉及感情、道德、隐私、机密等问题,引起了人们的争议。因此,用户参与的兴趣点数据更新方法虽然可行,但是在发布这些数据之前,需要有一种审查机制,才能适合商业的应用。