`
文章列表
Windows7中,有两个很大的文件,一个是pagefil.sys,另一个是hiberfil.sys。它们俩能占去将近10G的地盘,对于一个比较小的系统盘来说,这样的文件就太要命了吧。一定要把它们请出可怜的系统盘。1.pagefil.sys是虚拟内存的文件,它的移 ...
Elasticsearch安装与启动 下载Elasticsearch软件包   这里在多说一句,Elasticsearch提供了两种安装方式:   一种是根据发行版,通过Elasticsearch官方提供的repositories安装,具体安装方法情参考官方指南。 另一种是通过下载软件包在以解压的方式安装。
Elasticsearch优秀案例 Github Github:GitHub使用ElasticSearch搜索20TB的数据,包括13亿文件和1300亿行代码。      
ElasticSearch 是一个基于Lucene构建的开源的、分布式的、RESTful API 式的搜索服务器,是开源搜索平台的新成员,实时数据分析的神器,具备高可靠性,用于云计算,能够达到实时搜索且稳定,可靠的快速服务。     Elasticsearch 近几年发展迅猛,可以从以下几点便可明白elasticsearch所受的关注度是很高的。  
  一、Elasticsearch集群的概念(cluster) 在一个分布式系统里面,可以通过多个elasticsearch运行实例组成一个集群,这个集群里面有一个节点叫做主节点(master),elasticsearch是去中心化的,所以这里的主节点是动态选举出来的,不存在单点故障。   在同一个子网内,只需要在每个节点上设置相同的集群名,elasticsearch就会自动的把这些集群名相同的节点组成一个集群。节点和节点之间通讯以及节点之间的数据分配和平衡全部由elasticsearch自动管理。   在外部看来elasticsearch就是一个整体。
  如何编写UDF我就不赘述了,网上资料大把。贴一个参考链接直接略过。   主要讨论两个点,是开发过程中遇到的难点。 1. UDF读取外部资源。 2. 外部资源存放位置。   为什么会遇到这两个问题?   开发UDF的目的就是为了扩展数据库一些没有的功能。常用功能例如count,sum这些,但是偶尔会遇到一些复杂的计算数据库没有直接实现的函数,解决方法一是直接读取数据然后用程序去二次处理但是时间比较慢,解决方法二就是根据需求开发对应的UDF,在查询语句中直接运算出结果。   我遇到这个问题是在过根据用户ip进行地域统计的时候。由于ip不能直接与ip库进行对应
UDF步骤: UDF(User-Defined-Function) 用来解决 一行输入一行输出(On-to-On maping) 的需求。 1.继承org.apache.hadoop.hive.ql.exec.UDF 2.实现evaluate函数,evaluate函数支持重载 [java] view plaincopy   package
分区表、分区索引和全局索引:     在一个表的数据超过过2000万条或占用2G空间时,建议建立分区表。         create table ta(c1 int,c2 varchar2(16),c3 varchar2(64),c4 int constraint pk_ta primary key (c1)) partition by range(c1)(partition p1 values less than (10000000),partition p2 values less than (20000000),partition p3 values less than ( ...
var obj={ f1:{f2:{f3:2}} } var key="f1.f2.f3" var value=eval("obj."+key); console.log(value);  
出自:http://my.oschina.net/beiyou/blog/76456   一,基本命令:     建表:create 'testtable','coulmn1','coulmn2'      也可以建表时加coulmn的属性如:create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION => 'LZO', TTL => '30000', IN_MEMORY =& ...
出自: http://www.cnblogs.com/panfeng412/archive/2013/06/08/hbase-slow-query-troubleshooting.html 最近HBase集群遇到过一次慢查询请求的问题,下面是对这一问题的具体描述及排查解决过程。 1. 发现问题 项目中有一张HBase表,每天凌晨以后会集中批量导入一批数据,导入数据量很大,在千万到亿的量级,然后白天为用户提供查询服务。某天突然发现,该表按照各个region(共计256个)分别仅scan少数几条数据时,部分region的查询请求的响应时间很慢,长达10秒甚至几十秒不等。 2. 排查问题 ...
转自IBM:http://www.ibm.com/developerworks/cn/java/j-solr-lucene/    我 6 年前开始为 developerWorks 编写 Solr 和 Lucene(参见 参考资料)。这些年来,Lucene 和 Solr 将自身建设成了一项坚不可摧的技术(Lucene 作为 Java™ API 的基础,Solr 作为搜 ...

Lucene 使用教程

1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 1.2 lucene能做什么 要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。知道了这个本质,你就可以发挥想象做任何符合这个条件的事情了。你可以把站内新闻都索引了,做个资料库;你可以把一个数据库表的若干个字段索引起来,那就不用再 ...
对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、 CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中的词,将文字进行切分。车东的交叉双字分割或者叫二元分词我觉得应该算是按字索引的改进,应该还是属于字索引的范畴吧。分词准确性的评估比较难,很难有统一的标准,不同应用的要求也不同,这个统一以“2008年8月 ...
0000-007F C0 Control and Basic Latin, 標準ANSI字元0080-00FF C1 Control and Latin-1 Supplement, 控制碼與拉丁文0100-024F Latin Extended, 拉丁文0250-02AF IPA Extensions, 拉丁文02B0-02FF Spacing Modifier Letters, 符號0300-036F Combining Diacritical Marks, 組合記號0370-03FF Greek and Coptic, 希臘文與科普特文0400-052F Cyrillic, 西里爾文053 ...
Global site tag (gtag.js) - Google Analytics