破宝 - 博客园

imdict-chinese-analyzer .NET转写版

摘要：中文切词领域，中科院开发的 ICTCLAS 占有重要一席，号称是世界上最好的中文分词系统。ICTCLAS 初期曾发布过一个免费版本（C++），采用“自然语言处理开放资源许可证”公开。后来走向商业开发道路，最新版本是 ICTCLAS 2010，提供有 C++, Java, C# 等多种版本可供购买。从 ICTCLAS Free 版有一些衍生版本：ictclas4j 是张新波（sinboy）移植的 Java 版本，SharpICTCLAS 是吕震宇移植的 C# 版本。这两个版本也采用“自然语言处理开放资源许可证”。20 阅读全文

posted @ 2011-02-11 05:04 破宝阅读(1337) 评论(4) 推荐(1) 编辑

SQLite全文检索(2)

摘要：距上一篇有好久了，因为乏人问津所以一直也没写这第二篇。年前看到有人给我发消息问 SQLite 全文检索的事，我想哪怕只有一个人看吧，我也整理整理。这一篇就写写如何扩展 SQLite 使它支持东亚文字的切词。熟悉 Lucene 的童鞋大概知道，切词是在索引时进行的。对 SQLite 来说，也就是 INSERT UPDATE 时发生切词。SQLite 的做法是，在定义 FTS 虚表时指定切词器：还记得“porter”吗？当然这里不是哈利波特，其实是指Martin Porter设计的切词算法。或许你在 Lucene 里见过，这个切词器主要用于英语词的整形（如复阅读全文

posted @ 2011-02-10 07:33 破宝阅读(4464) 评论(12) 推荐(6) 编辑

SQLite全文检索(1)

摘要：说到全文检索，目前比较流行、也比较成熟的选择是 Lucene.net。今天给大家介绍的是 SQLite 内置的全文检索功能，以如此小的 footprint 实现全文检索功能，我想还是有一定吸引力的。国内目前涉及此领域的文章还很少，.net 圈估计本文是第一篇吧，能力有限，多多包涵。阅读全文

posted @ 2010-08-18 19:52 破宝阅读(7497) 评论(4) 推荐(4) 编辑

80块钱毁掉“猪八戒”的信誉

摘要：简单列一列“猪八戒”的罪状： * “猪八戒”贪图区区80块钱的小利，就无视雇主、投标者双方的利益。 * 仅仅由于有人投诉，就做出作弊的裁断。丝毫不和当事人联系、以确认身份，仅凭投诉人一面之词就做出决定。 * 不仅事前没有联系当事人，事后也不主动通知，企图蒙混过关，昧掉80块钱。 * 违背雇主意愿，随意添加“入围”稿件。 * 以公司内部的规定为由，拒不给出所谓的作弊证据。雇主和投标者双方的利益都得不到保障，谁还敢信任你们？ “猪八戒”你要记住：好事不出门，坏事传千里！作恶一次，即使行善百次也是无法弥补的！丢了信誉，你的“威客”也就快玩完了。阅读全文

posted @ 2009-12-24 08:27 破宝阅读(1558) 评论(15) 推荐(2) 编辑

有点郁闷：MSDN文档中MidpointRounding.AwayFromZero的翻译错误

摘要：很早就知道 Math.Round 方法实际上并不是我们上学时学到的“四舍五入”，而是 IEEE 标准定义的“银行家舍入”算法，通俗说法是“四舍六入五成双”（1.5→2, 4.5→4）。当需要用到“四舍五入”算法时，.NET 1.x 中是需要自己实现(比如一种思路：正数加0.5后Math.Floor，负数减0.5后Math.Ceiling)。.NET 2.0 开始，Math.Round 方法提供了一个枚举选项 MidpointRounding.AwayFromZero 可以用来实现传统意义上的“四舍五入”。即： Math.Round(4.5, MidpointRounding.AwayFrom. 阅读全文

posted @ 2009-06-15 11:53 破宝阅读(1420) 评论(0) 推荐(0) 编辑

当 ASP.net Mobile Controls 碰到“中国特色”的 CMWAP / UNIWAP

摘要：一直觉得 ASP.net Mobile Controls 很有用，它可以根据客户端的 UserAgent 自动判断客户端浏览器的能力，自动选择最适合的方式（WML 1.1，XHTML Basic, PC 用的 HTML，日本 Docomo 和 Willcom 特有的 CHTML 等等）输出内容。国内说起手机上网，一般称呼是说 WAP。其实目前市场中的很多手机早已不仅仅只支持 WML 1.1 这... 阅读全文

posted @ 2009-02-20 00:35 破宝阅读(407) 评论(0) 推荐(0) 编辑

闲话“正版”：正版软件和盗版软件的区别到底是什么？

摘要：接上篇继续说。如果调查一个问题：正版 Windows 和盗版 Windows 的区别是什么？我觉得会有如下的回答： “正版的包装精良”“正版的光盘质量好，不容易坏”（这估计是普通老百姓的说法） “正版 Windows 有微软的正版贴签”（这估计是软件店促销MM的说法） “正版 Windows 不用担心激活的问题”（这估计是经常帮人装机的“高手”的说法） “盗版 Windows 是不是会有错别字啊... 阅读全文

posted @ 2008-09-24 08:22 破宝阅读(2323) 评论(1) 推荐(0) 编辑

闲话“正版”：真是因为“缺钱”吗？

摘要：最近有一条争议不小的新闻：微软（中国）在国庆节期间的促销活动，Office家庭版降价到199元。这让我想到了我三年多前的一篇博文，梦呓：微软在中国的新定价策略——比例折算法。这个价格可以说比“比例折算法”还要实惠。不过遗憾的是，网上投票情况显示，半数以上的网民对此促销活动并不买账，认为只要比盗版价格高就绝不买正版。这也如实反映了国民对“正版”的认识程度。很多人拒绝正版的理由是没钱。但另一方面却发现，大家对于硬件选择相当的“阔绰”“奢侈”，全部组件都要选择最高等级，CPU要市场上最快的，硬盘要转速高容量大的，要外加两三千的专业级独立显卡，再加杜比5.1的家庭影院，呵呵，无论自己的实际需求是否真的阅读全文

posted @ 2008-09-24 07:00 破宝阅读(237) 评论(0) 推荐(0) 编辑

又一个疑似Bug： XmlDataSource 控件的 Data 属性动态改变时，缓存不会自动失效

摘要：最近似乎不太顺利，总是一钻进 Reflector 就 N 久时间找不到问题所在，一点一点琢磨那些可疑的、没有头绪的、没有注释的 BCL （.net 的基础类库）源代码，以确认到底是我错了，还是微软错了。这不，又发现一个疑似bug，如标题所写。 XmlDataSource 控件一般是和 TreeView 组合使用的，如果是静态的 XML 数据是不会碰到什么问题的，但一变成动态数据，就总碰到一些怪异... 阅读全文

posted @ 2008-06-16 20:16 破宝阅读(290) 评论(0) 推荐(0) 编辑

立此存照：System.Net.Mail 的 bug

摘要：痛苦了debug了一个多钟头，后来终于在网络上找到了这篇“救星”文章：http://columns.chicken-house.net/blogs/chicken/archive/2007/04/06/system-net-mail-bug.aspx立此存照，如果您也碰到同样问题，希望能够能比我更幸运些，更早找到问题所在。症状是：调用 SmtpClient.Send 方法后，出现 System.FormatException，英文消息为“An invalid character was found in header value.”中文消息是：“邮件标头中找到无效字符”。原因是在 SmtpCl 阅读全文

posted @ 2008-06-10 18:25 破宝阅读(294) 评论(0) 推荐(0) 编辑

破宝