2019-02-14 04:05:07 +01:00
|
|
|
|
package jp.juggler.util
|
2018-01-04 19:52:25 +01:00
|
|
|
|
|
|
|
|
|
import java.util.ArrayList
|
|
|
|
|
|
2018-07-10 08:44:34 +02:00
|
|
|
|
class WordTrieTree {
|
2018-01-04 19:52:25 +01:00
|
|
|
|
|
|
|
|
|
companion object {
|
|
|
|
|
|
2018-07-10 08:44:34 +02:00
|
|
|
|
val EMPTY_VALIDATOR = { _ : CharSequence, _ : Int, _ : Int -> true }
|
2018-07-08 19:00:47 +02:00
|
|
|
|
|
|
|
|
|
// マストドン2.4.3rc2でキーワードフィルタは単語の前後に 正規表現 \b を仮定するようになった
|
|
|
|
|
// Trie木でマッチ候補が出たらマッチ範囲と前後の文字で単語区切りを検証する
|
|
|
|
|
val WORD_VALIDATOR = { sequence : CharSequence, start : Int, end : Int ->
|
|
|
|
|
|
|
|
|
|
// 文字種を正規化してから正規表現の単語構成文字 \w [A-Za-z0-9_] にマッチするか調べる
|
|
|
|
|
// 全角半角大文字小文字の違いは吸収されるが、英字数字アンダーバー以外にはマッチしない
|
|
|
|
|
fun isWordCharacter(c : Char) : Boolean {
|
2019-10-08 23:57:21 +02:00
|
|
|
|
val uc = CharacterGroup.getUnifiedCharacter(c)
|
2018-07-08 19:00:47 +02:00
|
|
|
|
return when {
|
|
|
|
|
'A' <= uc && uc <= 'Z' -> true
|
|
|
|
|
'a' <= uc && uc <= 'z' -> true
|
|
|
|
|
'0' <= uc && uc <= '9' -> true
|
|
|
|
|
uc == '_' -> true
|
|
|
|
|
else -> false
|
|
|
|
|
}
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
when {
|
|
|
|
|
// マッチ範囲の始端とその直前がともに単語構成文字だった場合、\bを満たさない
|
|
|
|
|
isWordCharacter(sequence[start])
|
|
|
|
|
&& start > 0
|
|
|
|
|
&& isWordCharacter(sequence[start - 1]) -> false
|
|
|
|
|
|
|
|
|
|
// マッチ範囲の終端とその直後がともに単語構成文字だった場合、\bを満たさない
|
|
|
|
|
isWordCharacter(sequence[end - 1])
|
|
|
|
|
&& end < sequence.length
|
|
|
|
|
&& isWordCharacter(sequence[end]) -> false
|
|
|
|
|
|
|
|
|
|
else -> true
|
|
|
|
|
}
|
|
|
|
|
}
|
2018-01-04 19:52:25 +01:00
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
private class Node {
|
|
|
|
|
|
|
|
|
|
// 続くノード
|
2019-02-15 02:51:22 +01:00
|
|
|
|
internal val child_nodes = androidx.collection.SparseArrayCompat<Node>()
|
2018-01-04 19:52:25 +01:00
|
|
|
|
|
|
|
|
|
// このノードが終端なら、マッチした単語の元の表記がある
|
|
|
|
|
internal var match_word : String? = null
|
|
|
|
|
|
|
|
|
|
// Trieツリー的には終端単語と続くノードの両方が存在する場合がありうる。
|
|
|
|
|
// たとえば ABC と ABCDEF を登録してから ABCDEFG を探索したら、単語 ABC と単語 ABCDEF にマッチする。
|
2018-07-10 08:44:34 +02:00
|
|
|
|
|
|
|
|
|
// このノードが終端なら、単語マッチの有無を覚えておく
|
|
|
|
|
internal var validator : (src : CharSequence, start : Int, end : Int) -> Boolean =
|
|
|
|
|
EMPTY_VALIDATOR
|
2018-01-04 19:52:25 +01:00
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
private val node_root = Node()
|
|
|
|
|
|
2018-07-06 17:22:22 +02:00
|
|
|
|
val isEmpty : Boolean
|
2018-01-04 19:52:25 +01:00
|
|
|
|
get() = node_root.child_nodes.size() == 0
|
|
|
|
|
|
|
|
|
|
// 単語の追加
|
2018-07-10 08:44:34 +02:00
|
|
|
|
fun add(
|
|
|
|
|
s : String,
|
|
|
|
|
validator : (src : CharSequence, start : Int, end : Int) -> Boolean = EMPTY_VALIDATOR
|
|
|
|
|
) {
|
2019-10-08 23:57:21 +02:00
|
|
|
|
val t = CharacterGroup.Tokenizer().reset(s, 0, s.length)
|
2018-01-04 19:52:25 +01:00
|
|
|
|
|
|
|
|
|
var token_count = 0
|
|
|
|
|
var node = node_root
|
|
|
|
|
while(true) {
|
|
|
|
|
|
|
|
|
|
val id = t.next()
|
|
|
|
|
if(id == CharacterGroup.END) {
|
|
|
|
|
|
|
|
|
|
// 単語を正規化したら長さ0だった場合、その単語は無視する
|
|
|
|
|
if(token_count == 0) return
|
|
|
|
|
|
|
|
|
|
// より長いマッチ単語を覚えておく
|
|
|
|
|
val old_word = node.match_word
|
2018-07-06 17:22:22 +02:00
|
|
|
|
if(old_word == null || old_word.length < t.text.length) {
|
2018-01-04 19:52:25 +01:00
|
|
|
|
node.match_word = t.text.toString()
|
2018-07-10 08:44:34 +02:00
|
|
|
|
node.validator = validator
|
2018-01-04 19:52:25 +01:00
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
return
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
++ token_count
|
|
|
|
|
var child : Node? = node.child_nodes.get(id)
|
|
|
|
|
if(child == null) {
|
|
|
|
|
child = Node()
|
|
|
|
|
node.child_nodes.put(id, child)
|
|
|
|
|
}
|
|
|
|
|
node = child
|
|
|
|
|
}
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
// マッチ結果
|
|
|
|
|
class Match internal constructor(val start : Int, val end : Int, val word : String)
|
|
|
|
|
|
|
|
|
|
// Tokenizer が列挙する文字を使って Trie Tree を探索する
|
2018-07-08 19:00:47 +02:00
|
|
|
|
private fun match(
|
|
|
|
|
allowShortMatch : Boolean,
|
|
|
|
|
t : CharacterGroup.Tokenizer
|
|
|
|
|
) : Match? {
|
2018-01-04 19:52:25 +01:00
|
|
|
|
|
|
|
|
|
val start = t.offset
|
|
|
|
|
var dst : Match? = null
|
|
|
|
|
|
|
|
|
|
var node = node_root
|
|
|
|
|
while(true) {
|
|
|
|
|
|
2018-07-08 19:00:47 +02:00
|
|
|
|
// match_wordが定義されたノードは単語の終端を示す
|
2018-01-04 19:52:25 +01:00
|
|
|
|
val match_word = node.match_word
|
2018-07-08 19:00:47 +02:00
|
|
|
|
// マッチ候補はvalidatorで単語区切りなどの検査を行う
|
2018-07-10 08:44:34 +02:00
|
|
|
|
if(match_word != null
|
|
|
|
|
&& node.validator(t.text, start, t.offset)
|
|
|
|
|
) {
|
2018-07-08 19:00:47 +02:00
|
|
|
|
|
|
|
|
|
// マッチしたことを覚えておく
|
2018-01-04 19:52:25 +01:00
|
|
|
|
dst = Match(start, t.offset, match_word)
|
2018-07-08 19:00:47 +02:00
|
|
|
|
|
2018-01-04 19:52:25 +01:00
|
|
|
|
// ミュート用途の場合、ひとつでも単語にマッチすればより長い探索は必要ない
|
|
|
|
|
if(allowShortMatch) break
|
2018-07-08 19:00:47 +02:00
|
|
|
|
|
|
|
|
|
// それ以外の場合は最長マッチを探索する
|
2018-01-04 19:52:25 +01:00
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
val id = t.next()
|
|
|
|
|
if(id == CharacterGroup.END) break
|
|
|
|
|
val child = node.child_nodes.get(id) ?: break
|
|
|
|
|
node = child
|
|
|
|
|
}
|
|
|
|
|
return dst
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
// ミュート用。マッチするかどうかだけを調べる
|
|
|
|
|
fun matchShort(src : CharSequence?) : Boolean {
|
|
|
|
|
return null != src && null != matchShort(src, 0, src.length)
|
|
|
|
|
}
|
|
|
|
|
|
2019-10-08 23:57:21 +02:00
|
|
|
|
private fun matchShort(
|
|
|
|
|
src : CharSequence,
|
|
|
|
|
@Suppress("SameParameterValue") start : Int,
|
|
|
|
|
end : Int
|
|
|
|
|
) : Match? {
|
2018-01-04 19:52:25 +01:00
|
|
|
|
|
2019-10-08 23:57:21 +02:00
|
|
|
|
val t = CharacterGroup.Tokenizer()
|
2018-01-04 19:52:25 +01:00
|
|
|
|
|
|
|
|
|
for(i in start until end) {
|
|
|
|
|
if(! CharacterGroup.isWhitespace(src[i].toInt())) {
|
|
|
|
|
val item = match(true, t.reset(src, i, end))
|
|
|
|
|
if(item != null) return item
|
|
|
|
|
}
|
|
|
|
|
}
|
|
|
|
|
return null
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
// ハイライト用。複数マッチする。マッチした位置を覚える
|
|
|
|
|
fun matchList(src : CharSequence?) : ArrayList<Match>? {
|
|
|
|
|
return if(src == null) null else matchList(src, 0, src.length)
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
// ハイライト用。複数マッチする。マッチした位置を覚える
|
2018-07-08 19:00:47 +02:00
|
|
|
|
fun matchList(src : CharSequence, start : Int, end : Int) : ArrayList<Match>? {
|
2018-01-04 19:52:25 +01:00
|
|
|
|
|
|
|
|
|
var dst : ArrayList<Match>? = null
|
|
|
|
|
|
2019-10-08 23:57:21 +02:00
|
|
|
|
val t = CharacterGroup.Tokenizer()
|
2018-01-04 19:52:25 +01:00
|
|
|
|
|
|
|
|
|
var i = start
|
|
|
|
|
while(i < end) {
|
|
|
|
|
if(! CharacterGroup.isWhitespace(src[i].toInt())) {
|
|
|
|
|
val item = match(false, t.reset(src, i, end))
|
|
|
|
|
if(item != null) {
|
|
|
|
|
if(dst == null) dst = ArrayList()
|
|
|
|
|
dst.add(item)
|
|
|
|
|
i = item.end
|
|
|
|
|
continue
|
|
|
|
|
}
|
|
|
|
|
}
|
|
|
|
|
++ i
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
return dst
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
}
|