批次新增語彙 - 20250425
先锋语料库是一套给包括威注音输入法在内的几款注音输入法准备的语料库。目前仍在完善中。
针对以下组译对象的组译过程均需要 swift 脚本支援,且 swift 版本不小于 5.7。理想状态就是至少 macOS Catalina 且安装了带有对应版本 swift 支援的 Xcode 命令列工具。
Linux 系统的话,请注意两个先决条件:
cargo install chewing-cli
目前整个仓库的建置代码已经全部重写。Makefile 目前的内容并未能反应该仓库的这次重写的变化,故只有下述三道命令可以正常使用:
make clean
make lint
make format
本仓库的格式化往往是 make lint; make format 按照这个顺序一次性执行格式化操作。
make lint; make format
在使用本仓库时,请在仓库根目录下运行 swift run,会出现类似下述格式的使用说明:
swift run
VCDataBuilder - 先鋒語料庫辭典建置工具。 版本:2024.02.27 VCDataBuilder 建置前的用法(請在建置辭典時注意當前目錄必須得是專案目錄): swift run VCDataBuilder <type> [type2] [type3] ... swift run VCDataBuilder all VCDataBuilder 建置後的用法(請在建置辭典時注意當前目錄必須得是專案目錄): VCDataBuilder <type> [type2] [type3] ... VCDataBuilder all 可用的辭典建置目標: vanguardTrieSQL - 先鋒引擎原廠辭典格式(Trie, SQLite) vanguardTriePlist - 先鋒引擎原廠辭典格式(Trie, Plist) chewingRustCHS - 新酷音輸入法引擎(0.6.0 開始的 Rust 語言版專用,簡體中文) chewingRustCHT - 新酷音輸入法引擎(0.6.0 開始的 Rust 語言版專用,繁體中文) chewingCBasedCHS - 新酷音輸入法引擎(0.5.1 為止的 C 語言版專用,簡體中文) chewingCBasedCHT - 新酷音輸入法引擎(0.5.1 為止的 C 語言版專用,繁體中文) mcbopomofoCHS - 小麥注音輸入法(簡體中文)// 不支援 PIME 版本 mcbopomofoCHT - 小麥注音輸入法(繁體中文)// 不支援 PIME 版本 vanguardSQLLegacy - vChewing 舊版格式(vChewing 3.x 後期 SQLite 格式) 注意: 1. chewingCBasedCHS 與 chewingCBasedCHT 的建置僅可以在下述系統內執行: - macOS 10.15 以上(Intel 或 Apple Silicon) - Linux(僅 x86_64) - Windows NT 10.0 以上(僅 x86_64) 除非迫不得已,否則請改用以 Rust 語言寫就的次世代新酷音輸入法引擎。 2. chewingRustCHS 與 chewingRustCHT 在 Windows 系统下建置的話, 需要事先安裝「TSF 版」新酷音輸入法、且版本至少 2024.10.1。 已知該版 TSF 新酷音有同綑 chewing-cli 工具,該工具可以用來建置辭典。 而敝倉庫會生成用以建置辭典的所有原始檔案格式(tsi.src 與 word.src)。 3. Windows 系統下建置時需要注意: - 需要 PowerShell 5.1 或更高版本 - 執行策略(Execution Policy)需要允許執行本地腳本 - 建議使用管理員權限執行,以避免檔案權限問題。 範例: // 給所有的建置目標全部建置一遍: VCDataBuilder all // 僅建置給新酷音輸入法引擎的 Rust 版(同時建置繁體中文與簡體中文): VCDataBuilder chewingRustCHS chewingRustCHT
世间原本只有一款原生简体中文注音输入法,就是自 2007 版以来至今的微软新注音(虽然 Windows 8 内建的新注音暂时移除了这个功能)。但是呢?微软从 2007 年开始拖到现在不去修正这个输入法的简体中文模式敲不了「略」「虐」音,导致这个模式根本就不堪用。而且 macOS 平台也是需要原生的简体中文注音输入法的。能够打繁出简的雅虎奇摩注音到现在仍是不死小强,但注定是只能活在 Intel Mac 时代。
先从一个中立语汇库开始着手吧。
中国大陆、台澎金马、新加坡的读音都会收录,以方便这些市场的使用者们都能够受益于任何使用了该资料库的输入法。
先鋒語料庫原則上拒收任何「會在法理上妨礙自身在全球傳播」的「與地緣政治及政治意識形態有關」的內容。如有發現相關內容的話,歡迎私下提報。
原厂词库主要词语资料来源:
部分读音资料来源:
语料库资料来源:
仅抓取被通用规范汉字表收录的汉字、及其对应的台湾繁体汉字的字频。但不一定会被实际套用。特别是新闻报纸类的文章当中的字频数据严重缺乏一些口语交流用字的字频优先权重。
3-Clause BSD License:https://opensource.org/licenses/BSD-3-Clause
注一:该仓库的 Swift 脚本编译系统虽有对新酷音词库格式的支持,却并未使用新酷音的字词库与频率语料,故不受其 LGPLv2 协议之约束。
注二:该仓库随赠一套 LibChewing 酷音输入法引擎的辞典编译程式「init_database」的修改版本(可以辨识高于 65535 的词频资料),方便大陆使用者「哪怕无法存取 GitHub、也能编译出用于新酷音的词库档案」。这套档案继承酷音输入法引擎的授权「LGPL 2.1」。另外,这个 binary 仅针对以 C 语言写就的新酷音引擎。至于以 Rust 写就的新酷音引擎所需要的档案,敝仓库也会同时正常建置、且建置过程不依赖这个 binary。
注三:VanguardTrieKit 以 LGPLv3 释出。本仓库内的 VanguardTrieKit 是从 LibVanguard 复制出来的个别档案的副本、且不包含对 SQLite API 的直接交互之部分。
$ EOF.
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
先锋语料库 (Vanguard Corpus)
简介
先锋语料库是一套给包括威注音输入法在内的几款注音输入法准备的语料库。目前仍在完善中。
组译方法
针对以下组译对象的组译过程均需要 swift 脚本支援,且 swift 版本不小于 5.7。
理想状态就是至少 macOS Catalina 且安装了带有对应版本 swift 支援的 Xcode 命令列工具。
Linux 系统的话,请注意两个先决条件:
cargo install chewing-cli
命令安装 chewing-cli。目前整个仓库的建置代码已经全部重写。Makefile 目前的内容并未能反应该仓库的这次重写的变化,故只有下述三道命令可以正常使用:
make clean
make lint
make format
本仓库的格式化往往是
make lint; make format
按照这个顺序一次性执行格式化操作。在使用本仓库时,请在仓库根目录下运行
swift run
,会出现类似下述格式的使用说明:来由
世间原本只有一款原生简体中文注音输入法,就是自 2007 版以来至今的微软新注音(虽然 Windows 8 内建的新注音暂时移除了这个功能)。但是呢?微软从 2007 年开始拖到现在不去修正这个输入法的简体中文模式敲不了「略」「虐」音,导致这个模式根本就不堪用。而且 macOS 平台也是需要原生的简体中文注音输入法的。能够打繁出简的雅虎奇摩注音到现在仍是不死小强,但注定是只能活在 Intel Mac 时代。
先从一个中立语汇库开始着手吧。
资料收录宗旨
中国大陆、台澎金马、新加坡的读音都会收录,以方便这些市场的使用者们都能够受益于任何使用了该资料库的输入法。
资料来源
原厂词库主要词语资料来源:
部分读音资料来源:
语料库资料来源:
仅抓取被通用规范汉字表收录的汉字、及其对应的台湾繁体汉字的字频。但不一定会被实际套用。特别是新闻报纸类的文章当中的字频数据严重缺乏一些口语交流用字的字频优先权重。
授权
3-Clause BSD License:https://opensource.org/licenses/BSD-3-Clause
注一:该仓库的 Swift 脚本编译系统虽有对新酷音词库格式的支持,却并未使用新酷音的字词库与频率语料,故不受其 LGPLv2 协议之约束。
注二:该仓库随赠一套 LibChewing 酷音输入法引擎的辞典编译程式「init_database」的修改版本(可以辨识高于 65535 的词频资料),方便大陆使用者「哪怕无法存取 GitHub、也能编译出用于新酷音的词库档案」。这套档案继承酷音输入法引擎的授权「LGPL 2.1」。另外,这个 binary 仅针对以 C 语言写就的新酷音引擎。至于以 Rust 写就的新酷音引擎所需要的档案,敝仓库也会同时正常建置、且建置过程不依赖这个 binary。
注三:VanguardTrieKit 以 LGPLv3 释出。本仓库内的 VanguardTrieKit 是从 LibVanguard 复制出来的个别档案的副本、且不包含对 SQLite API 的直接交互之部分。
$ EOF.