为Python添加中文关键字-低调大师

为Python添加中文关键字

2019-04-21 739

1.大部分语法，可以按下面方法加同义的中文token
第1步. 编译pgen
cd到python的源代码目录下，

./configure
make Parser/pgen

第2步. 修改 ./Grammar/Grammar，添加同义词并生成语法代码。

以while，else为例
原文：

while_stmt: 'while' test ':' suite ['else' ':' suite]

改为：

while_stmt: ('while'|当) test ':' suite [('else'|另) ':' suite]

保存 ./Grammar/Grammar为UTF-8格式

执行

./Parser/pgen ./Grammar/Grammar ./Include/graminit.h ./Python/graminit.c

虽然会提示错误，但输出是有效正确的。

其实pgen不支持UTF-8，这里中文名不需要用单引号或双引号，利用pgen的容错性，减少工作量。

2.还有一较复杂语法在/Python/ast.c 里有辅助解析

例如

comp_op: ... |'in'|'not' 'in'|'is'|'is' 'not'

改为

comp_op: ... |('in'|在)|('not' 'in'|不在)|('is'|为)|('is' 'not'|不为)

在ast.c里的 ast_for_comp_op 中

if (NCH(n) == 1)
 switch (TYPE(n))
     case NAME:
/******添加如下代码*******/
         if (strcmp(STR(n), "在") == 0) 
              return In;
         if (strcmp(STR(n), "不在") == 0) 
               return NotIn;
         if (strcmp(STR(n), "为") == 0) 
               return Is;
         if (strcmp(STR(n), "不为") == 0) 
               return IsNot;

其实从源代码我们可以看出来，comp_op原来的判断是token有两个单词的话，第二个单词为in返回NotIn，第一个单词为is返回IsNot。

另外就是 None，True，False，finally，async，await 需要添加一下。

3.内置函数中文化

在/Python/bltinmodule.c中的builtin_methods[]中添加

以print为例，将含"print"的一行复制粘贴，替换第二行的"print"为"打印"即可

  {"print",           (PyCFunction)builtin_print,      METH_FASTCALL | METH_KEYWORDS, print_doc},
   {"打印",           (PyCFunction)builtin_print,      METH_FASTCALL | METH_KEYWORDS, print_doc},

其他的还有一些宏，展开看一下，就明白了。

  BUILTIN_LEN_METHODDEF
   {"长", (PyCFunction)builtin_len, METH_O, builtin_len__doc__},

之后 make 编译python即可。

中文的py文件也需要保存为UTF-8格式。

2017-11-17

微信关注我们

原文链接：https://yq.aliyun.com/articles/699286

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

为clang添加中文关键字

知乎原文地址作者:@狗屎咖啡以clang为基础做了一个与C++、C兼容中英文关键字的编译器 swizl/cnlang 原理就是加与英文关键字等效的中文关键字在/include/clang/Basic/TokenKinds.def 中用ALIAS添加中文关键字例如 KEYWORD(char, KEYALL) ALIAS("字", char, KEYALL) 在 /lib/Basic/IdentifierTable.cpp 中加个头文件 #include "llvm/ADT/StringSwitch.h" 在 tok::PPKeywordKind IdentifierInfo::getPPKeywordID() const 里用 llvm::StringSwitch 添加中文宏例如 //default: return tok::pp_not_keyword; default: return llvm::StringSwitch<tok::PPKeywordKind>(Name) .Case("如", tok::pp_if) .Case("定义", tok::p...

2019-04-21

767

知乎原文地址作者:@狗屎咖啡目前VS 和Clang都是支持utf-8的变量名、函数名，但 GCC不支持。有人提意见，提了好几年了：UTF-8 support for identifier names in GCC GCC并没有解决，但官方给了一个解决方案：FAQ - GCC Wiki 就是用这样一条脚本语句转换一下源文件 perl -pe 'BEGIN { binmode STDIN, ":utf8"; } s/(.)/ord($1) < 128 ? $1 : sprintf("\\U%08x", ord($1))/ge;' 这条语句的意思是将源文件按utf-8读取出来，大于128的unicode(不在ASCII里)都用16进制的Uxxxxxxxx的格式替代。这种格式叫UCN。实际上gcc内部还是将UCN转换成utf-8字符串，再加到符号表。却不支持原生的UTF-8符号，这个就有点搞笑了。虽然有人会说，C、C++的标准里没有对UTF-8符号的支持，GCC不支持UTF-8符号是符合标准的。但是GCC从来就不是死守标准的乖宝宝对吧，加了不少扩展了。为啥这个不能扩展一下呢？...

2019-04-21

1220

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。