使用JDT核心库解析JDK源码后初步分析API命名
源自术语词典API项目 · Issue #85 · program-in-chinese/overview, 打算先用早先的代码提取JDK API中的类/方法/参数名, 看看有哪些词需要翻译.
源码在program-in-chinese/programming_term_dictionary
类型名提取器.java 扩展了语法树遍历器, 对公开(public)的类型/方法/参数进行保存:
public class 类型名提取器 extends ASTVisitor {
private 类型名 名 = new 类型名();
private String 当前类名 = "";
@Override
public boolean visit(MethodDeclaration 方法节点) {
String 当前方法名 = 方法节点.getName().getFullyQualifiedName();
if (为公开声明(方法节点)) {
名.方法名.put(当前方法名, 当前类名);
}
for (Object 参数 : 方法节点.parameters()) {
VariableDeclaration 变量声明 = (VariableDeclaration) 参数;
String 参数名 = 变量声明.getName().getFullyQualifiedName();
// 忽略所有单字母参数名. TODO: 是否需要研究单字母命名?
if (参数名.length() > 1) {
名.参数名.put(参数名, 当前类名 + "." + 当前方法名);
}
}
return super.visit(方法节点);
}
@Override
public boolean visit(TypeDeclaration 类型节点) {
if (为公开声明(类型节点)) {
// TODO: 取完整类名(包括包名)
当前类名 = 类型节点.getName().getFullyQualifiedName();
名.类名.put(类型节点.getName().getFullyQualifiedName(), 当前类名);
}
return super.visit(类型节点);
}
public 类型名 获取名() {
return 名;
}
private boolean 为公开声明(BodyDeclaration 节点) {
return (节点.getModifiers() & Modifier.PUBLIC) != 0;
}
public class 类型名 {
public Map<String, String> 类名 = new HashMap<>();
public Map<String, String> 方法名 = new HashMap<>();
public Map<String, String> 参数名 = new HashMap<>();
}
}
遍历JDK类型名.java 暂时只对util部分进行分析
public class 遍历JDK类型名 {
private static final ASTParser 语法解析器 = ASTParser.newParser(AST.JLS8);
// JDK源码内路径
private static final String 常量_源文件路径 = "java/util";
private static final String 常量_输出文件路径 = "命名列表/";
private static final 类型名提取器 提取器 = new 类型名提取器();
/**
*
* @param 参数 第一个参数为JDK路径。可由JDK目录下的src.zip解压。
* @throws Exception
*/
public static void main(String[] 参数) throws Exception {
if (参数.length != 1) {
System.out.println("需要JDK源码路径作为唯一参数");
return;
}
文件功用.创建路径(常量_输出文件路径);
处理Java文件(new File(参数[0] + 常量_源文件路径));
类型名 名 = 提取器.获取名();
// 从方法列表中删除所有构造方法
for (String 类名 : 名.类名.keySet()) {
名.方法名.remove(类名);
}
String 后缀 = "_" + 常量_源文件路径.replaceAll("/", "_");
文件功用.写行入文件(名.类名, 常量_输出文件路径 + "类" + 后缀 + ".txt");
文件功用.写行入文件(名.方法名, 常量_输出文件路径 + "方法" + 后缀 + ".txt");
文件功用.写行入文件(名.参数名, 常量_输出文件路径 + "参数" + 后缀 + ".txt");
System.out.println("提取完毕: " + 名.类名.size() + "类;" + 名.方法名.size() + "方法;" + 名.参数名.size() + "参数");
}
private static void 处理Java文件(File 路径) throws Exception {
if (路径.isFile()) {
if (路径.getName().endsWith(".java")) {
解析Java文件(路径);
}
} else {
File[] 文件 = 路径.listFiles();
if (文件 != null) {
for (File 某文件 : 文件) {
处理Java文件(某文件);
}
}
}
}
private static void 解析Java文件(File 文件) throws Exception {
语法解析器.setSource(文件功用.取源文件文本(文件).toCharArray());
语法解析器.createAST(null).accept(提取器);
}
}
初步统计:
提取完毕: 332类;1172方法;449参数
按照骆驼命名对提取出的命名进行单词拆分后, 得到902个单词, 其中有不少同根词, 如:
sequence
sequential
split
splittable
token
tokenizer
word
words
write
writer
zone
zoned
还有不少不明所以的:
csn
em
fd
接下去将拆分出的单词与源API联系起来, 以便翻译时结合原API语义(已更新上面的源码). 比如csn来源于java.util.Formatter.Formatter(String fileName, String csn, Locale l)
, javadoc中意为The name of a supported {@linkplain java.nio.charset.Charset charset}. 真猜不到.
顺便对所有java/下的源码进行统计:
1579类;5093方法;2022参数
2752个单词
5倍左右数量的API但单词数只有3倍, 看来复用率蛮高. 总单词表在此.
2018-08-27

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
中文代码之Spring Boot对H2数据库简单查询
续前文: 中文代码之Spring Boot集成H2内存数据库 在词条中添加英文术语域: @Entity public class 词条 { @Id private long id; private String 英文术语; private String 中文术语; public 词条() { } public 词条(long id, String 英文术语, String 中文术语) { this.id = id; this.英文术语 = 英文术语; this.中文术语 = 中文术语; } public long getId() { return id; } public String get中文术语() { return 中文术语; } public String get英文术语() { return 英文术语; } } 声明查询方法(Spring支持特定命名格式的查询方法, 参考: https://docs.spring.io/spring-data/jpa/docs/1.8.x/reference/html/#repositories.query-methods) @Reposi...
-
下一篇
浏览器插件实现GitHub代码翻译原型演示
此原型源自此想法: 中文化源码. 考虑到IDE插件工作量较大, 且与IDE绑定. 在代码转换工具的各种实现中, 综合考虑实用+易用+长远改进潜力, 浏览器插件似乎较有优势. 于是用最快捷的方式实现这一想法. 注: 此演示仅用Chrome在一个命名比较简单的代码页https://github.com/swaroopch/byte-of-python/blob/master/programs/ds_using_list.py 运行过, 限于取代码块的简单方式(取页面中的table元素)以及內建词典, 其他浏览器/github代码页的效果不保证. 原型项目源码在: program-in-chinese/webextension_github_code_translator 在Chrome下加载此插件后, 点击工具栏中的按钮(竟然默认图标是个'G', 也许是"Github代码翻译原型"的首字母). 弹窗中就会显示翻译后的代码段. 就这样: 项目源码节选 对代码段的文本进行简单替换: function 翻译() { var 原代码拷贝 = document.getElementsByTagNam...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- MySQL数据库在高并发下的优化方案
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8编译安装MySQL8.0.19