《大数据原理:复杂信息的准备、共享和分析》一一1.3 自动编码 格物致知。
1.3 自动编码格物致知。――中国谚语 编码用于非结构化文本数据,是用与标准术语中的同义词一致的标识符代码标记词条的过程(见术语表,Identifier)。例如,医学术语中可能包含词条肾细胞癌(一种肾癌),附加一个唯一的标识符代码给这个术语,例如“C9385000”。肾细胞癌大约有50个同义词,这里列出一部分同义词和近义词:adenocarcinoma arising from kidney、adenocarcinoma involving kidney、cancer arising from kdney、carcinoma of kidney、Grawitz tumor、Grawitz tumour、hypernephroid tumor、hypernephroma、kidney adenocarcinoma、renal aden
