纯文本数据的预处理

2020-08-28 789

纯文本

整个文本只有一行，无换行，字之间空格隔开

方法一：torchtext

任务：构造语言模型数据集，返回的单个数据类型如下，target为inputs的偏移。

inputs:[A B C D E F]

target:[B C D E F G]

为此我们会使用LanguageModelingDataset建立数据集，然后使用BPTTIterator创建迭代器。

注意：如果文本数过小，且BPTTIterator中设置的batch_size * bptt_len大于文本总长度，则生成的batch的seq_len达不到bptt_len。

如果处理中文，tokenize函数可以使用jieba进行分词：

tokenize = lambda x: jieba.lcut(x)

import torchtext
import torch

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
BATCH_SIZE = 32
MAX_VOCAB_SIZE = 50000


tokenize = lambda x: x.split()

"""
定义TEXT field用于处理文本的方法
sequential: Whether the datatype represents sequential data. If False, no tokenization is applied. Default: True.
use_vocab: Whether to use a Vocab object. If False, the data in this field should already be numerical. Default: True.
tokenize： The function used to tokenize strings using this field into sequential examples. Default: string.split.
"""
TEXT = torchtext.data.Field(sequential=True, use_vocab=True, tokenize=tokenize, lower=True,
                            batch_first=True, init_token=None, eos_token=None)

"""
LanguageModelingDataset.split() 处理纯文本数据，分词方法直接使用str.split()
"""
train, val, test = torchtext.datasets.LanguageModelingDataset.splits(path="data",
                                                                     train="text8.train.txt",
                                                                     validation="text8.dev.txt",
                                                                     test="text8.test.txt",
                                                                     text_field=TEXT)
# 只有一条数据  result=1 每条数据用一个字典表示
print('total example row = ', len(train))

# 打印第一条数据的keys值 result='result'
print(train[0].__dict__.keys())

# 打印第一条数据的values值 result='result'
# print(train[0].__dict__.values())

# create vocabulary
TEXT.build_vocab(train, max_size=MAX_VOCAB_SIZE)
VOCAB_SIZE = len(TEXT.vocab)

print("vocabulary size: ", VOCAB_SIZE)
print(TEXT.vocab.itos[:10])
print(TEXT.vocab.stoi['apple'])
print('<BOS> indx is ', TEXT.vocab.stoi['<BOS>'])
print('<EOS> indx is ', TEXT.vocab.stoi['<EOS>'])



UNK_STR = TEXT.unk_token
PAD_STR = TEXT.pad_token
UNK_IDX = TEXT.vocab.stoi[UNK_STR]
PAD_IDX = TEXT.vocab.stoi[PAD_STR]

print(f'{UNK_STR} index is {UNK_IDX}')
print(f'{PAD_STR} index is {PAD_IDX}')

"""
Defines an iterator for language modeling tasks that use BPTT.
bptt: Length of sequences for backpropagation through time
repeat: Whether to repeat the iterator for multiple epochs. Default: False.
"""
train_iter, val_iter, test_iter = torchtext.data.BPTTIterator.splits((train, val, test), batch_size=BATCH_SIZE,
                                                                     device=device, bptt_len=50,
                                                                     repeat=False, shuffle=True)


for batch in train_iter:
    print(batch.text.shape)   # (batch=32, seqlen=50)
    print(batch.target.shape)  # (batch=32, seqlen=50)
    print(" ".join(TEXT.vocab.itos[i] for i in batch.text[-1, :].data.cpu()))
    print(" ".join(TEXT.vocab.itos[i] for i in batch.target[-1, :].data.cpu()))
    break

方法二：torch.utils.data

任务：构造一个word2vec的skip-gram数据, 返回的单个数据类型如下:

[center_word, pos_words, neg_words]

center_word.shape: (batchSize)

pos_words.shape: (batchSize, 2*C)

neg_words.shape: (batchSize, 2*C*K)

可以使用torch.utils.data的Dataset和DataLoader进行数据的处理。

import torch
from torch.utils.data import Dataset, DataLoader
from collections import Counter
import numpy as np


K = 100  # number of negative samples
C = 3  # nearby words threshold
MAX_VOCAB_SIZE = 30000  # the vocabulary size
BATCH_SIZE = 128  # the batch size


train_text = open('data/text8.train.txt', 'r').read()
# val_text = open('data/text8.dev.txt', 'r').read()
# test_text = open('data/text8.test.txt', 'r').read()

text = [word for word in train_text.split()]
vocab = dict(Counter(text).most_common(MAX_VOCAB_SIZE-1))
vocab["<unk>"] = len(text) - np.sum(list(vocab.values()))

idx_to_word = [word for word in vocab.keys()]
word_to_idx = {word: i for i, word in enumerate(idx_to_word)}

"""
统计词典中词出现的频率
"""
# 获取单词出现的个数
word_counts = np.array([count for count in vocab.values()], dtype=np.float32)
# 计算频率
word_freqs = word_counts / np.sum(word_counts)
# 0.75 次幂
word_freqs = word_freqs ** (3./4.)
# 归一化
word_freqs = word_freqs / np.sum(word_freqs) # 用来做 negative sampling


VOCAB_SIZE = len(idx_to_word)


class WordEmbeddingDataset(torch.utils.data.Dataset):
    def __init__(self, text, word_to_idx, idx_to_word, word_freqs, word_counts):
        super(WordEmbeddingDataset, self).__init__()
        # 将单词转换成数字索引
        self.text_encoded = [word_to_idx.get(t, VOCAB_SIZE - 1) for t in text]
        self.text_encoded = torch.Tensor(self.text_encoded).long()
        # dict：word->index
        self.word_to_idx = word_to_idx
        # list: index->word
        self.idx_to_word = idx_to_word
        # 单词频率
        self.word_freqs = torch.Tensor(word_freqs)
        # 单词次数统计
        self.word_counts = torch.Tensor(word_counts)

    def __len__(self):
        return len(self.text_encoded)

    def __getitem__(self, idx):
        # 中心词
        center_word = self.text_encoded[idx]
        # 周边词
        pos_indices = list(range(idx - C, idx)) + list(range(idx + 1, idx + C + 1))
        pos_indices = [i % len(self.text_encoded) for i in pos_indices]
        # 正采样
        pos_words = self.text_encoded[pos_indices]
        # 负采样
        neg_words = torch.multinomial(self.word_freqs, K * pos_words.shape[0], True)
        return center_word, pos_words, neg_words


dataset = WordEmbeddingDataset(text, word_to_idx, idx_to_word, word_freqs, word_counts)
dataloader = DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True)

微信关注我们

原文链接：https://my.oschina.net/u/4228078/blog/4534455

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Dart异步编程：隔离和事件循环

Dart异步编程：隔离和事件循环尽管Dart是一种单线程语言，但它提供了对futures、streams、background工作以及所有其他需要用现代、异步和（对于Flutter而言）反应式编程的内容的支持。本文介绍了Dart对background工作的支持的基础:隔离(isolates )和事件循环(event loops)。如果您喜欢通过观看或聆听来学习，则以下视频介绍了本文中的所有内容，该视频属于Flutter in Focus视频系列Dart中的异步编程的一部分： https://youtu.be/vl_AaCgudcY 还在这里吗?我们来谈谈isolates(隔离)。 Isolates（隔离）隔离是所有Dart代码运行的地方。它就像机器上的一个小空间，有它自己的私有内存块和一个运行事件循环的线程。隔离具有自己的内存和运行事件循环的单个执行线程。在许多其他语言（例如C ++）中，您可以让多个线程共享相同的内存并运行所需的任何代码。但是，在Dart中，每个线程都处于其自己的隔离区中，并拥有自己的内存，并且该线程仅处理事件（稍后会详细介绍）。许多Dart应用程序都在...

2020-08-28

648

对于tsv、csv、txt以及json类型的数据的处理方法一般可以使用torchtext中的TabularDataset进行处理; 数据的要求： tsv：第一行fields字段名，使用tab隔开，其它行为数据，每个字段直接的数据使用tab隔开； csv: 第一行fields字段，其它行为数据 json: 字典类型，每一行为一个字典，字典的key为fields，values为数据。本次采用以下tsv格式的数据集： sentiment-analysis-on-movie-reviews.zip 数据集的格式：注意：如果test数据集中缺少某些字段，使用torchtext处理时会有问题，因此要保证train val和test数据集要处理的字段必需相同。方法一： torchtext 任务：构造一个翻译类型的数据集 inputs:[sequence english] target:[sequence chinese] from torchtext.data import Field, TabularDataset, BucketIterator import torch ...

2020-08-29

604

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

纯文本数据的预处理

纯文本

方法一：torchtext

方法二：torch.utils.data

Dart异步编程：隔离和事件循环

tsv csv txt json格式文件处理方法

相关文章

发表评论

资源下载

腾讯云软件源

Nacos

Rocky Linux

Sublime Text

欢迎您来访！