Hi 游客

更多精彩,请登录!

比特池塘 区块链技术 正文
Kaggle上的Twitter的情感分析竞赛。在这个案例中,将使用预训练的模型BERT来完成对整个竞赛的数据分析。
/ z+ L, W  z$ _; L6 f7 e' ^: S导入需要的库; H+ c1 e( Z% K# @; Y
import numpy as np: p" q+ y; G: q& v5 R; [* S
import pandas as pd
8 q2 u6 r' R  h' s1 h0 D& _8 P2 Zfrom math import ceil, floor
2 k* j( V! ]$ E- Bimport tensorflow as tf* s5 _# _7 d# s1 ]. Z1 y" |3 V$ S
import tensorflow.keras.layers as L
5 x0 c; d4 ^% w6 O2 z- `: T- Qfrom tensorflow.keras.initializers import TruncatedNormal
% ~8 D5 a) U3 m/ {2 Z9 s* O: Z7 F4 ifrom sklearn import model_selection6 U5 q1 M9 f: y1 m$ I
from transformers import BertConfig, TFBertPreTrainedModel, TFBertMainLayer8 y( K6 Q, \% ^# b
from tokenizers import BertWordPieceTokenizer7 ~% X# N. m/ ^! L1 I& M
读取并解释数据& V6 q; Q0 B" R3 g" L6 ~
在竞赛中,对数据的理解是非常关键的。因此我们首先要做的就是读取数据,然后查看数据的内容以及特点。
' r0 X: A, I0 P2 ]9 C3 J先用pandas来读取csv数据,: D: q  Q& q5 H% R: y
4 {4 D+ i/ R8 Y: I1 V3 s7 V' X! `
train_df = pd.read_csv('train.csv')1 g4 \# `, I5 Y9 X. d" J0 y
train_df.dropna(inplace=True)  ?! u; p/ s- N2 _; e' Q
test_df = pd.read_csv('test.csv')
2 w1 O6 P- k6 j% c! k# E+ ~test_df.loc[:, "selected_text"] = test_df.text.values* D5 l- H3 e+ W. f/ k
submission_df = pd.read_csv('sample_submission.csv')
, p- N; g3 G" l6 K2 w再查看下我们的数据的数量,我们一共有27485条训练数据,3535条测试数据,  s7 k- F) K! H9 g' x/ T1 L' h
print("train numbers =", train_df.shape)7 ~# W* ]7 X, v- M. {& K
print("test numbers =", test_df.shape)
/ i! V+ z: G& d* \( X' h  B紧接着查看训练数据和测试数据前10条表单的字段跟数据,表单中包含了一下几个数据字段:. ~* q/ o" K2 s6 f1 n: J2 d
$ U" w- l  X/ f+ x' y( h
textID: 文本数据记录的唯一ID;
; X) o5 R: q/ Y
- g8 ]2 y9 a5 y% Ztext: 原始语句;
5 L7 b4 S) P/ @# u! ?" A) i
4 i5 Y+ E) G+ K% y- D5 l9 vselected_text: 表示情感的语句;
" {: w7 {0 m( E6 g1 I2 ]' Z9 E2 o0 f  r, G, t
sentiment: 情感类型, neutral中立, positive积极, negative消极;/ J& o( w0 u& q
6 A( @% d: e* v. T# V  D7 {3 v

, r" L0 h! ]! |" u: [4 V+ X: |* I$ Z从数据中我们可以得出,目标就是根据现有的情感从原本是的语句中选出能代表这个情感的语句部分。
6 j9 j1 A+ t: f7 q6 F5 M0 R$ X! a; Gtrain_df.head(10)0 U: d6 a# H9 {0 c7 \" v$ M* t
test_df.head(10)# R+ t8 w7 T0 D- Z
定义常量
7 o7 h+ A+ Z0 M- I3 w# bert预训练权重跟数据存放的目录
0 U, S1 R1 X8 M5 U- UPATH = "./bert-base-uncased/"
9 U- b# h: ?- \. {- e: Z; w0 D6 m* {# 语句最大长度
% j" ~# X; V, k8 \( m7 k% \MAX_SEQUENCE_LENGTH = 1284 w5 [6 b9 s7 y, W, [* c. L/ F0 n
载入词向量
# v) i& D( u1 V3 C% dBERT是依据一个固定的词向量来进行训练的。因此在竞赛中需要先使用BertWordPieceTokenizer来加载这些词向量,其中的lowercase=True表示所有的词向量都是小写。设置大小写不敏感可以减少模型对资源的占用。
8 X: Z- Y' ^) z6 v0 d. MTOKENIZER = BertWordPieceTokenizer(f"{PATH}/vocab.txt", lowercase=True)
8 u) P$ L# D# O- q; X/ h定义数据加载器
4 n: Q( O5 ~7 L8 ~定义数据预处理函数
' e1 Q" D" {- J, E3 G- Q: G& N: B: C2 f0 {, \4 {/ t
def preprocess(tweet, selected_text, sentiment):
7 j- Z: A9 c5 L2 G) T: O    " y; t* S- K% |3 h5 P
# 将被转成byte string的原始字符串转成utf-8的字符串
6 h0 l& o7 R' O& n/ ^: ~) ]    tweet = tweet.decode('utf-8')
5 l5 k4 U! D- p( ~    selected_text = selected_text.decode('utf-8')% m' N; Q% p# L8 M
    sentiment = sentiment.decode('utf-8')
" \- c; z# P0 d- h" S9 I3 N* i    tweet = " ".join(str(tweet).split())
8 H4 o" i8 c$ I8 p    selected_text = " ".join(str(selected_text).split())
. J3 [6 J/ `$ j   
3 {7 \, G" [- ]% u# 标记出selected text和text共有的单词4 b2 L4 n$ z( L4 D# x. O* n, g4 P6 s! V
    idx_start, idx_end = None, None2 e+ G2 {) H1 \! E$ N' D
    for index in (i for i, c in enumerate(tweet) if c == selected_text[0]):
  {7 ?; K6 Y6 W- ]        if tweet[index:index+len(selected_text)] == selected_text:
. {4 @0 ?& z2 @9 E  M            idx_start = index
0 f/ A$ s8 p7 M( S& M+ i$ ~' ~) S            idx_end = index + len(selected_text)
0 s2 }% f% J! H3 a            break
  F, W4 k  ^  O! ^4 D9 `/ y    intersection = [0] * len(tweet)
: [1 U8 S; U! g  X    if idx_start != None and idx_end != None:; D6 a! A  G4 e0 [# Y6 q) x0 N
        for char_idx in range(idx_start, idx_end):; k: a9 S/ y0 j8 x  Y9 Z( S: W
            intersection[char_idx] = 1; e/ J4 u  F( u( G# n
    ( A( X8 L6 P) Y
# 对原始数据用词向量进行编码, 这里会返回原始数据中的词在词向量中的下标
! U: }* [* b) A# 和原始数据中每个词向量的单词在文中的起始位置跟结束位置
3 Y$ t) q/ T7 h7 P: p* |    enc = TOKENIZER.encode(tweet)
1 R8 h" y* ?' S6 K    input_ids_orig, offsets = enc.ids, enc.offsets
, @7 D( Y% K6 P2 ]" _* d$ r% `, J    target_idx = []
8 t* Z3 a! c. M, _* m    for i, (o1, o2) in enumerate(offsets):
* I) q/ D1 H3 A6 C; _7 R! v# {        if sum(intersection[o1: o2]) > 0:
' F, z7 Z( o8 {7 G! c* d: E! N+ n            target_idx.append(i)
  E9 U- T* {1 S( m2 W% i# d    target_start = target_idx[0]
. l) M8 }! z' k    target_end = target_idx[-1]6 x0 R+ h' Y8 K' b6 h; D* F7 v% M( Q
    sentiment_map = {( g) [+ ?: D2 U  B
        'positive': 3893,+ I- D. j! t2 o6 S/ Z, j& X# d
        'negative': 4997,& Z4 y- S. I* J8 p' E
        'neutral': 8699,! ]4 w) S4 D/ c/ y+ _
    }
/ E: [1 w" K0 K" Y9 W7 _' a5 A   
1 ?! B5 H. s1 i' E* Q6 S5 F$ Q5 Z/ l# 将情感标签和原始的语句的词向量组合在一起组成我们新的数据7 i3 d+ ^) J& f* H1 {* v7 N2 z
    input_ids = [101] + [sentiment_map[sentiment]] + [102] + input_ids_orig + [102]
8 ]; }+ g* ^% [& N! ?$ j+ z0 H( w    input_type_ids = [0] * (len(input_ids_orig) + 4)
# s  I3 v0 `$ Q" K* _2 D    attention_mask = [1] * (len(input_ids_orig) + 4), j% ^- p8 r) D8 ]/ E; A
    offsets = [(0, 0), (0, 0), (0, 0)] + offsets + [(0, 0)]" _5 ]* L2 O8 {- c% _' d2 q
    target_start += 3
' X4 z8 T& i' b2 R2 P    target_end += 3
  Z$ ~# i- K! F5 e3 v$ L. P# 计算需要paddning的长度, BERT是以固定长度进行输入的,因此对于不足的我们需要做pandding3 y& t% V7 b3 m& E$ a
    padding_length = MAX_SEQUENCE_LENGTH - len(input_ids); |: v3 Q# L3 z! U- N
    if padding_length > 0:
+ t+ a8 ~$ j- d6 H8 b. F) Y        input_ids = input_ids + ([0] * padding_length)6 @6 j( e& ^+ r% k) I
        attention_mask = attention_mask + ([0] * padding_length)0 Z" z; }1 R8 }2 x
        input_type_ids = input_type_ids + ([0] * padding_length)
0 k+ Y5 C% R) |, X  E# A        offsets = offsets + ([(0, 0)] * padding_length)
2 e" ?& |7 d6 q! y+ e    elif padding_length
0 q3 R2 E6 M) _  }, ^# o+ F定义数据加载器
- w: k: `3 B/ J, k
2 r/ h6 S5 m5 n: W. ~class TweetDataset(tf.data.Dataset):
6 n9 K, s9 p3 s% c. m+ I, H   
6 _9 U  g# }/ X6 X- H    outputTypes = (
9 T4 u! g; r5 w2 O* A        tf.dtypes.int32,  tf.dtypes.int32,   tf.dtypes.int32,
- H0 |" y3 ^6 y* I/ L        tf.dtypes.int32,  tf.dtypes.float32, tf.dtypes.float32,$ Y1 a- r7 r, C1 N! b
        tf.dtypes.string, tf.dtypes.string,  tf.dtypes.string,
+ t! M( c+ X1 i3 f# L    )+ F1 k: \4 o/ C+ m
   
4 \& c& Q' C% x  W! D( P* m+ N9 g    outputShapes = (: G  ^8 `- f7 Z9 W
        (128,),   (128,), (128,),
! e9 d( `" i* V9 W( s8 s        (128, 2), (),     (),  _4 U; ^9 }9 O2 P! \0 p
        (),       (),     (),
8 o8 V4 Z  m8 t    )* L; k" L' P' c! X* B2 O+ Y9 H# Y
   
: y! D; l5 o$ p' n  H    def _generator(tweet, selected_text, sentiment):' `3 ~2 q2 M) i
        for tw, st, se in zip(tweet, selected_text, sentiment):
+ m. F" c; ?. D' y3 M% t            yield preprocess(tw, st, se)3 n' L7 n/ e5 x0 g% F8 E$ K
   
3 J. W/ V: ^: r! O! R  d; @2 P) X  Y    def __new__(cls, tweet, selected_text, sentiment):
8 t# s5 ~; z; m7 t# U, ?        return tf.data.Dataset.from_generator(
/ b6 K  e* U# }7 i0 D            cls._generator,
4 L! R+ f& _, h, Y% a            output_types=cls.outputTypes,3 O2 @- z! I" J/ V
            output_shapes=cls.outputShapes,
9 |: [7 Q# }- K, ~7 V8 o) f            args=(tweet, selected_text, sentiment). U- h" V  S+ d7 m) R. F0 |
        )/ v2 G' T3 b) n) N+ w% p
   
  O1 V& y9 z$ g1 D3 i( ?    @staticmethod
8 [( n: y; {$ c! y9 s8 M    def create(dataframe, batch_size, shuffle_buffer_size=-1):6 l! V1 y( R8 \5 o8 x
        dataset = TweetDataset(
: t* P4 `! _0 \$ v            dataframe.text.values,
2 P7 c) ]  q3 w# b8 ^            dataframe.selected_text.values,
( ]: Y4 T7 H2 D' v5 Q& U2 l0 G            dataframe.sentiment.values( T) _1 P9 ~3 i) l; a6 @8 O1 N2 F
        )6 A; W+ }& G1 F( r' v" T3 P8 \
        dataset = dataset.cache()
- C% q  C/ d/ x3 J$ Y        if shuffle_buffer_size != -1:
0 k9 G. z% h% S            dataset = dataset.shuffle(shuffle_buffer_size)
8 w0 |. U& ^" v' o- _        dataset = dataset.batch(batch_size)$ |1 h4 `6 a5 L& B2 Z2 y
        dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)# }) S6 x# Z7 f, q7 G; ^
        return dataset
1 g5 y$ \5 u) q. ^' k! t2 g定义模型) Z9 y$ _! N  q" A: Y* D+ r8 S
我们使用BERT模型来进行这次竞赛,这里对BERT模型做一些简单的介绍。
, |9 [- ?: x! \& q" x- v6 F* E5 _BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。
: m( f$ k, e* ^. J. X9 Y模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别representation。
0 q3 d* K7 j5 ~3 {' pBERT主要特点如下:: {8 g+ y6 V4 P2 G

/ m" E) N1 \! w& m# x1 j使用了Transformer作为算法的主要框架,Trabsformer能更彻底的捕捉语句中的双向关系;
1 h  b2 G. Y' ]. v, ]
0 j$ s# K3 i5 h& O4 Z使用了Mask Language Model 和 Next Sentence Prediction的多任务训练目标;
4 f4 h: M* s) T5 d
) g& P* s/ A9 _( X( d& l- l使用更强大的机器训练更大规模的数据,Google开源了BERT模型,我们可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。6 S/ s9 K; h. m1 b% O+ r
- s1 x6 `3 {1 }$ g* q( `$ h" Y

* P: @1 ], @0 c3 D& jBERT的本质是在海量的语料基础上,运行自监督学习方法让单词学习得到一个较好的特征表示。' h: x8 i, d) e! \% K/ H; @
在之后特定任务中,可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。
5 r! Z0 T1 d6 a9 Z, |在竞赛中,我们定义了一个BertModel类,里面使用TFBertPreTrainedModel来进行推理。
& H- v4 S5 A' E$ L* RBERT的输出我们保存在hidden_states中,然后将这个得到的hidden_states结果在加入到Dense Layer,最后输出我们需要提取的表示情感的文字的起始位置跟结束位置。
2 b1 x8 Z) w6 y7 s3 w' h8 E这两个位置信息就是我们需要从原文中提取的词向量的位置。- q# V+ @+ M! P9 Y7 I" O

3 M9 P9 d6 _: w( Iclass BertModel(TFBertPreTrainedModel):0 P+ K# o$ w# \9 C! I. m
   
/ b7 x- E9 P  G9 L4 i( W  ~) f" m8 t3 v- n# drop out rate, 防止过拟合% d2 p5 {2 O  N3 Y, Z* G1 K
    dr = 0.1% D0 J9 N5 ~" O9 b+ M) U+ t
# hidden state数量
( y) D& x+ E* c1 e: k    hs = 2( i" \' V6 ]/ l% d
    ! g8 S/ S  K( s1 v" C' }* G6 s# u! v. b7 M
    def __init__(self, config, *inputs, **kwargs):% C! y$ ]  z+ E# E' W. ]) i8 P
        super().__init__(config, *inputs, **kwargs)) Y$ Q9 R$ u1 d* i
        6 r; H% g5 D. T2 |# M) Z) F
        self.bert = TFBertMainLayer(config, name="bert")
, k8 Y5 c  H+ b3 b/ ]5 I        self.concat = L.Concatenate()
" L& x( n. i2 D5 u        self.dropout = L.Dropout(self.dr)$ H( N  n% y( o+ P' x  C( D
        self.qa_outputs = L.Dense(
2 [: R& s0 e4 ?2 H            config.num_labels,
+ W5 r9 G9 j' @% J; B            kernel_initializer=TruncatedNormal(stddev=config.initializer_range),) O# s  h* I* X% `6 L5 v! g( Y
            dtype='float32',
2 s  o. x" [6 Y  J/ V- t            name="qa_outputs")
9 e+ G! [* Z4 t/ m! Z8 }% `        , z: f  X/ N( U- Q
    @tf.function$ Z! m/ l9 f  `! `2 p' p! k
    def call(self, inputs, **kwargs):
+ e) g+ Y. y9 f6 _. ?: c) j        _, _, hidden_states = self.bert(inputs, **kwargs)
! V* U" {3 a% O+ E. O# m* b        
5 \9 i. x8 x4 E* T$ S/ p; V        hidden_states = self.concat([
( p! h3 E0 {( @; L: O+ K- G            hidden_states[-i] for i in range(1, self.hs+1)5 s! ~4 i$ U5 a' F
        ])
+ N: x5 l  B  s* Z8 b        / g" Q; l3 {# N3 F5 t
        hidden_states = self.dropout(hidden_states, training=kwargs.get("training", False))* _* }& m  \0 z6 K# ?- \
        logits = self.qa_outputs(hidden_states)
$ o; y, W: t, q0 I5 d        start_logits, end_logits = tf.split(logits, 2, axis=-1)
3 a; U8 S. Y5 e        start_logits = tf.squeeze(start_logits, axis=-1)- C4 ?$ N# z! G4 X
        end_logits = tf.squeeze(end_logits, axis=-1)& b4 l5 y7 S0 {2 a
        - B& p/ T: N1 a, x
        return start_logits, end_logits
- V+ K+ G$ \) y8 n+ o定义训练函数
3 M2 L1 J' d  c& P, p! P4 v5 ^* {* [2 i! [, q) u2 |8 K
def train(model, dataset, loss_fn, optimizer):
6 L( B0 j" L$ r) p$ L0 j2 F* j   
- V) B& Y& Z' g9 J    @tf.function+ A0 l% R- _$ Y6 {: ~1 b
    def train_step(model, inputs, y_true, loss_fn, optimizer):
, o# j0 _9 f8 M8 h. T$ n        with tf.GradientTape() as tape:! F2 Q% |" h0 z/ o  }; u6 V
            y_pred = model(inputs, training=True)
7 u- B+ l# y( W) V& y3 C& N6 m            loss  = loss_fn(y_true[0], y_pred[0])
9 l% y5 p/ x6 S$ W% ~4 V" g  w7 r            loss += loss_fn(y_true[1], y_pred[1])
/ H! w* p$ V2 }6 @            scaled_loss = optimizer.get_scaled_loss(loss)' c( X7 F0 \0 k: t9 E/ l, I0 u, v# C
   
9 C; x) |3 |6 W- b        scaled_gradients = tape.gradient(scaled_loss, model.trainable_variables)
  G% V8 n/ T9 b0 d# E" j$ ~        gradients = optimizer.get_unscaled_gradients(scaled_gradients)
# p$ n6 V) [1 n- R4 j, ]  t" J  Y        optimizer.apply_gradients(zip(gradients, model.trainable_variables))
$ I3 V6 F4 F3 y  M! a        return loss, y_pred
6 D+ z6 E* V# J: j1 c3 l: |    epoch_loss = 0.
$ _9 X+ i" p( N# M    for batch_num, sample in enumerate(dataset):
! [# \; I. C, x, h1 S8 d: s( t5 s4 x        loss, y_pred = train_step(model, sample[:3], sample[4:6], loss_fn, optimizer)- _8 S& D3 Z& C& m" Y  j# A! f) h
        epoch_loss += loss( B) R: _  a% \% b' i
        print(4 U, y3 m9 M8 W# n
            f"training ... batch {batch_num+1:03d} : "# ]9 Z& H* G/ X( T6 Y4 N3 e
            f"train loss {epoch_loss/(batch_num+1):.3f} ",2 g0 y' \( J0 o* ?9 Z
            end='\r')
: M8 O5 F2 N; |) l, Q定义预制函数
+ [, P# k( v& b( ydef predict(model, dataset, loss_fn, optimizer):: m% |+ ]/ V  [+ y
   
( @- y- r# n# K6 s: j    @tf.function5 {+ o0 v- O' h& Y, c
    def predict_step(model, inputs):
2 D/ t. x' f7 f# B, m/ A        return model(inputs)' q7 s6 |2 J) o5 r: A, {' }0 ^
        
+ L: E2 Z7 j/ W( s4 L) C2 M& R    def to_numpy(*args):
& R0 @9 C5 h' `# i5 h" u        out = []( Y# B$ T, ^( P1 U+ W- u
        for arg in args:% e) |6 j, }6 |% C% c9 Q
            if arg.dtype == tf.string:7 r5 [$ ~4 W; c
                arg = [s.decode('utf-8') for s in arg.numpy()]
" F' s0 C8 G7 Z1 R0 T# I/ u                out.append(arg)3 |+ _3 [  c# {( G+ S7 v
            else:
! ^5 n, I6 X7 b8 \- k; I                arg = arg.numpy()
) o# x2 m& f4 ?! w" Z                out.append(arg)  X) X$ H) k( Y! H0 B
        return out
! }% D9 V2 X5 k) m- }' D7 \" T" Q   
4 s& G6 |; b3 B- L* P6 J% E( x    offset = tf.zeros([0, 128, 2], dtype=tf.dtypes.int32)6 O4 W0 V+ V" [4 R; @0 Y
    text = tf.zeros([0,], dtype=tf.dtypes.string): ]- z4 O/ s/ U* u& C) `/ r
    selected_text = tf.zeros([0,], dtype=tf.dtypes.string)0 k' [% y, r2 k1 }8 x  }  {, x
    sentiment = tf.zeros([0,], dtype=tf.dtypes.string)
4 Q/ ?" i2 z1 ~! N8 w    pred_start = tf.zeros([0, 128], dtype=tf.dtypes.float32), C+ |! Y( y* \/ e. l
    pred_end = tf.zeros([0, 128], dtype=tf.dtypes.float32)) K6 K; Z) T, N# d2 J$ X) Z# f% B
   
8 F7 a) H2 H; x    for batch_num, sample in enumerate(dataset):) s9 C2 Z) z1 H3 i+ ?. w4 r
        ; P7 c" c: E# S
        print(f"predicting ... batch {batch_num+1:03d}"+" "*20, end='\r')
1 h% u* s9 q5 Y3 e& v          f* a2 {& L; @1 [; V% l+ N
        y_pred = predict_step(model, sample[:3])
' b) s7 K& y) e' w) X        
  y6 p' D- k# X7 L9 n6 J) F' Y        # add batch to accumulators
7 e  e& L: ]% E9 h' O$ w        pred_start = tf.concat((pred_start, y_pred[0]), axis=0)0 b  C* L- F+ n/ m  g
        pred_end = tf.concat((pred_end, y_pred[1]), axis=0)# i  F: J. j( A+ i+ f
        offset = tf.concat((offset, sample[3]), axis=0)
1 h: a# y. G/ f8 [7 \; f        text = tf.concat((text, sample[6]), axis=0)2 D- a: ]0 U' w* T+ s* _
        selected_text = tf.concat((selected_text, sample[7]), axis=0)
, s7 ~' V3 S5 g5 B) u7 Q6 u' ]        sentiment = tf.concat((sentiment, sample[8]), axis=0). A$ V8 ]/ u- r' b4 y0 G" z" w
    , X+ s" B" g% k( ^
    pred_start, pred_end, text, selected_text, sentiment, offset = \  T& o$ B: F( }4 W; B
        to_numpy(pred_start, pred_end, text, selected_text, sentiment, offset)9 f, v- k% {8 _
   
7 W3 X' w/ s& ]( m$ k4 m: }    return pred_start, pred_end, text, selected_text, sentiment, offset, {) n, q! k$ r" _% n% k; {0 c
判断函数7 H3 w) i7 ^" G+ ]- u" r3 w
这个竞赛采用单词级Jaccard系数,计算公式如下# y" [- W& J' d
1 a/ X# ]- e$ o7 i) e
Jaccard系数计算的是你预测的单词在数据集中的个数,
" O8 c, G6 @- z6 ydef jaccard(str1, str2):1 n/ k$ T6 U0 b9 Y4 r
    a = set(str1.lower().split())/ `  g, K1 w  p2 d6 W: S2 `; U, }1 d
    b = set(str2.lower().split())
; q# H2 i% P+ ^" n; `3 M2 d    c = a.intersection(b)% s# {" }/ g; {) U+ |
    return float(len(c)) / (len(a) + len(b) - len(c))# i* N- O8 e9 L4 d
定义预测结果解码函数) [3 p% W% z: U5 X4 U" b
解码函数通过模型预测拿到的start和end的index位置信息,然后和之前拿到的词向量在样本句子中的位置进行比较,将这个区间内的所有的单词都提取出来作为我们的预测结果。
  V* d; |! m) a4 T4 W+ _) B7 i+ H0 Q  u3 i3 i6 [0 V. s- l' ~
def decode_prediction(pred_start, pred_end, text, offset, sentiment):+ Q) N8 y. X( d6 K
   
) o  d8 I+ C9 P    def decode(pred_start, pred_end, text, offset):) v6 n- S, z& ]# y  S
        decoded_text = ""
# H, T8 C/ r% \# _/ l6 {( a$ j        for i in range(pred_start, pred_end+1):
- X7 U: F6 G* R9 R            decoded_text += text[offset[0]:offset[1]]! s  U; U  [) e  h
            if (i+1)  idx_end:. G; F- r0 L/ U# f
                idx_end = idx_start
9 d* q' X$ x( l" X  V5 W            decoded_text = str(decode(idx_start, idx_end, text, offset))1 n# o. t4 s3 z& C- l- N( T
            if len(decoded_text) == 0:, G$ |  u1 N" F3 m2 I8 M0 \. z
                decoded_text = text
) f4 b" X5 ?* k- i        decoded_predictions.append(decoded_text)5 F! Y1 `" d; T. {
   
( m3 |1 W- f  S& i3 N7 m    return decoded_predictions+ u7 N5 M2 |! `  F
开始训练
/ m$ \2 j- p( k* d将训练数据分成5个folds,每个folds训练5个epoch,使用adam优化器,learning rate设置成3e-5,batch size使用32。( n+ a/ a7 y% r" Z
2 a: u; Z+ |( v+ G# F3 S
num_folds = 5
. k4 M9 d% T7 ]) Rnum_epochs = 5
' h' O$ o6 |! E& s: p4 H8 t6 ybatch_size = 325 @6 |  v: s3 ^- w' u/ v& _
learning_rate = 3e-5! P# w* t+ {6 q1 {- O7 [9 O) b
optimizer =  tf.keras.optimizers.Adam(learning_rate)
) f: J/ b: ^6 q! m# @optimizer = tf.keras.mixed_precision.experimental.LossScaleOptimizer(
1 M& d! I  d# K" D    optimizer, 'dynamic')
7 P7 U& Q) e! G% |) Uconfig = BertConfig(output_hidden_states=True, num_labels=2)8 F1 K$ f& r: C, ?
model = BertModel.from_pretrained(PATH, config=config)
/ u* K2 s% s! W4 O  D( |: vloss_fn = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)4 X1 M) l; y: B: e8 r% P
kfold = model_selection.KFold(
/ a8 [% q' b1 L* W! }. O    n_splits=num_folds, shuffle=True, random_state=42)' h6 M, F, U5 K  T& D3 U
test_preds_start = np.zeros((len(test_df), 128), dtype=np.float32)0 u" ?" C/ k7 V/ s$ ?
test_preds_end = np.zeros((len(test_df), 128), dtype=np.float32)& T+ w3 ]/ s7 p& {8 s
for fold_num, (train_idx, valid_idx) in enumerate(kfold.split(train_df.text)):: }* O9 t0 V' O( Q
    print("\nfold %02d" % (fold_num+1))
. X9 W. f; s" r" S# G1 u   
$ p% ~( B7 G% ?/ k0 w# 创建train, valid, test数据集
' t7 _: f0 w- f' i. z    train_dataset = TweetDataset.create(
8 {. H8 O) ~0 Z- h' u        train_df.iloc[train_idx], batch_size, shuffle_buffer_size=2048)/ ^5 z) C) f9 o( U4 D9 ], Y  F
    valid_dataset = TweetDataset.create(& {2 R* r% \9 Y6 o2 u. E
        train_df.iloc[valid_idx], batch_size, shuffle_buffer_size=-1)
1 ?! P1 }8 r$ E6 E6 `    test_dataset = TweetDataset.create(6 @) P2 {. c; r- h
        test_df, batch_size, shuffle_buffer_size=-1)* z, Z& r, E/ E1 b+ o- p* o# e
    " R. w; q6 H/ p8 `
    best_score = float('-inf')
7 u7 a8 s. k: S( e. f$ g    for epoch_num in range(num_epochs):
8 S* A( G6 O% m$ N        print("\nepoch %03d" % (epoch_num+1)), S  w" `; i, E0 v
        
# n) Z3 B7 a$ _: m4 d9 v        train(model, train_dataset, loss_fn, optimizer)9 K* o+ ~% q9 P' y& ]% z
        ; ]0 U& K1 R% p
        pred_start, pred_end, text, selected_text, sentiment, offset = \+ R8 h; j9 q; Z' h8 ?1 N4 }* x
            predict(model, valid_dataset, loss_fn, optimizer)' k8 B6 S0 y- u9 b8 p
        ; x3 i: a( ^1 q; B
        selected_text_pred = decode_prediction(
# ?8 v! ]' ^9 B            pred_start, pred_end, text, offset, sentiment)
) h( _! H8 F) X  ^        jaccards = []
7 g+ i. ?: D. s2 G( L- e        for i in range(len(selected_text)):
6 F/ e# V, j1 w4 E- ^, N7 T) w            jaccards.append(
4 i; G" s- i; _7 o' r8 V( K                jaccard(selected_text, selected_text_pred))
; ?5 c7 k+ C$ o; b        
* q. b( ]# [2 l" W8 k        score = np.mean(jaccards)' r6 S9 O6 K9 l( k6 c
        print(f"valid jaccard epoch {epoch_num+1:03d}: {score}"+" "*15)" Y! D+ C2 |9 _; W' V
        " S4 A: Y1 C( f
        if score > best_score:$ ]  B) E1 |9 r7 [: c1 e
            best_score = score9 Y- O6 Q1 m3 l2 h0 _6 C2 w3 Z6 I
            
$ a8 W9 M* T' ]. {; v# predict test set9 y" e9 B, ?6 y9 P- f& \7 Y
            test_pred_start, test_pred_end, test_text, _, test_sentiment, test_offset = \8 f/ o) q8 u4 `* c
                predict(model, test_dataset, loss_fn, optimizer)$ X) D( e# G( B% p. B( I8 v1 Q
    ( D6 o0 ]7 T# _! @: K3 \; \1 O
    test_preds_start += test_pred_start * 0.2
4 O  E4 W# n7 z5 [- b- o8 a+ O    test_preds_end += test_pred_end * 0.21 h+ y' w  D, Z+ j$ `" K: C
    $ T  O4 h$ @  h% k" T
# 重置模型,避免OOM" O. e# E/ |% i8 Y3 X. {/ e- f
    session = tf.compat.v1.get_default_session()
% n( \! Y  S9 P$ ]7 c    graph = tf.compat.v1.get_default_graph(), M7 s/ `  J( h( h$ L
    del session, graph, model
& z1 R8 U% U5 K" T" Z    model = BertModel.from_pretrained(PATH, config=config)
3 F  ^; J1 _. y/ B预测测试数据,并生成提交文件
- g( V5 O2 [; {2 H$ ]( _; J' aselected_text_pred = decode_prediction(
4 b/ ?" K, f# j* A9 e+ f    test_preds_start, test_preds_end, test_text, test_offset, test_sentiment)
, p9 I4 d. B: r) J+ T/ E  Fdef f(selected):
2 y9 ]- `$ l: b: ~, \7 o( k    return " ".join(set(selected.lower().split()))  \+ R  z  ^7 i+ r
submission_df.loc[:, 'selected_text'] = selected_text_pred/ V- _+ b( K) v- G
submission_df['selected_text'] = submission_df['selected_text'].map(f)# b7 ]- e: k' I* ^
submission_df.to_csv("submission.csv", index=False). U' I5 f2 A+ P
这个方案在提交的时候在553个队伍中排名153位, 分数为0.68。9 m; R" I% j0 h/ M2 {: o: d
BitMere.com 比特池塘系信息发布平台,比特池塘仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表比特池塘立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

成为第一个吐槽的人

lf0517 小学生
  • 粉丝

    0

  • 关注

    0

  • 主题

    1