Back to Bettafish

weibo_senti_100k 说明

SentimentAnalysisModel/WeiboSentiment_Finetuned/GPT2-Lora/dataset/intro.ipynb

3.0.01.2 KB
Original Source

weibo_senti_100k 说明

  1. 下载地址: 百度网盘
  2. 数据概览: 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条
  3. 推荐实验: 情感/观点/评论 倾向性分析
  4. 数据来源: 新浪微博
  5. 原数据集: 新浪微博,情感分析标记语料共12万条,网上搜集,具体作者、来源不详
  6. 加工处理:
    1. 将原来的 2 份文档,整合成 1 份 csv 文件
    2. 编码统一为 UTF-8
    3. 去重
python
import pandas as pd
python
path = 'weibo_senti_100k_文件夹_所在_路径'

1. weibo_senti_100k.csv

加载数据

python
pd_all = pd.read_csv(path + 'weibo_senti_100k.csv')

print('评论数目(总体):%d' % pd_all.shape[0])
print('评论数目(正向):%d' % pd_all[pd_all.label==1].shape[0])
print('评论数目(负向):%d' % pd_all[pd_all.label==0].shape[0])

字段说明

字段说明
label1 表示正向评论,0 表示负向评论
review微博内容
python
pd_all.sample(20)