第16节(2 / 2)

加入书签

唐念根据提示登进服务器,数据是从74万篇中医古籍中采集出来的65万种药材,里面有很多别名、错名、重复等干扰项,需要先删除重复、冗余或噪声数据,再人工标注并对数据进行归类。

唐念以前做过机器学习方面的比赛,懂得归类问题的基本步骤,一般先是建立词汇表,获取每个词的ebeddg,然后使用n进行特征提取,最后挑选算法做二分类。

唐念凭借多年工作形成的肌肉记忆,搭建了个算法框架,把65万条数据灌进去,结果出来后拿着对照组验证准确度。

陈知礼从办公桌前走出,走到她身

后,只扫一眼得出结论:“过拟合了,重测。”

“……”

唐念只好删掉记录,又重新跑了一遍,陈知礼看一眼,仍不满意:“我说的重测是让你换一种算法,不是让你拿着3000万美金的gpu在这磨时间,消耗性能,ok?”

“……”

那你一开始说清楚啊!

“还有,你样本选的有问题,te得到的增强样本有误差,可能已经偏离了原来的语义,大概是文本ebeddg后距离向量处于高维空间,需要映射到低维再处理。”

唐念没听懂,一脸茫然地看着他。

“看我干什么,数据增强不会做就去查资料,瞪着一双大眼只会喘气吗?”

他的火气太明显,唐念懂了,他根本就不是让她来干活的,寻个理由拿她撒气罢了,所以无论她做什么都不可能令他满意。

“你说话就说话,大声吼什么,我怕狗叫!”

她最近根本没得罪他,上课不迟到,文献也好好翻译完了,都不知道他在这发的什么神经。

当然,犯病是不需要理由的。

陈知礼目光忽然移过来,唐念也看着他,四目相对

Loading...

内容未加载完成,请尝试【刷新网页】or【设置-关闭小说模式】or【设置-关闭广告屏蔽】~

推荐使用【UC浏览器】or【火狐浏览器】or【百度极速版】打开并收藏网址!

↑返回顶部↑ 章节报错(免登录)

书页/目录