在监督式机器学习中,我入到模型中,该模型会学习哪些输入会导致哪些输出。 例如,假设我们有一个信用卡交易数据集,其中包含每笔交易的价值、时间、消费模式和其他变量。我们之前已经标记了哪些是欺诈性的,哪些是合法的。计算机会学习哪种模式对应于每种类型的交易,因此它可以正确预测未来的交易是否是欺诈性的。 在无监督模型中,我们没有输出变量,因此模型试图通过寻找模式来对数据进行分类。
最常见的两种方法是聚类
和密度估计。第一种方法(也是最常见的方法)用于分类任务,按相似 突尼斯资源 模式对数据进行分组。后者总结了数据的分布。 例如,对于信用卡交易数据集,我们使用自学习模型根据人工智能检测到的模式对数据进行分类,然后工程师可以检查每个分组并标记任何可疑活动,或者可以对人工智能进行编程以自动报告异常值以供进一步调查。 在半监督学习中,我们有一些带有输出变量的数据,一些没有输出变量的数据,因此我们结合使用上述技术来构建模型。
监督模型与无监督模型 由于监督
模型基于我们已经标记了欺诈交易的数据,因此它们往 有针对性的电子邮件活动 往非常可靠。不幸的是,这也是它们的弱点。当这些模型发现与过去发现的模式相似的模式时,它们将发挥最佳作用。换句话说,随着模式的变化,它们的可靠性会下降。 另一方面,无监督模型对于探索新数据非常有用。但由于我们无法在没有进一步检查的情况下确定可疑活动是否确实是欺诈行为,因此该模型更有可能发现误报(在没有欺诈行为时检测到欺诈行为)。
请记住该模型只能告诉我们
某笔交易是否具有与其他数据条目相似的模式,而不能告 全部 100 诉我们该模式意味着什么。 尽管如此,这也许是必要之恶,而且有了正确的客户支持服务,假旗行动只不过是一种小麻烦而已。 需要注意的是,机器学习不能成为我们系统中唯一的欺诈预防措施。双重身份验证和用户验证可以大大帮助我们最大限度地降低欺诈风险,并避免错误标记带来的麻烦。
发表回复